Термин «bootstrap» возник в 19 веке как метафора самосовершенствования или достижения чего-либо самостоятельно, без посторонней помощи. Эта концепция распространяется на статистическую бутстреппинг, самодостаточный метод оценки параметров популяции с помощью ресамплинга, даже если он может быть ресурсоемким с точки зрения вычислений. Разработанный американским статистиком доктором Брэдли Эфроном в 1979 году, бутстреппинг обеспечивает надежный способ выполнения логических выводов, когда исходный размер выборки мал или данные сложны.
Начальная загрузка, также известная как начальная перевыборка, имитирует процесс выборки путем рисования нескольких случайных выборок с заменой из существующего набора данных. Здесь исходная выборка выступает в качестве заменяющей «популяции», и каждая повторная выборка рассматривается как независимая выборка, составленная из этой «популяции». Основное предположение заключается в том, что исходная выборка является хорошим представлением более широкой популяции. Этот подход особенно ценен в условиях ограниченных размеров выборки, как в исследованиях редких окаменелостей, древних геномных образцов, тканей редких заболеваний, исследованиях исчезающих видов и уникальных экспериментах, которые нелегко повторить.
Базовый процесс начальной загрузки включает в себя следующие этапы:
Поскольку пересчет происходит с заменой, каждая новая выборка может включать повторяющиеся значения из исходных данных, отражающие случайность в процессе пересчета. Начальная загрузка обычно требует большого количества повторных выборок (часто более 1000) для получения стабильных оценок, которые затем могут быть использованы для вычисления статистики, такой как среднее значение, дисперсия, стандартная ошибка или доверительные интервалы для параметров генеральной совокупности.
Начальная загрузка является экономически эффективной и доступной, предлагая простой способ делать выводы без необходимости использования дополнительных данных. Тем не менее, он в значительной степени зависит от исходной выборки, а это означает, что любые смещения или ошибки в исходных данных будут присутствовать и в результатах начальной загрузки.
Бутстреппинг — это метод передискретизации, при котором используются выборки, выбранные случайным образом из уже собранной выборки с заменой.
Представьте себе палеонтолога, пытающегося определить среднюю длину крыльев доисторического вида насекомых, имея всего пять ископаемых экземпляров.
Более крупный размер выборки желателен для более точных выводов, но нет никакого способа получить больше окаменелостей. В таких случаях метод начальной передискретизации выгоден.
Эти данные по пяти экземплярам дают среднюю длину 10,7 см.
Чтобы начать начальную загрузку, случайным образом выберите сэмплы из исходного набора сэмплов.
Обратите внимание, что размер выборки в этом примере идентичен исходному, но некоторые значения повторяются. Это происходит потому, что передискретизация начальной загрузки происходит совершенно случайно.
Для оценки среднего распределения длины крыла берется несколько таких образцов бутстрепа. Таким образом, можно также получить доверительные интервалы для более точной оценки среднего генеральной совокупности.
Бутстреппинг прост и экономичен, но он основан на ограниченной выборке. Если такая выборка смещена или собрана ошибочно, повторная выборка начальной загрузки останется такой же смещенной или ошибочной, как и исходная выборка.
Related Videos
Nonparametric Statistics
683 Просмотры
Nonparametric Statistics
231 Просмотры
Nonparametric Statistics
761 Просмотры
Nonparametric Statistics
119 Просмотры
Nonparametric Statistics
80 Просмотры
Nonparametric Statistics
109 Просмотры
Nonparametric Statistics
109 Просмотры
Nonparametric Statistics
112 Просмотры
Nonparametric Statistics
167 Просмотры
Nonparametric Statistics
593 Просмотры
Nonparametric Statistics
695 Просмотры
Nonparametric Statistics
742 Просмотры
Nonparametric Statistics
641 Просмотры
Nonparametric Statistics
629 Просмотры
Nonparametric Statistics
634 Просмотры
Nonparametric Statistics
210 Просмотры
Nonparametric Statistics
72 Просмотры
Nonparametric Statistics
425 Просмотры
Nonparametric Statistics
172 Просмотры
Nonparametric Statistics
276 Просмотры
Nonparametric Statistics
194 Просмотры
Nonparametric Statistics
296 Просмотры