13.10: Начальной загрузки

Bootstrapping
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Bootstrapping
Please note that all translations are automatically generated. Click here for the English version.

593 Views

01:24 min
January 09, 2025

Overview

Термин «bootstrap» возник в 19 веке как метафора самосовершенствования или достижения чего-либо самостоятельно, без посторонней помощи. Эта концепция распространяется на статистическую бутстреппинг, самодостаточный метод оценки параметров популяции с помощью ресамплинга, даже если он может быть ресурсоемким с точки зрения вычислений. Разработанный американским статистиком доктором Брэдли Эфроном в 1979 году, бутстреппинг обеспечивает надежный способ выполнения логических выводов, когда исходный размер выборки мал или данные сложны.

Начальная загрузка, также известная как начальная перевыборка, имитирует процесс выборки путем рисования нескольких случайных выборок с заменой из существующего набора данных. Здесь исходная выборка выступает в качестве заменяющей «популяции», и каждая повторная выборка рассматривается как независимая выборка, составленная из этой «популяции». Основное предположение заключается в том, что исходная выборка является хорошим представлением более широкой популяции. Этот подход особенно ценен в условиях ограниченных размеров выборки, как в исследованиях редких окаменелостей, древних геномных образцов, тканей редких заболеваний, исследованиях исчезающих видов и уникальных экспериментах, которые нелегко повторить.

Базовый процесс начальной загрузки включает в себя следующие этапы:

  1. Соберите из генеральной совокупности начальную выборку размера n для оценки интересующего параметра.
  2. Рассматривайте эту выборку как «популяцию».
  3. Нарисуйте несколько новых образцов размера n с заменой из исходного образца с помощью случайной выборки.
  4. Используйте эти «начальные повторные выборки» для анализа, чтобы оценить желаемый параметр.

Поскольку пересчет происходит с заменой, каждая новая выборка может включать повторяющиеся значения из исходных данных, отражающие случайность в процессе пересчета. Начальная загрузка обычно требует большого количества повторных выборок (часто более 1000) для получения стабильных оценок, которые затем могут быть использованы для вычисления статистики, такой как среднее значение, дисперсия, стандартная ошибка или доверительные интервалы для параметров генеральной совокупности.

Начальная загрузка является экономически эффективной и доступной, предлагая простой способ делать выводы без необходимости использования дополнительных данных. Тем не менее, он в значительной степени зависит от исходной выборки, а это означает, что любые смещения или ошибки в исходных данных будут присутствовать и в результатах начальной загрузки.

Transcript

Бутстреппинг — это метод передискретизации, при котором используются выборки, выбранные случайным образом из уже собранной выборки с заменой.

Представьте себе палеонтолога, пытающегося определить среднюю длину крыльев доисторического вида насекомых, имея всего пять ископаемых экземпляров.

Более крупный размер выборки желателен для более точных выводов, но нет никакого способа получить больше окаменелостей. В таких случаях метод начальной передискретизации выгоден.

Эти данные по пяти экземплярам дают среднюю длину 10,7 см.

Чтобы начать начальную загрузку, случайным образом выберите сэмплы из исходного набора сэмплов.

Обратите внимание, что размер выборки в этом примере идентичен исходному, но некоторые значения повторяются. Это происходит потому, что передискретизация начальной загрузки происходит совершенно случайно.

Для оценки среднего распределения длины крыла берется несколько таких образцов бутстрепа. Таким образом, можно также получить доверительные интервалы для более точной оценки среднего генеральной совокупности.

Бутстреппинг прост и экономичен, но он основан на ограниченной выборке. Если такая выборка смещена или собрана ошибочно, повторная выборка начальной загрузки останется такой же смещенной или ошибочной, как и исходная выборка.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for