13.10: Bootstrapping (Arranque)

Bootstrapping
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Bootstrapping
Please note that all translations are automatically generated. Click here for the English version.

593 Views

01:24 min
January 09, 2025

Overview

El término “bootstrap” se originó en el siglo XIX como una metáfora de la superación personal o de lograr algo de forma independiente, sin ayuda externa. Este concepto se extiende al bootstrapping estadístico, un método autónomo para estimar parámetros poblacionales a través del remuestreo, aunque puede ser computacionalmente intensivo. Desarrollado por el estadístico estadounidense Dr. Bradley Efron en 1979, el bootstrapping proporciona una forma robusta de realizar inferencias cuando el tamaño de la muestra original es pequeño o los datos son complejos.

El bootstrapping, también conocido como remuestreo de bootstrap, simula el proceso de muestreo mediante la extracción de varias muestras aleatorias, con reemplazo, de un conjunto de datos existente. En este caso, la muestra original actúa como una “población” sustitutiva, y cada nueva muestra se trata como una muestra independiente extraída de esta “población”. La suposición subyacente es que la muestra original es una buena representación de la población en general. Este enfoque es especialmente valioso cuando los tamaños de muestra son limitados, como en estudios con fósiles raros, muestras genómicas antiguas, tejidos de enfermedades raras, estudios de especies en peligro de extinción y experimentos únicos que no se pueden repetir fácilmente.

El proceso básico de bootstrapping incluye los siguientes pasos:

  1. Recoger una muestra inicial de tamaño n de la población para estimar un parámetro de interés.
  2. Trate esta muestra como una “población”.
  3. Extraiga varias muestras nuevas de tamaño n, con reemplazo, de la muestra original utilizando un muestreo aleatorio.
  4. Utilice estos “remuestreos de arranque” para el análisis y estimar el parámetro deseado.

Dado que el remuestreo es con reemplazo, cada nueva muestra puede incluir valores repetidos de los datos originales, lo que refleja la aleatoriedad en el proceso de remuestreo. El bootstrapping suele requerir un gran número de remuestreos (a menudo más de 1.000) para lograr estimaciones estables, que luego se pueden usar para calcular estadísticas como la media, la varianza, el error estándar o los intervalos de confianza para los parámetros de población.

El bootstrapping es rentable y accesible, ya que ofrece una forma sencilla de realizar inferencias sin necesidad de datos adicionales. Sin embargo, depende en gran medida de la muestra original, lo que significa que cualquier sesgo o error en los datos originales también estará presente en los resultados iniciales.

Transcript

El bootstrapping es un método de remuestreo que utiliza muestras extraídas aleatoriamente de la muestra ya recolectada con reemplazo.

Imagínese a un paleontólogo tratando de determinar la longitud media de las alas de una especie de insecto prehistórico con solo cinco especímenes fósiles.

Un tamaño de muestra más alto es deseable para hacer mejores inferencias, pero no hay forma de obtener más fósiles. En tales casos, el método de remuestreo de arranque es beneficioso.

Estos datos de cinco ejemplares dan una longitud media de 10,7 cm.

Para comenzar el arranque, extraiga muestras aleatoriamente del conjunto de muestras original.

Observe que esta muestra tiene un tamaño de muestra idéntico al original, pero algunos valores se repiten. Esto ocurre porque el remuestreo de bootstrap es completamente aleatorio.

Se extraen varias muestras de bootstrap para estimar la distribución media de la longitud de las alas. De esta manera, también se pueden obtener intervalos de confianza para estimar la media poblacional con mayor precisión.

El bootstrapping es fácil y rentable, pero se basa en una muestra limitada. Si una muestra de este tipo está sesgada o se recoge erróneamente, el remuestreo de arranque seguirá siendo tan sesgado o erróneo como la muestra original.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for