La inferencia estadística estudia los métodos para sacar conclusiones generales de toda una población a partir del análisis de una muestra. Además, estudia el grado de fiabilidad o confianza de los resultados obtenidos. Aquí te damos un resumen de los métodos más comunes que se utilizan en la inferencia estadística.

 

Tipos de muestreo

 

El muestreo consiste en tomar un subconjunto de una población. La muestra se suele denotar como X y la población como \Omega. Se distinguen los siguientes tipos de muestreo:

 

Muestreo aleatorio simple

 

En el muestreo aleatorio se enumeran todos los elementos de la población. Luego, se eligen al azar n individuos de la población.

 

1 Si después de escoger al individuo i, este ya no puede volver escogerse, entonces el muestreo se conoce como sin repetición.

 

2 Por el otro lado, si el individuo i puede ser elegido más de una vez, entonces el muestreo se conoce como con repetición.

 

Muestreo aleatorio sistemático

 

En el muestreo sistemático se elige un punto inicial aleatorio i. A partir de él se toman los demás elementos en intervalos constantes hasta completar la muestra. Es decir, X = \{i, i + h, i + 2 \dots\} donde i es aleatorio.

 

Muestreo aleatorio estratificado

 

En el muestreo aleatorio estratificado la población se divide naturalmente en distintas clases o estratos (que deben ser mutuamente excluyentes); luego para cada uno de los estratos se hace un muestreo aleatorio simple.

 

Si el tamaño de cada sub-población es proporcional al tamaño del estrato respecto a la población, entonces se dice que tenemos muestreo estratificado con asignación proporcional.

 

Muestreo aleatorio por conglomerados

 

Aquí, la población también se divide en clases (aunque no necesariamente son excluyentes). Para realizar el muestreo por conglomerados, tomamos un muestra de clases en lugar de individuos.

 

Por ejemplo, en lugar de considerar todos los alumnos de una universidad, tomamos una muestra de los salones: así, entrevistamos a todos los alumnos de estos salones y el muestreo se simplifica.

 

Distribución de las medias muestrales

 

El teorema central del límite nos da información sobre la distribución de la media de una muestra. Es muy importante para la inferencia estadística.

 

Teorema central del límite

 

Teorema central del límite. Sea \Omega una población con media \mu y desviación estándar \sigma. Si tomamos muestra de tamaño n \geq 30, entonces las medidas \overline{X} de estas muestras siguen aproximadamente una distribución normal con media \mu y desviación estándar \sigma/\sqrt{n}. Esto es,

 

\displaystyle \overline{X} \sim N\left( \mu, \frac{\sigma}{\sqrt{n}} \right)

 

La condición de que n \neq 30 no es necesaria cuando la población original \Omega sigue una distribución normal.

 

Consecuencias del teorema central del límite

 

Las siguientes son unas consecuencias importantes del teorema central del límite:

 

1 Nos permite determinar la probabilidad de que la media de una muestre concreta se encuentre en un intervalo determinado.

 

2 Permite calcular la probabilidad de que la suma de los elementos de una muestra esté, en principio, en un intervalo dado. Esto debido a que

 

\displaystyle \sum_{ i = 1 }^{ n }{x_i} \sim N\left( n\mu, \sigma \sqrt{n} \right)

 

3 Nos ayuda a inferir la media de la población a partir de una muestra.

 

Estimación de parámetros muestrales

 

Existen dos maneras para estimar un parámetro o propiedad de una población: estimación puntual y estimación por intervalo.

 

Estimación puntual

 

La estimación puntual se hace mediante el cálculo de un sólo número, el cual es la estimación del parámetro. Así, dada una muestra S, se calcula un número \hat{p} el cual se considera como el valor del parámetro poblacional.

 

Se tienen las siguientes estimaciones puntuales:

 

1 La media \mu de una población con distribución normal se estima con el promedio

 

\displaystyle \hat{\mu} = \overline{X} = \sum_{i = 1}^{n}{x_i}

 

2 La desviación estándar \sigma de una población con distribución normal se estima con la desviación muestral

 

\displaystyle \hat{\sigma} = S = \sqrt{\frac{\sum_{i = 1}^{n}{(x_i - \overline{X})^2}}{n - 1}}

 

3 La proporción p de una población con distribución binomial se hace con la la proporción muestral

 

\displaystyle \hat{p} = \frac{x}{n}

 

donde x es el número de elementos en X que cumplen con la propiedad deseada.

 

Intervalos de confianza

 

Un intervalo de confianza I = [L, U] es un intervalo en donde sabemos que se encuentra el parámetro con un nivel de confianza específico.

 

El nivel de confianza se refiere a la probabilidad de que el parámetro a estimar se encuentre en nuestro intervalo de confianza. Se suele denotar con 1 - \alpha.

 

El error de estimación admisible se refiere a la probabilidad que se permite de cometer error. Esta se denota con \alpha.

 

El valor crítico de la distribución normal se escribe como z_{\alpha/2}. El valor crítico satisface que

 

\displaystyle P[Z > z_{\alpha/2}] = \alpha / 2

 

por lo que también se cumple que

 

\displaystyle P[-z_{\alpha/2} < Z < z_{\alpha/2}] = 1 - \alpha

 

Intervalos característicos

 

Para la distribución normal N(\mu, \sigma), los intervalos de confianza tienen la forma

 

\displaystyle \left( \mu - z_{\alpha/2} \cdot \sigma, \mu - z_{\alpha/2} \cdot \sigma \right)

 

Estos intervalos se conocen también como intervalos característicos.

 

En la siguiente tabla se encuentran los intervalos característicos para los valores de significación \alpha más comunes:

 

1 - \alpha\alpha/2z_{\alpha/2}Intervalos característicos
0.900.051.645\left( \mu - 1.645 \sigma, \mu + 1.645 \sigma \right)
0.950.0251.96\left( \mu - 1.96 \sigma, \mu + 1.96 \sigma \right)
0.990.0052.575\left( \mu - 2.575 \sigma, \mu + 2.575 \sigma \right)

 

Estimación de la media con intervalo de confianza

 

Para estimar la media de una población \Omega a partir de la muestra X, se utiliza el siguiente intervalo de confianza

 

\displaystyle \left( \overline{X} - z_{\alpha/2} \cdot \frac{S}{\sqrt{n}}, \overline{X} + z_{\alpha/2} \cdot \frac{S}{\sqrt{n}} \right)

 

donde \overline{X} es el promedio de X, S es la desviación estándar de X y n es el tamaño de X. Además, 1 - \alpha es el nivel de confianza deseado.

 

En este caso, el error máximo de estimación es

 

\displaystyle E = z_{\alpha/2} \cdot \frac{S}{\sqrt{n}}

 

Además, el tamaño de muestra necesario para tener una precisión deseada se calcula mediante

 

\displaystyle n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2

 

Notemos que para calcular el tamaño de muestra necesario necesitamos conocer la desviación estándar de la población. Esta se puede estimar con una muestra pequeña y luego realizar una segunda muestra con el tamaño de muestra necesario.

 

Estimación de la proporción con intervalo de confianza

 

Supongamos que tenemos una población \Omega donde una proporción p de esta población satisface una característica determinada. Entonces, la proporción de individuos p' que satisface esta propiedad en las muestra de tamaño n sigue aproximadamente una distribución normal:

 

\displaystyle p' \sim N\left( p, \sqrt{\frac{p(1 - p)}{n}} \right)

 

De aquí, se sigue que la estimación de la proporción p a partir de la proporción p' de una muestra se hace mediante el siguiente intervalo:

 

\displaystyle \left( p' - z_{\alpha/2} \cdot \sqrt{\frac{p(1 - p)}{n}}, p' + z_{\alpha/2} \cdot \sqrt{\frac{p(1 - p)}{n}} \right)

 

Aquí, el error máximo de estimación está dado por

 

\displaystyle E = z_{\alpha/2} \cdot \sqrt{\frac{p(1 - p)}{n}}

 

Hipótesis estadísticas y tipos de contraste

 

Una prueba estadística (o test estadístico) es un procedimiento para concluir la validez de una hipótesis sobre algún parámetro la población a partir de una muestra.

 

La hipótesis que se tiene de la población se denota como H_0 y se llama hipótesis nula. La hipótesis nula siempre debe ser de la forma "es igual a", "es menor o igual" o "es mayor o igual".

 

La hipótesis contraria a la que se tiene se la población se denota mediante H_A y se llama hipótesis alternativa. Esta hipótesis es de la forma "es diferente a", "es mayor a" o "es menor a".

 

Pasos para realizar una prueba de hipótesis

 

En general, el procedimiento para realizar una prueba de hipótesis (para la media \mu o la proporción p) es el siguiente:

 

1 Se hacen enuncian la hipótesis nula H_0 y la hipótesis alternativa H_1.

 

2 Determinar el nivel de confianza 1 - \alpha o de significación \alpha.

 

3 Con esto se calcula el valor z_{\alpha/2} (para contraste bilateral) o z_{\alpha} (para contraste unilateral).

 

4 Luego, se construye la zona de aceptación del parámetro muestral (mayor detalle en la siguiente sección).

 

5 Se extrae una muestra de la población con n > 30 para poder utilizar la distribución normal.

 

6 Se calcula \overline{X} o \hat{p} a partir de la muestra.

 

7 Si el valor del parámetro muestral está dentro de la zona de aceptación, entonces se acepta la hipótesis nula con un nivel de significación \alpha. En caso contrario, se rechaza H_0.

 

Tipos de contrastes de hipótesis

 

Supongamos que tenemos una población \Omega con un parámetro r desconocido (que puede ser la media, proporción o desviación estándar). Entonces los contrastes se clasifican como bilateral o unilateral. Estos contrastes se resumen en la siguiente tabla:

 

BilateralH_0: r = r_0H_A: r \neq r_0
UnilateralH_0: r \geq r_0H_A: r < r_0
H_0: r \leq r_0H_A: r > r_0

 

Contraste bilateral

 

El contraste bilateral se da cuando la hipótesis nula es de la forma H_0: r = r_0. En este caso, la hipótesis alternativa tiene la forma H_A: r \neq r_0.

 

Para los contrastes bilaterales, el nivel de significación \alpha se concentra en dos colas respecto a la media. Si \hat{r} es el valor del parámetro en la muestra, esto significa que la hipótesis nula se rechaza si \hat{r} es muy grande (cola superior) o muy pequeño (cola inferior) en comparación con r.

 

Para el caso en el que deseamos probar la media \mu de la población, el intervalo de confianza se construye de la siguiente manera:

 

\displaystyle \left( \mu_0 - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}, \mu_0 + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \right)

 

mientras que para el caso de la proporción p, el intervalo de confianza es

 

\displaystyle \left( p - z_{\alpha/2} \cdot \sqrt{\frac{p(1 - p)}{n}}, p + z_{\alpha/2} \cdot \sqrt{\frac{p(1 - p)}{n}} \right)

 

Contraste unilateral

 

En el contraste unilateral tenemos dos casos. El primer caso es cuando la hipótesis nula es del tipo

 

\displaystyle H_0 : r \geq r_0

 

por lo que la hipótesis alternativa es del tipo

 

\displaystyle H_A : r < r_0

 

En este caso, la región de aceptación cuando estamos haciendo una prueba para la media \mu es

 

\displaystyle \left( \mu_0 - z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}, \infty \right)

 

mientras que la región de aceptación para la proporción p es

 

\displaystyle \left( p_0 - z_{\alpha} \cdot \sqrt{\frac{p(1 - p)}{n}}, \infty \right)

 

El segundo caso es cuando la hipótesis nula es del tipo

 

\displaystyle H_0 : r \leq r_0

 

por lo que la hipótesis alternativa es del tipo

 

\displaystyle H_A : r > r_0

 

recordemos que r puede ser \mu o p.

 

Así, la región de aceptación cuando estamos haciendo una prueba para la media \mu es

 

\displaystyle \left( -\infty, \mu_0 + z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}} \right)

 

mientras que la región de aceptación para la proporción p es

 

\displaystyle \left( -\infty, p_0 + z_{\alpha} \cdot \sqrt{\frac{p(1 - p)}{n}}\right)

 

Por último, notemos que en las hipótesis unilaterales tenemos los siguientes valores críticos más comunes:

 

1 - \alpha\alphaz_{\alpha}
0.900.101.28
0.950.051.645
0.990.012.33

 

Tipos de error

 

Cuando realizamos pruebas de hipótesis, siempre existe la posibilidad de cometer errores. Los errores se clasifican como error de tipo I y error de tipo II.

 

El error de tipo I ocurre cuando rechazamos la hipótesis nula siendo verdadera.

 

El error de tipo II, en cambio, sucede cuando aceptamos la hipótesis nula y esta es verdadera.

 

Los tipos de error se resumen en la siguiente tabla:

 

H_0VerdaderaFalsa
AceptarDecisión correcta
Probabilidad de 1 - \alpha
Decisión incorrecta:
Error tipo II
RechazarDecisión incorrecta
Error tipo I
Probabilidad de \alpha
Decisión correcta

 

La probabilidad de cometer el error de tipo I se el nivel de significación \alpha.

 

Por otro lado, la probabilidad de cometer el error de tipo II se suele denotar con \beta. En este caso, 1 - \beta se conoce como potencia de la prueba. La mejor manera de reducir \beta es aumentando el tamaño de muestra n tanto como sea posible.

 

¿Necesitas un/a profe de Matemáticas?

¿Te ha gustado el artículo?

¿Ninguna información? ¿En serio?Ok, intentaremos hacerlo mejor la próxima vezAprobado por los pelos. ¿Puedes hacerlo mejor?Gracias. Haznos cualquier pregunta en los comentar¡Un placer poder ayudarte! :) 3,89/5 - 9 voto(s)
Cargando…

Marta

➗ Licenciada en Químicas da clase de Matemáticas, Física y Química -> Comparto aquí mi pasión por las matemáticas ➗