- Educación
- Matemáticas
- Estadísticas
- Cómo utilizar la prueba t para manejar muestras pequeñas y desviaciones estándar desconocidas
Libro Relacionado
Por Deborah J. Rumsey
Cuando se utiliza una estadística de prueba para una población media, hay dos casos en los que se debe utilizar la distribución t en lugar de la distribución Z. El primer caso es cuando el tamaño de la muestra es pequeño (por debajo de 30 o más), y el segundo caso es cuando la desviación estándar de la población,
En ambos casos, se dispone de información menos fiable en la que basar las conclusiones, por lo que hay que pagar una penalización por ello utilizando la distribución t, que tiene más variabilidad en las colas que una distribución Z.
Una prueba de hipótesis para una población significa que la distribución de t se llama prueba t. La fórmula para la estadística de prueba en este caso es:
donde tn-1 es un valor de la distribución t con n-1 grados de libertad.
Tenga en cuenta que es igual que la estadística de prueba para la muestra grande y/o el caso de distribución normal, excepto que
no se conoce, por lo que se sustituye la desviación estándar del muestreo, s, en su lugar, y se utiliza un valor t en lugar de un valor z.
Debido a que la distribución t tiene colas más gordas que la distribución Z, se obtiene un valor p mayor de la distribución t que el que la distribución normal estándar (Z-) le habría dado para la misma estadística de prueba. Un valor p mayor significa menos posibilidades de rechazar una hipótesis nula, H0. Tener menos datos y/o no conocer la desviación estándar de la población debería crear una mayor carga de la prueba.
Supongamos que una empresa de mensajería afirma que entrega sus paquetes en un promedio de 2 días, y usted sospecha que es más largo que eso. Las hipótesis son las siguientes
Para probar esta afirmación, usted toma una muestra aleatoria de 10 paquetes y registra sus tiempos de entrega. La media del muestreo es
y la desviación estándar de la muestra es de 0,35 días. (Debido a la desviación estándar de la población,
es desconocida, se estima con s, la desviación estándar de la muestra.) Este es un trabajo para la prueba t.
Debido a que el tamaño de la muestra es pequeño (n =10 es mucho menor que 30) y no se conoce la desviación estándar de la población, el estadístico de su prueba tiene una distribución t. Su grado de libertad es de 10 – 1 = 9. La fórmula para el estadístico de test (denominado valor t) es:
Para calcular el valor p, se busca en la fila de la tabla t para df = 9.
Su estadística de prueba (2,71) se encuentra entre dos valores en la fila para df = 9 en la tabla t: 2,26 y 2,82 (redondeando a dos decimales). Para calcular el valor p de su estadístico de prueba, encuentre qué columnas corresponden a estos dos números. El número 2.26 aparece en la columna 0.025 y el número 2.82 aparece en la columna 0.010; ahora usted sabe que el valor p para su estadística de prueba está entre 0.025 y 0.010 (es decir, 0.010). < p-value < 0.025).
Usando la tabla t usted no sabe el número exacto del valor p, pero debido a que 0.010 y 0.025 son menores que su nivel de significancia de 0.05, usted rechaza H0; usted tiene suficiente evidencia en su muestra para decir que los paquetes no están siendo entregados en 2 días, y de hecho el tiempo promedio de entrega es de más de 2 días.
La tentación es decir: «Bueno, yo sabía que la afirmación de 2 días en promedio era demasiado baja porque la media de la muestra de 2,3 minutos era claramente mayor. ¿Por qué necesito una prueba de hipótesis?» Todo lo que ese número te dice es algo sobre esos 10 paquetes muestreados. También es necesario tener en cuenta la variación utilizando el error estándar y la distribución t para poder decir algo sobre toda la población de paquetes enviados.
La tabla t no incluye todos los valores t posibles; sólo tienes que encontrar los dos valores más cercanos a los tuyos a cada lado, mirar las columnas en las que están y reportar tu valor p en relación al de ellos. (Si su estadística de prueba es mayor que todos los valores de t en la fila correspondiente de la tabla t, sólo use la última; su valor p será menor que su probabilidad).