Cómo medir la covarianza y la correlación de las muestras de datos

  1. Educación
  2. Matemáticas
  3. Estadísticas de la empresa
  4. Cómo medir la covarianza y la correlación de las muestras de datos

Libro Relacionado

Por Alan Anderson

Al comparar muestras de datos de diferentes poblaciones, dos de las medidas de asociación más populares son la covarianza y la correlación. La covarianza y la correlación muestran que las variables pueden tener una relación positiva, una relación negativa o ninguna relación.

Una muestra es una selección aleatoria de elementos de una población subyacente.

La covarianza de la muestra mide la fuerza y la dirección de la relación entre los elementos de dos muestras, y la correlación de la muestra se deriva de la covarianza. La covarianza de la muestra entre dos variables, X e Y, es

Esto es lo que significa cada elemento en esta ecuación:

  • sXY = la covarianza de la muestra entre las variables X e Y (los dos subíndices indican que se trata de la covarianza de la muestra, no de la desviación estándar de la muestra).
  • n = el número de elementos en ambas muestras.
  • i = un índice que asigna un número a cada elemento de la muestra, que va de 1 a n.
  • Xi = un solo elemento de la muestra para X.
  • Yi = un solo elemento de la muestra para Y.

La covarianza de la muestra puede tener cualquier valor positivo o negativo.

La correlación de la muestra (también conocida como coeficiente de correlación de la muestra) entre X e Y se calcula directamente a partir de la covarianza de la muestra con la siguiente fórmula:

Los términos clave en esta fórmula son

  • rXY = correlación de la muestra entre X e Y
  • sXY = covarianza de la muestra entre X e Y
  • sX = desviación típica de la muestra de X
  • sY = desviación típica de la muestra de Y

La fórmula utilizada para calcular el coeficiente de correlación de la muestra garantiza que su valor oscile entre -1 y 1.

Por ejemplo, supongamos que usted toma una muestra de los retornos de acciones de Excelsior Corporation y Adirondack Corporation de los años 2008 a 2012, como se muestra aquí:

AñoExcelsior Corp. Rendimiento anual (porcentaje) (X)Adirondack Corp. Rentabilidad anual (porcentaje) (Y)2008132009-22201034201106201230¿Cuál

es la covarianza y correlación entre las rentabilidades de las acciones? Para averiguarlo, primero hay que encontrar la media de cada muestra. En este ejemplo, X representa las devoluciones a Excelsior e Y representa las devoluciones a Adirondack.

  • La media del muestreo de X es

La media de la muestra se obtiene sumando todos los elementos de la muestra y luego dividiéndola por el tamaño de la muestra. En este caso, los elementos de la muestra suman 5 y el tamaño de la muestra es 5. Dividiendo estos números se obtiene una media de la muestra de 1.

  • La media de la muestra de Y es

Esta tabla muestra los cálculos restantes para la covarianza de la muestra:

En la tabla, el

representa las diferencias entre cada retorno a Excelsior en la muestra y la media de la muestra; de forma similar, la columna

representa los mismos cálculos para Adirondack. Las entradas en el

es igual al producto de las entradas de las dos columnas anteriores. La suma de los

da el numerador en la fórmula de covarianza de la muestra:

El denominador es igual al tamaño de la muestra menos uno, que es 5 – 1 = 4. (Ambas muestras tienen cinco elementos, n = 5.) Por lo tanto, la covarianza de la muestra es igual a

Para calcular el coeficiente de correlación de la muestra, divida la covarianza de la muestra por el producto de la desviación estándar de la muestra de X y la desviación estándar de la muestra de Y:

La desviación estándar de la muestra de X se obtiene calculando la varianza de la muestra de X y luego tomando la raíz cuadrada del resultado. La tabla muestra los cálculos para la desviación de muestreo de X.

En la tabla, el

representa las diferencias entre cada retorno a Excelsior en la muestra y la media de la muestra; la columna

representa la diferencia cuadrada entre cada retorno a Excelsior y la media de la muestra.

La suma de los

da el numerador en la fórmula de desviación de muestreo. Divida este número por el tamaño de la muestra menos uno (5 – 1 = 4) para obtener la desviación de la muestra de X:

La desviación estándar de la muestra de X es la raíz cuadrada de 4.5, o

La tabla muestra los cálculos para la varianza del muestreo de Y.

Basándose en los cálculos de la tabla, la varianza de la muestra de Y es igual a

La desviación estándar de la muestra de Y es igual a la raíz cuadrada de 5, o

La sustitución de estos valores en la fórmula de correlación de muestreo le proporciona

El resultado negativo muestra que hay una correlación negativa débil entre los rendimientos de las acciones de Excelsior y Adirondack. Si dos variables están perfectamente correlacionadas negativamente (siempre se mueven en direcciones opuestas), su correlación será -1. Si dos variables son independientes (no relacionadas entre sí), su correlación será 0. La correlación entre los rendimientos de las acciones de Excelsior y Adirondack es de -0,2108, lo que indica que las dos variables muestran una ligera tendencia a moverse en direcciones opuestas.

Leave a Reply