Prueba T en programación R: una muestra y prueba T pareada [Ejemplo]

¿Qué es la inferencia estadística?

La inferencia estadística es el arte de generar conclusiones sobre la distribución de los datos. Un científico de datos a menudo se ve expuesto a preguntas que sólo pueden responderse científicamente. Por tanto, la inferencia estadística es una estrategia para comprobar si una hipótesis es verdadera, es decir, si está validada por los datos.

Una estrategia común para evaluar hipótesis es realizar una prueba t. Una prueba t puede indicar si dos grupos tienen la misma media. Una prueba t también se llama Prueba de estudiante. Se puede estimar una prueba t para:

  1. Un único vector (es decir, prueba t de una muestra)
  2. Dos vectores del mismo grupo de muestra (es decir, prueba t pareada).

Se supone que ambos vectores se muestrean aleatoriamente, son independientes y provienen de una población distribuida normalmente con varianzas desconocidas pero iguales.

¿Qué es la prueba T en la programación R?

La idea básica detrás de una prueba T es utilizar estadísticas para evaluar dos hipótesis contrarias:

  • H0: Hipótesis NULA: El promedio es el mismo que el de la muestra utilizada
  • H3: Hipótesis verdadera: El promedio es diferente de la muestra utilizada

La prueba T se utiliza comúnmente con muestras de tamaño pequeño. Para realizar una prueba t, es necesario asumir la normalidad de los datos.

Sintaxis de prueba T en R

La sintaxis básica para t.test() en R es:

t.test(x, y = NULL,
       mu = 0, var.equal = FALSE)
arguments:
- x : A vector to compute the one-sample t-test
- y: A second vector to compute the two sample t-test
- mu: Mean of the population- var.equal: Specify if the variance of the two vectors are equal. By default, set to `FALSE`

Prueba T de una muestra en R

La prueba t de una muestra, o prueba de Student, compara la media de un vector con una media teórica, Prueba T de una muestra en R. La fórmula utilizada para calcular la prueba t es:

Prueba T de una muestra en R

Aquí,

  • Prueba T de una muestra en R se refiere a la media
  • Prueba T de una muestra en R a la media teórica
  • s es la desviación estándar
  • n el número de observaciones.

Para evaluar la significancia estadística de la prueba t, es necesario calcular la valor de p. valor de p varía de 0 a 1 y se interpreta de la siguiente manera:

  • Un valor p inferior a 0.05 significa que está muy seguro de rechazar la hipótesis nula, por lo que se acepta H3.
  • Un valor p superior a 0.05 indica que no tienes evidencia suficiente para rechazar la hipótesis nula.

Puede construir el valor p observando el valor absoluto correspondiente de la prueba t en la distribución de Student con un grado de libertad igual a Prueba T de una muestra en R

Por ejemplo, si tiene 5 observaciones, debe comparar nuestro valor t con el valor t en la distribución de Student con 4 grados de libertad y un intervalo de confianza del 95 por ciento. Para rechazar la hipótesis nula, el valor t debe ser superior a 2.77.

Véase la siguiente tabla:

Prueba T de una muestra en R

Un ejemplo de prueba T de muestra en R

Supongamos que es una empresa que produce cookies. Se supone que cada galleta contiene 10 gramos de azúcar. Las galletas se producen mediante una máquina que añade el azúcar en un bol antes de mezclarlo todo. Crees que la máquina no añade 10 gramos de azúcar por cada galleta. Si su suposición es cierta, es necesario reparar la máquina. Almacenaste el nivel de azúcar de treinta galletas.

Nota: : Puedes crear un vector aleatorio con la función rnorm(). Esta función genera valores distribuidos normalmente. La sintaxis básica es:

rnorm(n, mean, sd)
arguments
- n: Number of observations to generate
- mean: The mean of the distribution. Optional
- sd: The standard deviation of the distribution. Optional

Puede crear una distribución con 30 observaciones con una media de 9.99 y una desviación estándar de 0.04.

set.seed(123) sugar_cookie <- rnorm(30, mean = 9.99, sd = 0.04)
head(sugar_cookie)

Salida:

## [1]  9.967581  9.980793 10.052348  9.992820  9.995172 10.058603

Puede utilizar una prueba t de una muestra para comprobar si el nivel de azúcar es diferente al de la receta. Puedes dibujar una prueba de hipótesis:

  • H0: El nivel medio de azúcar es igual a 10
  • H3: El nivel medio de azúcar es diferente a 10

Se utiliza un nivel de significancia de 0.05.

# H0 : mu = 10
t.test(sugar_cookie, mu = 10)

Aquí está el resultado:

Un ejemplo de prueba T de muestra en R

El valor p de la prueba t de una muestra es 0.1079 y superior a 0.05. Puedes estar seguro al 95% de que la cantidad de azúcar añadida por la máquina está entre 9.973 y 10.002 gramos. No se puede rechazar la hipótesis nula (H0). No hay pruebas suficientes de que la cantidad de azúcar agregada por la máquina no siga la receta.

Prueba T emparejada en R

La prueba T pareada, o prueba t de muestra dependiente, se utiliza cuando la media del grupo tratado se calcula dos veces. La aplicación básica de la prueba t pareada es:

  • Pruebas A / B: Compara dos variantes
  • Estudios de control de casos: Antes/después del tratamiento

Ejemplo de prueba T pareada en R

Una empresa de bebidas está interesada en conocer el desempeño de un programa de descuentos en las ventas. La empresa decidió hacer un seguimiento de las ventas diarias de una de sus tiendas donde se promociona el programa. Al final del programa, la empresa quiere saber si existe una diferencia estadística entre las ventas promedio de la tienda antes y después del programa.

  • La empresa realizó un seguimiento de las ventas todos los días antes de que comenzara el programa. Este es nuestro primer vector.
  • El programa se promociona durante una semana y las ventas se registran todos los días. Este es nuestro segundo vector.
  • Realizará la prueba t para juzgar la efectividad del programa. Esto se llama prueba t pareada porque los valores de ambos vectores provienen de la misma distribución (es decir, la misma tienda).

La prueba de hipótesis es:

  • H0: No hay diferencia en la media
  • H3: Los dos medios son diferentes

Recuerde, un supuesto en la prueba t es una varianza desconocida pero igual. En realidad, los datos apenas tienen medias iguales y esto conduce a resultados incorrectos para la prueba t.

Una solución para relajar el supuesto de igual varianza es utilizar la prueba de Welch. R supone que las dos varianzas no son iguales por defecto. En su conjunto de datos, ambos vectores tienen la misma varianza, puede configurar var.equal= TRUE.

Crea dos vectores aleatorios a partir de una distribución gaussiana con una media más alta para las ventas después del programa.

set.seed(123)
# sales before the program
sales_before <- rnorm(7, mean = 50000, sd = 50)
# sales after the program.This has higher mean
sales_after <- rnorm(7, mean = 50075, sd = 50)
# draw the distribution
t.test(sales_before, sales_after,var.equal = TRUE)

Ejemplo de prueba T pareada en R

Obtuvo un valor p de 0.04606, inferior al umbral de 0.05. Concluye que los promedios de los dos grupos son significativamente diferentes. El programa mejora las ventas de las tiendas.

Resumen

  • La inferencia estadística es el arte de generar conclusiones sobre la distribución de los datos.
  • La prueba T pertenece a la familia de la estadística inferencial. Se emplea habitualmente para averiguar si existe una diferencia estadística entre las medias de dos grupos.
  • La prueba t de una muestra, o prueba de Student, compara la media de un vector con una media teórica.
  • La prueba T pareada, o prueba t de muestra dependiente, se utiliza cuando la media del grupo tratado se calcula dos veces.

Podemos resumir la prueba t en la siguiente tabla:

Prueba Hipótesis a probar valor de p Código Argumento opcional
prueba t de una muestra La media de un vector es diferente de la media teórica. 0.05
t.test(x, mu = mean)
prueba t de muestras pareadas La media A es diferente de la media B para el mismo grupo 0.06
t.test(A,B, mu = mean)
var.equal= TRUE

Si asumimos que las varianzas son iguales, necesitamos cambiar el parámetro var.equal= TRUE.