viernes, 4 de marzo de 2016

La Media en la Data (Tarea 2)

Para una persona que se considera ágil al adquirir conocimiento, las matemáticas siempre generan una inseguridad inmediata… Esta tarea me tomó mucho tiempo, pero los resultados siento valieron la pena, ya que me hizo pensar acerca de mi TFM.

Agrego que se habrían dado vida leyendo mis múltiples errores al intentar ingresar los datos en el programa para lograr esta entrada, pero espero les sirva los señalamientos que he hecho con OJO, para que no les pase lo mismo. 

Planteamiento del Problema

Unos investigadores desarrollan un nuevo entorno virtual de aprendizaje basado en Google Apps. Para evaluar la incidencia de la utilización de este nuevo entorno en las calificaciones de los estudiantes, durante dos años se realiza un estudio de caso con dos grupos de estudiantes: un grupo de control que utiliza Moodle y un grupo experimental que utiliza Google Apps.

A continuación:

A.    Proceso seguido para realizar el análisis
B.    Análisis de diferencias estadísticamente significativas entre las calificaciones de ambos grupos ANUAL (dos años)
C.     Justificación de los resultados de forma razonada

 A. Proceso seguido para realizar el análisis.


2. Abrir R-Studio (aplicación descargable, incluso en celulares para el análisis de datos estadísticos) R-Studio no requiere de conocimientos de programación, ya que solo hay que insertar comandos pre-establecidos, al igual que en Excel. Estos comandos están disponibles en http://www.mutae.net/2016/01/bt01-bt02-actividad-9-introduccion-r.html

3. Importar Data Año 1 (from textfile) El nombre dado será Year1


4. Filtro de datos en la consola
> datosMoodle <- subset(Year1, grupo=="Moodle")
> datosGoogleApps <- subset(Year1, grupo=="GoogleApps")



R-studio convierte un texto de datos en una tabla más legible. En este caso, resultó con 40 observaciones de 3 variables (tres columnas encabezadas como: Sujeto, Grupo y Nota).


Una vez completado el filtro de datos podemos pasar a analizar. 

¿Para qué analizar? 
Para saber si hay una diferencia significativa entre las notas obtenidas por los usuarios de Moodle y los usuarios de Google Apps, en cada uno de los dos años, además. Esto ayudará al docente a determinar cual es el mejor entorno para el uso de sus estudiantes.


B. Análisis de diferencias estadísticamente significativas entre las calificaciones de ambos grupos ANUAL (dos años)

1. Copiar el comando a ejecutar: > t.test(datosMoodle$nota, datosGoogleApps$nota) 

2. Observar el resultado, equivalente a
t = -2.8284, df = 38, p-value = 0.007427
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.7157314 -0.2842686
sample estimates:
mean of x mean of y
     6.25      7.25

Conclusión de todo esto que se ve raro y poco entendible:

MEDIA DE X= 6.25
MEDIA DE Y= 7.25

Aparentemente, 1 solo punto entre ambas MEDIAS no es mucha diferencia.

Sin embargo, estadísticamente esto puede variar ya que una diferencia (p-value) mayor o igual a 5% (0.05) es considerado significativo.

Busquemos en el resultado anterior p-value. Este es igual a 0.007427Es decir casi ni llega a 1% de diferencia.

Conclusión Año 1:
Es este análisis, no hay diferencia estadística significativa en las notas de los estudiantes que utilizan Moodle y Google Apps.

3. Repetir el Punto A, para el Año 2
OJO, para poder filtrar asegurarse de que el textfile para el año dos está en el formato entendido por R-studio, separaciones de tablas deben ser los indicados por ellos.

Dado que el signo de numero (#) que separaba originalmente no está entre ellos, hay que arreglar el documento, sustituyendo # por uno de los indicados más arriba. Toma unos dos minutos hacer y revisar esto.


Sugerencia: Al filtrar los datos agregarle un indicativo de que son para el segundo año: OJO, a los espacios y las mayúsculas al introducir los comandos para filtros.


>datosMoodle2 <- subset(Year2, Grupo=="Moodle")
>datosGoogleApps2 <- subset(Year2, Grupo=="Google Apps")



Ahora repetir puntos 1 y 2 del acápite B: Introducir el comando y analizar.

Comando: > t.test(datosMoodle2$Nota, datosGoogleApps2$Nota)

Análisis: 
t = -1.7514, df = 36.284, p-value = 0.08832
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.5103499  0.1103499
sample estimates:
mean of x mean of y
     6.55      7.25

Conclusión de todo esto que ya no se ve tan raro y quizás ahora empiece a ser entendible:

MEDIA DE X= 6.55
MEDIA DE Y= 7.25

La diferencia entre ambas medias es de apenas 0.7. Nada. Supuestamente, veamos la diferencia estadística (recordemos que p-value mayor o igual a 5% (0.05) es considerado significativo, caemos en el riesgo de ser ridiculizados por la comunidad científica)

Busquemos en el resultado anterior p-value.
Este es igual a 0.08832
Al multiplicarlo por 100 para obtener un valor porcentual, resulta que la diferencia es de 8.83%. ¿Significativo, no?

Conclusión Año 2:
Es este análisis, hay una diferencia estadística significativa en las notas de los estudiantes que utilizan Moodle y Google Apps. Le va mejor a uno de los dos grupos.


C.   Justificación de los resultados de forma razonada

Considerando que en el año 1 no hubo un diferencia estadística significativa entre los resultados calificativos de los estudiantes que usaron el entorno de aprendizaje Moodle y el entorno Google Apps, no se podría recomendar cuál sería un mejor PLE.

Observando que el en año 2 hubo diferencia significativa de 8% entre las notas de los usuarios de Google Apps y los usuarios de Moodle, se podría ahora realizar un estudio para identificar qué cambió en cada entorno del primer al segundo año para:

  1. Mejorar el entorno en el cual los estudiantes no mejoraron sus calificaciones
  2. Determinar cuales cambios en el entorno que sí mejoró las calificaciones le son útiles a los estudiantes para ellos individualmente mejorar su PLE.


No hay comentarios.:

Publicar un comentario