La”Paradoja de Simpson”, es un fenómeno bien conocido que puede distorsionar las relaciones causales en conjuntos de datos ante la presencia de un confusor o covariable. En este artículo, hablaremos sobre algunas maneras prácticas para protegerse y no ser víctima de este insidioso efecto.
Para refrescar su memoria, la Paradoja de Simpson es el nombre que se le da al fenómeno donde la dirección de un efecto se invierte cuando se tiene en cuenta una variable previamente ignorada (una variable “al acecho”, también llamadas variables ocultas) que afecta significativamente la relación.
Un ejemplo de la paradoja
El estudio del ejercicio físico
Vamos a elaborar la definición con un ejemplo. Usted está a cargo de un estudio que compara cómo dos (2) técnicas de pérdida de peso – Dieta y ejercicio – afectan la pérdida de peso de pacientes con sobrepeso. En general, usted tiene 240 pacientes que participan en el estudio, con 120 asignados a una dieta para bajar de peso y los 120 restantes asignados a un régimen de ejercicio supervisado.
Al final de los 30 días, usted mide la pérdida de peso de cada grupo. Los datos mostraron que 70 personas que hacen dieta y 57 los deportistas perdieron peso de forma significativa, representando el 58% en el grupo de dieta y solo el 48% en el grupo de ejercicio – una diferencia significativa. Entonces, ¿debería usted concluir que la dieta es mejor que el ejercicio?
No, ¡y por eso la Paradoja de Simpson puede ser tan complicada! Cuando los datos están estratificados en términos del índice de masa corporal (IMC) de los participantes, como se muestra a continuación, surge una imagen más clara:
(tabla artículo original)
Cuando se examina por grupo de IMC, puede verse claramente que el porcentaje de pacientes que perdieron peso en cada IMC fue más pequeño entre las personas que hicieron dieta que entre los deportistas. La variable sorprendente (“al acecho”, oculta) es la asignación desequilibrada de pacientes obesos y gravemente obesos en los grupos de dieta y ejercicio.
Como puede ver, los números se invierten entre los dos grupos: 40 obesos y 80 gravemente obesos el grupo Dieta, y 80 obesos y 40 obesos severos en el grupo Ejercicio. Dado que parece que el grupo severamente obeso parece que se benefició desproporcionadamente más de cada tratamiento, el grupo de ejercicio fue penalizado simplemente debido a la menor cantidad de obesos severos en ese grupo.
Paradoja de Simpson en acción: el porcentaje de pacientes que perdieron peso fue mayor entre los deportistas pacientes obesos y obesos severamente, pero cuando se agregan los dos grupos, las personas que hacen dieta parecen ser las que más perdieron peso.
¿Por qué pasó esto?
Dos factores están en juego aquí. Primero, hay una variable de confusión (IMC) pasada por alto, y segundo, una asignación desproporcionada de los niveles de IMC entre los grupos experimentales (dieta y ejercicio). No sabemos la razón de la asignación desproporcionada, pero podemos suponer que los pacientes de alguna manera autoseleccionaron ellos a cuál de los dos grupos pertenecerían.
Los cuadros y gráficas simples pueden ayudar mucho a explicar lo que está sucediendo en los datos subyacentes. Vea por ejemplo esta gráfica de columnas hecha en Microsoft® Excel® que representa los datos desagregados; muestra las proporciones de personas que hacen dieta y deportistas en cada grupo de IMC.
La siguiente gráfica muestra las proporciones de pacientes con pérdida de peso y sin pérdida de peso entre los diferentes subgrupos.
Está claro que más deportistas perdieron peso en cada grupo de IMC (observe los niveles de color azul en los dos primeros pares de columnas,) pero que en la muestra agregada las proporciones parecen invertirse.
Cómo evitar la paradoja
Para evitar resultados falsos, siempre es una buena práctica examinar si la relación en el agregado del conjunto de datos se mantiene en los subconjuntos, especialmente cuando algunos grupos no están representados de la misma manera que otros en los datos.
Otra forma puede ser ponderar las muestras de acuerdo a sus tamaños.
Desafortunadamente, las herramientas de análisis estadístico son solo eso: herramientas para ayudarlo a organizar y analizar los datos observados.
No pueden decirle nada sobre los datos que no se observaron o no se incluyeron en el análisis.
Por lo tanto, es muy importante involucrar a un equipo multifuncional y especialmente a expertos en la materia y Profesionales en la planificación inicial y selección de las variables a medir. Después de que recogen los datos, la única manera de tratar de evitar este escollo es visualmente y, de lo contrario, examinar subconjuntos significativos de los datos.
Conclusión
La Paradoja de Simpson generalmente no será un problema en un experimento o encuesta bien diseñado. Usted puede identificar posibles variables “al acecho” (ocultas) y controlarlas adecuadamente eliminándolas, manteniéndolas constantes para todos los grupos, o incluirlas en el estudio.
La aleatorización adecuada también contribuye en gran medida a minimizar los efectos de una variable oculta que podría haber sido perdido. En el Análisis de la Covarianza, en el que posibles variables (covariables) asociadas a la respuesta (en nuestro ejemplo, el IMC inicial no estaba relacionado con los tratamientos, pero sí afectó la pérdida de peso) se agregaron al modelo y también ayudará.
Sin embargo, si no tiene la opción de planificar el estudio, se le proporcionan los datos de una base de datos y se le preguntan “encontrar lo que pueda”, la lección de la Paradoja de Simpson es mirar siempre los datos en varios niveles de agregación, como en el ejemplo anterior.
Originalmente publicado en la edición de enero de 2010 de MoreNews (http://www.moresteam.com/morenews/archive/jan10.html)
[Por Smita Skrivanek, Estadística Principal, MoreSteam.com LLC; adaptación de Blackberry&Cross al español. Todos los derechos reservados a MoreSteam *]
Original: Martes 30 de Octubre, 2018.
Leave a Reply