Introducción
La herramienta de análisis de regresión es una herramienta avanzada que puede identificar cómo se relacionan las distintas variables de un proceso. La herramienta de regresión le dirá si una o varias variables están correlacionadas con el resultado de un proceso. Esta información puede identificar en qué punto del proceso se necesita control o qué factores son el mejor punto de partida para un proyecto de mejora del proceso.
A medida que desarrolle diagramas de causa y efecto basados en datos, es posible que desee examinar el grado de correlación entre las variables. Puede calcularse una medida estadística de la correlación utilizando el método de los mínimos cuadrados para cuantificar la fuerza de la relación entre dos variables. El resultado de ese cálculo es el coeficiente de correlación, o (r), que oscila entre -1 y 1. Un valor de 1 indica una correlación positiva perfecta: a medida que aumenta una variable, la segunda aumenta de forma lineal. Del mismo modo, un valor de -1 indica una correlación negativa perfecta: cuando una variable aumenta, la segunda disminuye. Un valor de cero indica una correlación nula.
Antes de calcular el Coeficiente de Correlación, el primer paso es construir un diagrama de dispersión. La mayoría de las hojas de cálculo, incluido Excel, pueden realizar esta tarea. Observar el diagrama de dispersión le dará una amplia comprensión de la correlación. A continuación se muestra un ejemplo de diagrama de dispersión basado en un fabricante de automóviles.
En este caso, el equipo de mejora de procesos está analizando los esfuerzos de cierre de puertas para comprender cuáles podrían ser las causas. El eje Y representa la anchura del hueco entre la pestaña de cierre de la puerta de un coche y la pestaña de cierre de la carrocería, una medida de lo ajustada que está la puerta a la carrocería. El diagrama de espina de pez indicaba que la variabilidad de la holgura de sellado podía ser una de las causas de la variabilidad de los esfuerzos de cierre de las puertas.

En este caso, se puede ver un patrón en los datos que indica una correlación negativa (pendiente negativa) entre las dos variables. De hecho, el Coeficiente de Correlación es -0,78, lo que indica una fuerte relación inversa o negativa.
Nota de MoreSteam: Es importante tener en cuenta que Correlación no es Causalidad – dos variables pueden estar muy fuertemente correlacionadas, pero ambas pueden estar causadas por una tercera variable. Por ejemplo, considere dos variables: A) cuánto crece mi césped por semana, y B) la profundidad media del embalse local. Ambas variables podrían estar altamente correlacionadas porque ambas dependen de una tercera variable: cuánto llueve.
En nuestro ejemplo de la puerta del coche, tiene sentido que cuanto más estrecha sea la separación entre las superficies de sellado de la chapa (antes de añadir burletes y molduras), más difícil será cerrar la puerta. Por tanto, un conocimiento rudimentario de mecánica apoyaría la hipótesis de que existe una relación causal. Otros procesos industriales no siempre son tan obvios como estos ejemplos sencillos, y la determinación de las relaciones causales puede requerir una experimentación más amplia (diseño de experimentos).
Análisis de regresión simple
Mientras que el Análisis de Correlación supone que no hay relación causal entre las variables, el Análisis de Regresión supone que una variable depende de: A) otra variable independiente (regresión simple), o B) múltiples variables independientes (regresión múltiple).
La regresión traza una línea de mejor ajuste a los datos utilizando el método de mínimos cuadrados. A continuación puede ver un ejemplo de regresión lineal utilizando el mismo gráfico de dispersión de la puerta del coche:

Se puede observar que los datos se agrupan en torno a la línea y que ésta tiene una pendiente descendente. Existe una fuerte correlación negativa expresada por dos estadísticos relacionados: el valor r, como se ha dicho antes es, -0,78 el valor r² es, por tanto, 0,61. R², llamado coeficiente de determinación, expresa qué parte de la variabilidad de la variable dependiente se explica por la variabilidad de la variable independiente. Es posible que una ecuación no lineal, como una función exponencial o de potencia, proporcione un mejor ajuste y un mayor valor de r² que una ecuación lineal.
Estos cálculos estadísticos pueden realizarse con Excel o con cualquiera de los paquetes de software de análisis estadístico. MoreSteam proporciona enlaces a descargas de software estadístico, incluido software gratuito.
Análisis de regresión múltiple
El análisis de regresión múltiple utiliza una metodología similar a la de la regresión simple, pero incluye más de una variable independiente. Un buen ejemplo son los modelos econométricos, en los que la variable dependiente del PNB puede analizarse en función de múltiples variables independientes, como los tipos de interés, el crecimiento de la productividad, el gasto público, las tasas de ahorro, la confianza de los consumidores, etc.
Muchas veces se utilizan datos históricos en la regresión múltiple en un intento de identificar los insumos más significativos de un proceso. La ventaja de este tipo de análisis es que puede realizarse de forma muy rápida y relativamente sencilla. Sin embargo, existen varios escollos potenciales:
- Los datos pueden ser incoherentes debido a diferentes sistemas de medición, desviación de la calibración, diferentes operadores o errores de registro.
- El rango de las variables puede ser muy limitado y dar una falsa indicación de baja correlación. Por ejemplo, un proceso puede tener controles de temperatura porque en el pasado se ha comprobado que la temperatura influye en el resultado. Por tanto, el uso de datos históricos de temperatura puede indicar una baja significación porque el intervalo de temperatura ya está controlado con una tolerancia estricta.
- Puede haber un desfase temporal que influya en la relación; por ejemplo, la temperatura puede ser mucho más crítica en un punto temprano del proceso que en un punto posterior, o viceversa. También puede haber efectos de inventario que deben tenerse en cuenta para asegurarse de que todas las mediciones se realizan en un punto coherente del proceso.
Una vez más, es fundamental recordar que correlación no es causalidad. Como afirman Box, Hunter y Hunter «En términos generales, para averiguar qué ocurre cuando se cambia algo, es necesario cambiarlo. Para inferir con seguridad la causalidad, el experimentador no puede confiar en que los sucesos naturales elijan el diseño por él; debe elegir el diseño por sí mismo y, en particular, debe introducir la aleatorización para romper los vínculos con posibles variables ocultas».¹
Volviendo a nuestro ejemplo de los esfuerzos de cierre de la puerta, recordará que la brecha de sellado de la puerta tenía un r² de 0,61. Utilizando la regresión múltiple, y añadiendo la variable adicional «durómetro del burlete de la puerta» (suavidad), la r² se eleva a 0,66. Así pues, el durómetro del burlete de la puerta es la variable más importante. Así pues, el durómetro del burlete de la puerta añade cierta capacidad explicativa, pero mínima. Analizado individualmente, el durómetro tenía una correlación mucho menor con el esfuerzo de cierre de la puerta: sólo 0,41.
Este análisis se basó en datos históricos, por lo que, como ya se ha señalado, el análisis de regresión sólo nos dice qué influyó en los esfuerzos de cierre de la puerta, no qué podría influir. Si la gama de durómetros hubiera sido mayor, habríamos observado una relación más estrecha con los esfuerzos de cierre de las puertas y una mayor variabilidad en los resultados.
Para un análisis más detallado, consulte la sección del Manual de estadística o el libro de Box, Hunter y Hunter (recomendado).
1. George E. P. Box, William G. Hunter and J. Stuart Hunter, Statistics for Experimenters – An Introduction to Design, Data Analysis, and Model Building (John Wiley and Sons, Inc. 1978) Page 495.
Resumen
La herramienta de análisis de regresión es una herramienta avanzada que puede identificar cómo se relacionan las distintas variables de un proceso. La herramienta de regresión le dirá si una o varias variables están correlacionadas con el resultado de un proceso. Esta información puede identificar en qué punto del proceso es necesario el control o qué factores son el mejor punto de partida para un proyecto de mejora del proceso.
Recursos adicionales
Webcast grabado: “The Transactional Dilemma: Understanding Regression with Attribute Data”
Webcast grabado: “The Power and the Pitfalls of Multiple Regression Analysis, Part 1”
Fuentes y notas:
Este texto fue desarrollado por nuestro aliado MoreSteam.
Blackberry&Cross es aliado de MoreSteam.
(*) Blackberry & Cross realiza ajustes al texto original para mejorar la interpretación en español
Si usted está interesado(a) en temas LEAN Six Sigma, recuede consultar: https://blackberrycross.com/cursos/
Imagen utilizada con permisos y en alineamiento con los términos de uso de canva.com
Leave a Reply