Introducción
Al realizar un análisis estadístico, el primer paso, y quizás el más importante dentro del proceso, es la limpieza de los datos, ya que es a partir de estos que se hará el análisis y se tomarán todas las decisiones.
Así, para este tipo de tareas, es común que los datos se obtengan de fuentes que han sido tomadas bajo distintos criterios lo que origina que casi siempre se tengan valores que escapen del comportamiento normal; o también que simplemente, por un comportamiento natural de la variable, se presenten algunos de estos datos anómalos o también llamados outliers. Sin embargo, estos niveles de tolerancia también es necesario que sean fijados bajo ciertos parámetros, de manera que no queden bajo la subjetividad que se pueda dar al realizar el análisis.
Por ejemplo, una empresa desea realizar un pronóstico de demanda del PRODUCTO A a partir de los datos de los últimos 2 meses, para lo cual se tienen los valores que se muestran en el siguiente gráfico:
(Para mayor visualización de la imagen, hacer click en la misma)
Como se observa, la mayoría de los datos tienen valores similares. No obstante, los dos que están marcados en rojo escapan del comportamiento regular, por lo que es aquí donde surge la disyuntiva de si deben ser considerados o no.
Para ello, una de las técnicas más usadas para la limpieza de datos es la de aplicar límites de control, los cuales se calculan en base al promedio, la desviación estándar y el nivel de confiabilidad que se busca en los datos. El objetivo de estos es establecer tanto un valor máximo como uno mínimo que en conjunto formen el rango dentro del cual deben estar todos los datos para que sean considerados en el análisis; en otras palabras, todos los puntos que caigan fuera de este rango, no se deberán considerar en el análisis ya que incrementarían el nivel de inexactitud.
Dado que la limpieza de datos es necesaria y repetitiva dentro del proceso, para este ejemplo se ha definido una función que nos permita calcular los límites de control de manera rápida para cuando los valores cumplen dos tipos de distribuciones especificas: normal o binomial.
Ejemplo
Para el caso de la empresa que estaba analizando la demanda diaria de su PRODUCTO A, luego de calcular tanto el promedio como la desviación estándar de los datos, se aplican la funciones LimControlInf y LimControlSup para así hallar el máximo y el mínimo permisible, los cuales nos ayudará a saber si hay algunos valores que no deben ser incluidos en el análisis.
Así, en el siguiente gráfico se verifica que con el límite de control superior y con el inferior los dos valores que se tenían identificados previamente como outliers lo son, por lo que serán eliminados antes de continuar con el análisis.
(Para mayor visualización de la imagen, hacer click en la misma)
Cabe resaltar que esta primera función se puede utilizar cuando se trata de valores que cumplen con una distribución normal. En caso se tenga, por ejemplo, una distribución binomial, que es otra de las más comunes, se puede emplear la función LimBinomialSup y LimBinomialInf. Este tipo de distribución es mayormente usada en los estudios que buscan determinar si el producto está cumpliendo con los estándares de calidad, para lo cual es necesario saber la probabilidad de encontrar algún artículo con fallas y el tamaño de la muestra a emplear.
UDF - Cálculo de limites de control
Por: Anggela del Rosario
02/02/2014 a las 7:18 pm
Muy buenas funciones!
Podría crearse para cada distribución estadística.
Para el caso de la distribución normal, cuando hablas del Nivel de Confianza (%), supongo que te refieres al "z" directamente.
02/08/2014 a las 2:01 am
Una herramienta muy útil si queremos aplicar un control de calidad a diversos productos, ya sea en su peso, diámetro, etc. Hacemos más eficaz nuestros cálculos y más confiables. Cabe mencionar que al momento de eliminar datos que se encuentran fuera de los límites de control se debe realizar un re-cálculo de los límites nuevos, y proceder nuevamente a verificar si nuestros datos se encuentran dentro de los límites.
02/08/2019 a las 11:16 am
Buen día.
Me podrían decir la formula de LimControlSup y la formula de LimControlInf
16/04/2020 a las 7:41 am
LCS=X+lc*s (Promedio+Límite de Confianza * desviacion estándar)
LCI= X-lc*s
27/04/2022 a las 11:54 am
Como se obtiene el Límite de Confianza?