[Azure Machine Learning] Resúmenes univariados y visualización simple de distribución de datos

Explorar los conjuntos de datos y examinar su distribución para entender como cada elemento, con su respectivo tipo y frecuencia, podría tener menor o mayor impacto en la calidad de un experimento es sin duda una de las tareas más importantes dentro de la preparación de los datos para la experimentación en Azure Machine Learning.

Esencialmente existen 2 tipos de datos o variables:

  • Continuos. Son cuantitativos y expresan medidas o valores numéricos. Por ejemplo, la edad (9, 27, 42, …), los años de experiencia (0, 1, 2, …), las ganancias mensuales (100, 1000, 10000, …), etc.
  • Categóricos. Son cualitativos y expresan características, estos se pueden clasificar de la siguiente manera:
    • Nominal. No se puede definir un orden natural entre sus categorías, por ejemplo, el sexo (hombre, mujer), la nacionalidad (peruana, boliviana, colombiana, venezolana, …), el estado civil (soltero, viudo, divorciado, …), etc.
    • Ordinal. Es posible establecer relaciones de orden entre las categorías, por ejemplo, el rango militar (soldado, sargento, teniente, …), el nivel escolar (primaria, secundaria), el nivel de prioridad (alta, media, baja), etc.
    • Por Intervalo. Proceden de variables cuantitativas agrupadas en intervalos, por ejemplo, la edad ([0-12] niños, [13-17] adolescentes, [18-24] jóvenes, …), etc.

Un resumen univariado nos permite describir el contenido de una única columna de datos a través del análisis de la sumatoria, agrupamiento o cálculo de valores estadísticos de distribución de datos.

En Azure Machine Learning Studio, si el resumen univariado es para una variable categórica, este resumen contendrá información sobre la frecuencia de los datos, la cantidad de valores únicos y la cantidad de datos faltantes.

Por otra parte, si se tratase de una variable continua, contaremos también con el resultado de funciones estadísticas como el promedio, la mediana, el valor mínimo, el valor máximo y la desviación estándar.

Estos resúmenes univariados de variables pueden ser visualizados en histogramas o diagramas de caja. Para el caso de las variables categóricas, estas solo pueden ser vistas en histogramas.

Finalmente, para los resúmenes visuales, Azure Machine Learning también provee opciones avanzadas de visualización:
  • Escala logarítmica. Sirve para introducir largos rango de datos en las representaciones visuales con menos ruido ya que los valores con menos frecuencia suelen verse muy pequeños. También sirve para crear valores absolutos cuando hay valores negativos y positivos en los datos.
  • Contenedores. Permite cambiar el número de agrupaciones de los datos continuos para su visualización. Es importante aumentar o disminuir el número de grupos de datos con cuidado para que no nos lleve a conclusiones erróneas. Alterar el número de contenedores también alterará la frecuencia de la agrupación de datos actual.
  • Distribución acumulativa. Muestra la probabilidad de a que rango superior o inferior podría pertenecer un valor que se toma aleatoriamente del conjunto de datos.
  • Densidad de probabilidad. Describe la probabilidad relativa según la cual dicha variable aleatoria tomará determinado valor.

Agregue un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *