[Azure Machine Learning] Resúmenes multivariados y visualización personalizada de distribución de datos

El principal propósito de los resúmenes multivariados es el de describir el comportamiento y la relación entre dos o más variables a través del análisis y el descubrimiento de patrones en los datos visualizados.

Usando Azure Machine Learning Studio Experiment Designer

La forma más sencilla de visualizar resúmenes multivariados es a través de la acción “Visualizar” de los módulos con conjuntos de datos de salida y la opción “comparar con”. Vale mencionar que esta opción no siempre esta disponible ya que dependerá de la cantidad de registros en el conjunto de datos, si son demasiados simplemente no esta disponible.

Usando Módulos de Lenguaje Python/R

Execute R Script

Azure Machine Learning Studio es compatible con la distribución típica de R que está disponible en CRAN y Microsoft R Open (MRO), que incluye todos los paquetes básicos de R, más los paquetes Revo. Podemos especificar qué versión de R utilizar en un experimento. Sin embargo, no podemos instalar ninguna otra versión de R en el área de trabajo.

Para el presente ejemplo usaremos el paquete ggplot2. Para mayor información sobre ese paquete, visitar el siguiente enlace.

Para visualizar el resultado debemos consultar la salida R Device.

Y dar click en Visualizar.

Execute Python Script

Actualmente, Azure Machine Learning Studio es compatible con las versiones 2.7.11 y 3.5 de Python. Podemos especificar qué versión de Python utilizar en un experimento. Sin embargo, no podemos instalar ninguna otra versión de R en el área de trabajo.

Aunque no es lo recomendable, solo para hacer este ejemplo usaremos rplot. Esta librería ya esta descontinuada y además, desde el 1 de enero de 2019, todas los nuevas funciones de pandas solo serán compatibles con Python 3.

Para visualizar el resultado solo debemos consultar la salida Python Device y dar click en Visualizar.

Usando Microsoft Azure Notebooks

Azure Machine Learning implementa Jupyter Notebooks, una aplicación web interactiva de código abierto que sirve para escribir y ejecutar código Python o R. Los Notebooks pueden ser usados para compartir código y documentación desde un mismo espacio, así como para construir modelos de Machine Learning usando R/Python o para invocar experimentos existentes.

R Notebook

Cuando abrimos un dataset utilizando Jupyter Notebooks, Azure se encarga de generar el código R que descarga esa data.

Y solo tenemos que preocuparnos de agregar nuestras instrucciones y listo.

Python Notebook

Para este último ejemplo usaremos un Python 3 Notebook y el paquete seaborn para la visualización de datos.

Aunque en la página oficial de seaborn se menciona que requiere Python 3.5+, al parecer podemos trabajar algunas cosas con el Python 3.4.5 que nos soporta Python Notebook.

Agregue un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *