[Azure Machine Learning] Importar/Exportar datos a través de consultas Hive

En anteriores publicaciones, hemos aprendido a trabajar con bases de datos estructuradas a través de SQL Azure y bases de datos locales. Pero ¿qué podríamos hacer si nuestra fuente de datos no esta estructurada?

Apache Hive es un sistema de almacenamiento de datos para Apache Hadoop y hace posible el resumen, consulta y análisis de datos a través de HiveQL, que es un lenguaje de consulta similar a SQL. Hive nos permite proyectar una estructura en datos no estructurados para realizar consultas sin la necesidad de tener conocimientos de Java o MapReduce.

Importar usando consultas Hive

Como el objetivo de esta publicación no es que aprendamos sobre los fundamentos de Apache Hadoop o HDInsight, lo mejor será seguir este simple Quickstart para tener nuestro servicio en línea, así como un conjunto de datos de ejemplo para probar.

Una vez listo este primer ejercicio, ya podemos utilizar el módulo de importación de datos en nuestro experimento de la siguiente manera:

Tener en consideración que el parámetro Data Source debe ser Hive Query y que el parámetro Container name debe coincidir con el contenedor que elegimos para nuestro Hadoop Cluster.

Exportar usando consultas Hive

Ahora, si lo que queremos hacer es exportar un conjunto de datos, tenemos que emplear el módulo de exportación. Para el presente ejemplo alteré el conjunto de datos seleccionando solamente las columnas deviceplatform, devicemake, devidemodel.

En caso de que la tabla no exista, se creará una tabla externa y será llenada con la información correspondiente como se puede apreciar a continuación:.

Recursos

Si quedan más preguntas sobre los recursos y servicios previamente utilizados, recomiendo leer la documentación oficial a través de los siguientes enlaces:

What is Apache Hive and HiveQL on Azure HDInsight?
https://docs.microsoft.com/en-us/azure/hdinsight/hadoop/hdinsight-use-hive

Use Azure storage with Azure HDInsight clusters
https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-hadoop-use-blob-storage

Agregue un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *