[Azure Machine Learning] El proceso de la Ciencia de Datos

La ciencia de datos es un campo interdisciplinario que se esta difundiendo bastante, pero ¿en qué consiste exactamente? Si bien se puede definir como la exploración y el análisis cuantitativo de los datos para extraer conocimiento, es menester definir un orden y detallar el proceso de descubrimiento de conocimiento.

Para ello consideremos las siguientes etapas:

1. EVALUACIÓN DE OPORTUNIDADES Y COMPRENSIÓN DEL ENTORNO

Desde mi punto de vista es la más importante ya que aquí es donde definimos nuestra base; ya saben: si un árbol crece torcido, torcido se queda. Aquí debemos responder con certeza las siguientes preguntas: ¿Cuál es el objetivo del actual proyecto? ¿Cuál es el verdadero problema? ¿Qué variables del entorno nos afectan? y sobretodo ¿Cómo evaluar la calidad de los resultados? ya que si no somos capaces de identificar si es que estamos avanzando o no, de nada valdrá todo el trabajo que hayamos hecho.

2. COMPRENSIÓN Y ADQUISICIÓN DE DATOS

Aquí debemos preguntarnos: ¿Qué fuentes de datos tenemos al alcance? ¿El volumen de datos es suficiente? ¿Las fuentes de datos son variadas? y con ello me refiero a si estoy considerando tanto fuentes de datos estructurados como no. Para el perfeccionamiento de todo este proceso y las pruebas posteriores es necesario preguntarnos también si las fuentes de datos están actualizadas o si reciben nueva información constantemente y la última y más importante pregunta que debemos resolver en esta etapa es si la fuente de datos es de confianza, si los datos son falsos o erróneos por muchos esfuerzos que hagamos no tendremos resultados productivos.

3. LIMPIEZA Y TRANSFORMACIÓN DE DATOS

En esta etapa nos encargaremos de la selección de datos y atributos relevantes, en la unión o integración de datos de diferentes fuentes, en la derivación o cálculo de atributos y en la normalización y clasificación de datos; este último punto es importante porque si no organizamos correctamente los datos considerando sus tipos y escalas, será más complicado construir representaciones gráficas de datos o un set de datos eficiente y libre de ruido.

4. ELABORACIÓN DE MODELOS PREDICTIVOS

Durante la etapa de la elaboración de los modelos predictivos resolveremos diversos problemas de Machine Learning o elaboraremos sistemas de recomendación, no es sencillo resumir esta etapa en unas palabras así que os adelanto voy a detallar mucho más sobre esto en las siguiente publicaciones.

5. CONSTRUCCIÓN DE POLÍTICAS REGULATORIAS

Sí, sé que suena algo raro, pero esta es la faceta prescriptiva de la Ciencia de Datos. Aquí, según los modelos elaborados, definiremos normas o políticas que se podrían aplicar al negocio o al sistema para poder optimizar los procesos, mitigar riesgos o para condicionar situaciones favorables futuras.

6. EVALUACIÓN DE RESULTADOS

Aquí debemos considerar la precisión de los modelos y tener datos confiables para hacer las evaluaciones y pruebas correspondientes.

7. DESPLIEGUE, MONITOREO Y MANTENIMIENTO

En esta última etapa debemos aplicar las conclusiones obtenidas al negocio o sistema, así como elaborar un plan para las actualizaciones y mejoras al proceso de descubrimiento de conocimiento. En la mayoría de los casos se hace mantenimiento solo al modelo, pero también estan las situaciones en que variables o datos que no consideramos relevantes en su momento, empiezan a tomar relevancia con el tiempo.

Para finalizar, vale recordar que no todas estas etapas van exactamente una detrás de otra ya que para algunas etapas es necesario confirmar antes de dar el siguiente paso si es que realmente partimos del mejor resultado de la anterior etapa y para esto es importante ser atento con cada output o resultado.

Agregue un comentario

Su dirección de correo no se hará público.