[Azure Machine Learning] ¿Qué es la Ciencia de Datos?

Considerando el actual crecimiento global, se estima que cada dos días, el mundo está creando tanta información digital nueva como todos los datos creados desde que inicio la historia de la humanidad hasta el presente siglo. Esto ocurre debido a diferentes factores como por ejemplo:

  • La ola mundial de digitalización: que involucra casi todas las industrias, tanto en el sector privado como el público y este último esta siendo acompañado con una filosofía de datos abiertos.
  • La evolución de los dispositivos conectados o el “Internet de las cosas” (IoT): que nos trae una abrumadora cantidad de información en tiempo real a través de los diferentes tipos de sistemas integrados.
  • El almacenamiento digital global barato: que va desde dispositivos personales hasta nubes privadas o públicas, actualmente se puede acceder fácilmente a una gran cantidad de servicios de almacenamiento digital gratuito o de bajo costo.
  • El poder de cómputo ubicuo: hoy en día, los servicios de computación en nube están en todas partes y son fácilmente accesibles, una tarjeta de crédito y un navegador son todo lo que se necesita para comenzar a operar en cualquier plataforma y con la capacidad de procesamiento que se desee.

“El conocimiento es poder”

Hoy esta frase es más vigente que nunca. Con esta situación, dónde la información digital es tan masiva y variada, es importante saber cómo aprovecharla, y para ello tenemos la Ciencia de Datos, pero ¿qué es la ciencia de datos?

Si bien no tiene una definición única o definitiva, puesto que es un concepto en evolución, se puede definir como un campo interdisciplinario y práctico para la exploración y el análisis cuantitativo de los datos, sean estos estructurados o no, para desarrollar, entender, extraer conocimiento y formular resultados procesables. Recordemos que los datos estructurados se caracterizan por tener propiedades definidas, como los datos relacionados a una persona o a una orden de compra, mientras que su contraparte no tiene una estructura interna identificable, como las imágenes o los sonidos.

La ciencia de datos es interdisciplinaria porque incluye ciertos aspectos del aprendizaje automático, la estadística, la programación, entre otras subdisciplinas. Y es práctica porque requiere la comprensión del dominio en el que se aplica, por ejemplo, si es sobre salud, marketing o banca debes conocer el propósito, entender el “valor agregado” de la industria e identificar las restricciones o demás variables del entorno.

Entonces, la ciencia de datos se aplica sobre algún contexto y esta puede ser predictiva o prescriptiva, según a lo que queramos llegar. Con una ciencia de datos predictiva explotamos los datos históricos y transaccionales para encontrar patrones que nos digan que situaciones podemos esperar y con ese apoyo tomar decisiones con menos apuros. Y con una ciencia de datos prescriptiva no sólo se anticipa lo que sucederá, sino también se encuentra el por qué, la automatización de esto nos permitirá obtener opciones de decisión sobre cómo aprovechar una oportunidad futura o mitigar un riesgo.

Si estas interesado en ser un científico de datos, te voy adelantando que muchas de las cosas que realiza uno estan en relación a:

  • Encontrar fuentes de datos
  • Adquirir datos
  • Limpiar y transformar datos
  • Comprender las relaciones entre los datos

Brindaré más detalles sobre el proceso de la ciencia de datos más adelante.

Agregue un comentario

Su dirección de correo no se hará público.