[Cognitive Services] Speech Services & Text Analytics con los #CNMAudios

Hoy 7 de Agosto del 2018 es un día especial para la Justicia y el Perú, y esto es porque hoy se cumple exactamente 1 mes, desde que IDL Reporteros empezó a difundir los primeros audios que revelarían presuntas manipulaciones de sentencias, favorcitos, negociaciones de ascensos de funcionarios, entre otros delitos de corrupción que involucrarían a jueces, miembros del Consejo Nacional de la Magistratura y a la Señora K.

Probablemente existan más de 20 mil audios y si vemos la cantidad de vídeos publicados hasta el momento en el canal de IDL pues parece que aún queda mucho trabajo por hacer. No me imagino lo tedioso que debe ser escuchar cada uno de los 20 mil audios, transcribirlos, clasificarlos y relacionarlos con otros audios, sería excelente que existiera una aplicación donde solo tengas que seleccionar el archivo de audio para que la computadora lo vaya leyendo por ti, lo cual es completamente factible gracias a la Inteligencia Artificial, y mientras vas seleccionando otros audios y preparándote algo de comer, la computadora pueda ir encontrando las palabras relevantes dentro de cada una de las conversaciones y mostrártelas para que en primera instancia puedas clasificar y relacionar los audios a la velocidad de la luz.

Plataforma de desarrollo y Azure

En caso no existan, si estas ejecutando Windows de 64 bits, tienes que crear una nueva configuración de plataforma llamada x64 y si estas ejecutando Windows de 32 bits, tienes que crear una nueva configuración de plataforma llamada x86.

Y en nuestra suscripción de Azure debemos crear un servicio Speech (preview) y Text Analytics respectivamente para poder continuar.

Seleccionando nuestros archivos de audio

En nuestra primera tarea, lo que tenemos que hacer es definir una clase, con sus respectivas propiedades, que nos permita administrar los datos en relación a un audio y también la lógica necesaria para seleccionar un archivo.

Así como definir el código necesario para leer archivos de audio y empezar su procesamiento usando programación paralela.

Reconociendo la voz

Primero ordenemos los pasos que daremos para procesar un audio.

Ahora, según la documentación sobre el Speech Service de Microsoft Azure, solo podemos trabajar con audios que tengan el formato “single-channel (mono) WAV / PCM with a sampling rate of 16 kHz”. Por eso lo primero que tenemos que hacer es corregir el formato de los archivos seleccionados con ayuda de CSCore.

Y una vez con el audio listo ya podemos consumir el servicios a través del Speech SDK.

De la siguiente forma:

Detectando las palabras clave

Este caso es muy similar al anterior, solo necesitamos el paquete adecuado

Y hacer los request como corresponden según el siguiente ejemplo:

Y eso es todo amiguitos ;)!

Agregue un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *