Audición por computadora

La audición por computadora o escucha de máquina es el campo general del estudio de algoritmos y sistemas para el entendimiento del audio por las máquinas. La noción de que significa que una máquina pueda lograr “oír” es muy amplia y algún tanto vaga, computer audition intenta unir disciplinas que trataban problemas específicos o fueran pensadas para una aplicación en concreto. Los ingenieros Paris Smaragdis, entrevistados en el Technology Review, hablaron sobre estos sistemas ---“softwares que usan el sonido para localizar personas dentro de una habitación, máquinas de monitoreo para anomalías inminentes o activar cámaras de tráfico para grabar accidentes”.

Inspirado por los modelos de la audición humana, la audición por computadora trata con las interrogantes de la representación, transducción, agrupamiento, el uso del conocimiento musical y la semántica general del sonido con el propósito de realizar operaciones inteligentes sobre señales de música y audio. Técnicamente esto requiere una combinación de los métodos de campos como el procesamiento de señales, modelamiento auditivo, percepción y cognición de la música, reconocimiento de patrones y aprendizaje de máquina, también los más tradicionales métodos de inteligencia artificial para la representación de conocimiento musical.

Aplicaciones[editar]

Como la visión por computadora frente al procesamiento de imagen, la audición por computadora frente al diseño de audio trata más con la compresión del audio que con su elaboración. Esto también difiere del problema de compresión del discurso por las máquinas ya que esta trata con señales generales de audio, tales como los sonidos naturales y grabaciones musicales.

Las aplicaciones de la audición por computadora varían mucho e incluyen la búsqueda de sonidos, el reconocimiento de género, el monitoreo acústico, la transcripción de música, la textura del audio, la improvisación musical, emociones en audio, etc.

La audición por computadora se superpone con las siguientes disciplinas:

Recuperación de información de música: métodos para la búsqueda y análisis de similitudes entre señales de músicas.
Análisis científico auditivo: compresión y descripción de eventos y fuentes de audio.
Escucha de máquina: métodos para la extracción de parámetros significativos auditivos de señales de audio.
Musicología computacional y la teoría matemática de la música: uso de algoritmos que se benefician del conocimiento musical para el análisis de datos musicales.
Música por computadora: uso de las computadoras en la creación de aplicaciones musical.
Maestría musical de máquinas: dar audición a sistemas musicales interactivos.

Áreas de estudio[editar]

Una vez que las señales de audio son interpretadas por el sistema auditivo humano, eso complejos mecanismos perceptivos deberían ser simulados de algún modo por softwares para la escucha de máquina. En otras palabras, para realizar una equivalencia con los humanos, las computadoras deberían oír y entender el contenido del audio tanto como los humanos. Analizar el audio acertadamente involucra campos como: ingeniería eléctrica (análisis de espectro, filtrado, transformación de audio), inteligencia artificial (aprendizaje de máquina y clasificación de sonidos), Sicología acústica (percepción del sonido), ciencias cognitivas (neurociencia e inteligencia artificial), acústicas (física de la producción del sonido) y música (armonía, ritmo y timbre). Además, las transformaciones de audio como pitch shifting, time stretching y filtrado de objetos sonoros, deberían ser perceptivamente y musicalmente con sentido. Para mejores resultados, estas transformaciones requieren un entendimiento perceptivo de los modelos espectrales, la extracción de características a un alto nivel y el análisis/ síntesis del sonido. Finalmente, la estructuración y codificación del contenido de un archivo de audio (sonido y metadatos) podrían beneficiarse de los eficientes esquemas de compresión, los cuales descartan información inaudible en el sonido. Los modelos computacionales de música y percepción de sonido y la cognición pueden dirigir a una representación más significativa, una manipulación digital más intuitiva y a la generación de sonido y música en interfaces musicales humano-máquina.

El estudio de la audición por computadora podría ser apenas dividido dentro de los siguientes sub-problemas:

Representación: de señales y simbólica. Este aspecto trata con la representación frecuencia-tiempo, ambos en términos de notas y modelos espectrales, incluyendo el patrón playback y las texturas de audio.
Extracción de características: descriptores de sonidos, segmentación, onset, tono, detección de envelope, croma y de las representaciones auditivas
Estructuras de conocimiento musical: análisis de la tonalidad, el ritmo y la armonía.
Similitud del sonido: métodos para la comparación entre sonidos, identificación de sonidos, detección de nuevos sonidos, segmentación y clustering.
Modelación de secuencia: emparejamiento y alineación entre señales y secuencias de notas.
Separación de fuente: métodos de agrupamiento de simultáneos sonidos, como detección de múltiples tonos y métodos de clustering por la frecuencia-tiempo.
Cognición auditiva: modelación de emociones, anticipación y familiaridad, sorpresa auditiva y análisis de la estructura musical.
Análisis multi-modal: encontrar correspondencia entre señales de audio, visuales y de texto.

Problemas de representación[editar]

La audición por computadora trata con las señales de audio que pueden ser representadas en una variedad de formas, desde la codificación directa de audio digital en dos o más canales hasta las simbólicamente representadas instrucciones de síntesis. Las señales de audio son usualmente representadas en términos de grabaciones digitales o analógicas. Las grabaciones digitales son muestras de ondas acústicas o parámetros de algoritmos de comprensión de audio. Una de las propiedades de las señales musicales es que ellas a menudo combinan diferentes tipos de representaciones, como puntajes gráficos y secuencias de acciones de rendimiento que son codificadas como archivos MIDI.

Dado que las señales de audio comprimen múltiples fuentes de sonidos, las señales del habla que pueden eficientemente descritas en términos de específicos modelos (como el modelo filtro-fuente), son difíciles para idear una representación paramétrica para audio en general. Las representaciones paramétricas de audio usualmente usan bancos de filtros o modelos sinusoidales para capturar múltiples parámetros de sonidos, algunas veces aumentando el tamaño de la representación con la idea de capturar estructuras internas en la señal. Los tipos de datos adicionales que son relevante para la audición por computadora son las descripciones textuales de contenidos de audio, como las anotaciones, revisiones y la información visual en el caso de las grabaciones visuales de audio.

Características[editar]

Las descripciones de los contenidos de las señales de audio usualmente requieren extracción de características que capturen aspectos específicos de las señales de audio. Generalmente hablando, uno podría dividir las características de la señal o los descriptores matemáticos, como la energía, la descripción del espectro, etc., caracterizaciones estadísticas como cambios en el sonido o la detección de nuevos sonidos, las representaciones especiales que se adaptan mejor a la naturaleza de las señales musicales o los sistemas auditivos, como el crecimiento logarítmico de la sensibilidad (bandwidth) en la frecuencia o la invariancia octava (chroma).

Como los modelos paramétricos de audio usualmente requieren muchos parámetros, las características son usadas para resumir las propiedades de los múltiples parámetros en una más compacta o notable representación.

Conocimiento musical[editar]

Encontrar estructuras musicales específicas es posible usando el conocimiento musical como también los métodos de aprendizajes de máquina supervisado y no supervisado. Los ejemplos de estos incluyen detección de la tonalidad de acuerdo a la distribución de las frecuencias que corresponden a los patrones de ocurrencia de las notas en escalas musicales, la distribución de notas en el onset para la detección de la estructura del beat, la distribución de las energías en diferentes frecuencias para detectar ecos musicales, etc.

Similitud de sonido y modelado de secuencia[editar]

La comparación entre sonidos puede ser hecha mediante la comparación de las características con o sin referencia al tiempo. En algunos casos una completa similitud puede ser calculada por los valores cercanos de las características entre dos sonidos. En otros casos cuando una estructura temporal es importante, los métodos de deformación temporal dinámica deben ser aplicados para corregir las diferentes escalas temporales de eventos acústicos. Encontrar repeticiones y similares subsecuencias de eventos sónicos es importante para tareas como síntesis de textura e improvisación de máquinas.

Separación de fuente[editar]

Como una de las características básicas del audio en general es que comprende múltiples fuentes de sonido simultáneas, como múltiples instrumentos musicales, personas que hablan, ruidos de máquina o vocalización de animales, la capacidad de identificar y separar fuentes individuales es muy deseable. Desafortunadamente, no hay métodos que puedan resolver este problema de manera robusta. Los métodos existentes de separación de fuentes se basan a veces en la correlación entre diferentes canales de audio en grabaciones multicanal. La capacidad de separar las fuentes de las señales estéreo requiere diferentes técnicas que las que se aplican habitualmente en las comunicaciones donde hay varios sensores disponibles. Otros métodos de separación de fuentes se basan en el entrenamiento o la agrupación de características en la grabación mono, como el seguimiento de parciales relacionados armónicamente para la detección de tono múltiple.

Cognición auditiva[editar]

Generalmente, escuchar música y audio en general no es una actividad dirigida por tareas. Las personas disfrutan de la música por varias razones poco entendidas, que comúnmente se refieren al efecto emocional de la música debido a la creación de expectativas y su realización o violación. Los animales atienden los signos de peligro en los sonidos, que pueden ser nociones específicas o generales de cambios sorprendentes e inesperados. En general, esto crea una situación en la que la audición por computadora no puede basarse únicamente en la detección de características específicas o propiedades de sonido y tiene que proponer métodos generales de adaptación al entorno auditivo cambiante y el monitoreo de su estructura. Esto consiste en el análisis de estructuras de repetición y auto-similitud más grandes en el audio para detectar la innovación, así como la capacidad de predecir la dinámica de características locales.

Análisis multimodal[editar]

Entre los datos disponibles para describir la música, hay representaciones textuales, tales como notas, comentarios y críticas que describen los contenidos de audio en palabras. En otros casos, las reacciones humanas, como juicios emocionales o mediciones psicofisiológicas, pueden proporcionar una idea de los contenidos y la estructura del audio. La audición por computadora trata de encontrar una relación entre estas diferentes representaciones para proporcionar esta comprensión adicional de los contenidos de audio.