Publicaciones

Inicio/Publicaciones

Publicaciones

2024

Alberto Ramos González Paloma Martínez, Lourdes Moreno

Exploring Large Language Models to generate Easy to Read content Artículo de revista

En: Frontiers Computer. Science. Section Human-Media Interaction. Topic Artificial Intelligence and Digital Accessibility, vol. 6, no 2024, 2024.

Resumen | Enlaces | BibTeX

@article{nokey,

title = {Exploring Large Language Models to generate Easy to Read content},

author = {Paloma Martínez, Alberto Ramos González, Lourdes Moreno},

url = {https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2024.1394705/full?utm_source=Email_to_authors_&utm_medium=Email&utm_content=T1_11.5e1_author&utm_campaign=Email_publication&field&journalName=Frontiers_in_Computer_Science&id=1394705},

doi = {https://doi.org/10.3389/fcomp.2024.1394705},

year  = {2024},

date = {2024-10-08},

urldate = {2024-10-08},

journal = {Frontiers Computer. Science. Section  Human-Media Interaction. Topic Artificial Intelligence and Digital Accessibility},

volume = {6},

number = {2024},

abstract = {Ensuring text accessibility and understandability are essential goals, particularly for individuals with cognitive impairments and intellectual disabilities, who encounter problems accessing information across various mediums such as web pages, newspapers, online administrative tasks, or health documents. Initiatives like Easy to Read and Plain Language guidelines aim to simplify complex texts; however, standardizing these guidelines remains challenging and often involves manual processes. This work presents an exploratory investigation into leveraging Artificial Intelligence (AI) and Natural Language Processing (NLP) approaches to simplify Spanish texts into Easy to Read formats, with a focus on utilizing Large Language Models (LLMs) for creating accessible texts, especially in generating Easy to Read content. The study contributes a parallel corpus of Spanish adapted for Easy To Read format, which serves as a valuable resource for training and testing text simplification systems. Additionally, several text simplification experiments using LLMs and the collected corpus are conducted, involving fine-tuning and testing a Llama2 model to generate Easy to Read content. A qualitative evaluation, guided by an expert in text adaptation for Easy to Read content, is carried out to assess the automatically simplified texts. This research contributes to advancing text accessibility for individuals with cognitive impairments, highlighting promising strategies for leveraging LLMs while responsibly managing energy usage.},

keywords = {},

pubstate = {published},

tppubtype = {article}

}

Cerrar

Lourdes Moreno Barbara Corsetti,; Hervás., Raquel

Shaping Interactive Systems: Defining Features to Meet the Needs of Individuals with Mild Intellectual Disabilities Actas de congresos

In Proceedings of the XXIV International Conference on Human Computer Interaction (Interacción ’24). Association for Computing Machinery, New York, NY, USA, Article 12, 1–8., 2024.

Enlaces | BibTeX

Lourdes Moreno Paloma Martínez, Hiram Ochoa

A Tool Suite for Cognitive Accessibility Leveraging Easy-to-Read Resources and Simplification Strategies Actas de congresos

SEPLN – CEDI 2024. Seminar of the Spanish Society for Natural Language Processing at the 7th Spanish Conference on Informatics. June 19-20, 2024 A Coruña, Spain, 2024.

BibTeX

Helen Petrie Lourdes Moreno, Paloma Martínez

Designing user interfaces for content simplification aimed at people with cognitive impairments. Artículo de revista

En: Universal Access in the Information Society. 23, (1), 99-117. Springer, 1615-5297. 2024, Abril., 2024.

Enlaces | BibTeX

Lourdes Moreno Rodrigo Alarcón, Paloma Martínez

EASIER System. Evaluating a Spanish lexical simplification proposal with people with cognitive impairments. Artículo de revista

En: International Journal of Human-Computer Interaction. 40, (5), 1195-1209. Taylor & Francis, 1044-7318. 2024, 2024.

Enlaces | BibTeX

2023

Ruiz, Cristobal Colón

Weakly supervised Deep Learning for Natural Language Processing Actas de congresos

2023.

Resumen | BibTeX

@proceedings{nokey,

title = {Weakly supervised Deep Learning for Natural Language Processing},

author = {Cristobal Colón Ruiz},

editor = {Directora: Isabel Segura Bedmar. Departamento de Informática, Universidad Carlos III de Madrid},

year  = {2023},

date = {2023-12-21},

urldate = {2023-12-21},

abstract = {En los últimos años, hemos sido testigos de un gran avance en las tareas de PLN gracias al uso de modelos de aprendizaje profundo, y en particular, de los modelos transformers. Sin embargo, como ocurría con el uso de los algoritmos clásicos de aprendizaje supervisado, los resultados de estos nuevos modelos en gran medida dependen de la cantidad y calidad de los corpora (colecciones de textos anotados para la tarea a resolver) utilizados para entrenar los modelos. La creación y anotación de estos recursos es muy costosa, lo que se traduce en una escasez en este tipo de datasets, suponiendo un cuello de botella para los enfoques supervisados. Por esta razón, el principal objetivo de la tesis ha sido investigar distintos métodos para resolver tareas de PLN en escenarios con pocos datos anotados. En concreto, estos métodos han sido evaluados en tareas como el análisis de sentimiento de comentarios sobre medicamentos y el reconocimiento de entidades (tales como fármacos, dosis, ruta y fuerza) en prescripciones médicas de historias clínicas. Los enfoques propuestas en la tesis abarcan desde el uso de enfoques semi-supervisados basados en el uso de redes generativas adversarias, así como el modelos generativos de lenguaje (tales como GPT-J) para la generación de nuevas textos sintéticos a partir de textos anotados. También, se ha evaluado el uso de corpus en tareas similares para ajustar los modelos propuestos. Esto ha demostrado que es posible transferir el conocimiento aprendido a partir de ese corpus, para resolver una tarea similar en otro tipo de textos. Los resultados obtenidos en la tesis son prometedores y demuestran que el uso de este tipo de técnicas pueden ayudar a paliar la escasez de datos anotados para resolver tareas de PLN. Aunque las tareas evaluadas están ligadas al dominio biomédicos, los enfoques estudiados podrían emplearse en cualquier otro tipo de textos. 

La creciente disponibilidad de Historias Clínicas Electrónicas (HCE), así como de las reseñas electrónicas de pacientes, ha dado lugar a un gran volumen de documentos clínicos donde parte de la información está incluida de forma no estructurada dentro de textos. Debido al elevado coste en tiempo y recursos para extraer la información de los textos clínicos, se ha incrementado el interés en investigar y desarrollar técnicas de Procesamiento del Lenguaje Natural con el fin de automatizar el proceso y optimizar la investigación en nuevas soluciones y enfoques clínicos que mejoren los resultados con pacientes. No obstante, los documentos clínicos plantean retos añadidos frente a textos de carácter genérico debido a la diferencia de las características del lenguaje empleado, uso de acrónimos específicos y jergas no estandarizadas por parte de cada sistema o centro clínico. Además, la necesidad de anonimizar los textos, conlleva que el acceso a documentos clínicos sea limitado propiciando la escasez de corpus anotados. 

La principal hipótesis de esta tesis doctoral es que el uso de mecanismos de aprendizaje por transferencia, enfoques semi supervisados y modelos del lenguaje generativos pre-entrenados puede mejorar el rendimiento de los modelos en escenarios con pocos datos anotados. Esto se puede conseguir transfiriendo el conocimiento aprendido de una tarea a otra, reduciendo la necesidad de grandes cantidades de datos anotados, y generando instancias o representaciones sintéticas que enriquezcan el conjunto de entrenamiento, mejorando la robustez y generalización de los modelos. En particular, el uso de algoritmos de Deep Learning que permiten adquirir conocimiento de tareas con características similares puede mitigar el problema del cuello de botella que supone la falta de corpus ricos anotados, mejorando así el aprendizaje de características relevantes para tareas específicas de Procesamiento del Lenguaje Natural. 

La investigación desarrollada en esta tesis se centra principalmente en dos tareas en textos del dominio médico: la clasificación de reseñas de medicamentos y el reconocimiento de entidades (fármacos, dosis, fuerza, ruta, forma farmacológica) en prescripciones médicas a partir de datos de historias clínicas anonimizadas del la base de datos UK BioBank (https://www.ukbiobank.ac.uk/)  del Reino Unido. El acceso al conjunto de datos ha sido posible gracias a la colaboración con el Birney Research Group (https://www.ebi.ac.uk/research-beta/birney/) del Instituto Europeo de Bioinformática (EMBL-EBI). 

Respecto a la primera tarea, el dataset [1] (utilizado contiene un total de 215.063 revisiones de medicamentos obtenidos de la web drugs.com, que habían sido clasificados con un valor entero de 0 a 9, indicando el grado de satisfacción del paciente con el fármaco.  Los creadores de este dataset agruparon las revisiones de medicamentos según tres niveles de polaridad según la calificación de la revisión: negativa (clase 0, calificación =4), neutral (clase 1, calificación en [5,6]) y positiva (clase 2; calificación>=7). La distribución de las clases indica que la clase más frecuente es la positiva (más de 142.000 revisiones), seguida de la clase negativa (alrededor de 53.000 instancias) , siendo la clase neutra la de menor número de instancias (aproximadamente 20.000 instancias).  En la tesis se propone el uso de distintos modelos de Deep Learning como las redes convolucionales, las redes recurrentes y los modelos transformers. Los resultados muestran que los modelos pre-entrenados basados en transformadores superan a otros algoritmos de Deep Learning. También se propuso el estudio de un enfoque semi-supervisado basado en un red generativa adversaria (GAN), que consta de un generador y un discriminador. A partir de pequeñas muestras de datos anotados, el generador se encarga de generar nuevas instancias sintéticas con el objetivo de engañar al discriminador, cuyo objetivo es determinar si la  instancia es real o ha sido generada por el generador. Además, de este enfoque basado en una red GAN, se estudió el uso de modelos generativos (en particular GPT-J) para generar nuevas instancias sintéticas. Los resultados sugieren que emplear datos no etiquetados en enfoques semi-supervisados o incluir instancias sintéticas de modelos generativos del lenguaje pre entrenados mejora el rendimiento de los modelos discriminativos ajustados en un escenario de pocos datos. No obstante, su rendimiento disminuye cuando hay datos de entrenamiento suficientes para aprender las características relevantes para la tarea.

En el caso de la segunda tarea, el reconocimiento de entidades en prescripciones médicas, se propuso el uso del modelo de lenguaje BioBERT extendido con una capa final con el  algoritmo Conditional Random Field (CRF). Dicho modelo fue ajustado utilizando en primer lugar el dataset n2c2 de 2018 (https://n2c2.dbmi.hms.harvard.edu/publications/challenge/2018), y reajustado una segunda vez, utilizando una pequeño conjunto de prescripciones médicas del UK BioBank. El dataset n2c2 consiste en una colección de notas de alta de la Unidad de Cuidados Intensivos (UCI) con información detallada sobre los medicamentos utilizados en los tratamientos. El dataset incluye anotaciones de fármacos (más de 26.000 instancias), dosis (más de 6.000 instancias), forma de administración (casi 11.000 instancias), ruta (casi 10.000 instancias) y fuerza (más de 10.000 instancias). El dataset de UK BioBank fue anotado por expertos farmacéuticos con el mismo conjunto de entidades. Los resultados muestran que este enfoque obtiene mejores resultados que otros modelos como Med7 (https://github.com/kormilitzin/med7), ajustado sobre conjuntos de datos de notas clínicas y notas de alta. Esto puede deberse a la diferencia en las características del lenguaje utilizado en las prescripciones en comparación con las notas clínicas y a la heterogeneidad entre los diferentes conjuntos de datos. Al pre-ajustar el modelo primero sobre el dataset n2c2, el modelo es capaz de transferir el aprendizaje durante el ajuste de las prescripciones médicas de UK BioBank. 

Otra de las contribuciones de la tesis ha sido el desarrollo de la herramienta PRESNER (https://github.com/ccolonruiz/PRESNER), capaz de extraer y mapear información de las prescripciones médicas en las historias clínicas. La herramienta ha sido diseñada para ayudar a los investigadores que necesitan obtener información de dichas prescripciones para ser utilizadas en estudios farmacogenéticos. En concreto, PRESNER es capaz de identificar medicamentos, su forma farmacológica, su ruta, dosis y fuerza, y obtener su clasificación ATC, así como distinguir entre medicamentos sistémicos y no sistémicos. },

keywords = {},

pubstate = {published},

tppubtype = {proceedings}

}

Cerrar

En los últimos años, hemos sido testigos de un gran avance en las tareas de PLN gracias al uso de modelos de aprendizaje profundo, y en particular, de los modelos transformers. Sin embargo, como ocurría con el uso de los algoritmos clásicos de aprendizaje supervisado, los resultados de estos nuevos modelos en gran medida dependen de la cantidad y calidad de los corpora (colecciones de textos anotados para la tarea a resolver) utilizados para entrenar los modelos. La creación y anotación de estos recursos es muy costosa, lo que se traduce en una escasez en este tipo de datasets, suponiendo un cuello de botella para los enfoques supervisados. Por esta razón, el principal objetivo de la tesis ha sido investigar distintos métodos para resolver tareas de PLN en escenarios con pocos datos anotados. En concreto, estos métodos han sido evaluados en tareas como el análisis de sentimiento de comentarios sobre medicamentos y el reconocimiento de entidades (tales como fármacos, dosis, ruta y fuerza) en prescripciones médicas de historias clínicas. Los enfoques propuestas en la tesis abarcan desde el uso de enfoques semi-supervisados basados en el uso de redes generativas adversarias, así como el modelos generativos de lenguaje (tales como GPT-J) para la generación de nuevas textos sintéticos a partir de textos anotados. También, se ha evaluado el uso de corpus en tareas similares para ajustar los modelos propuestos. Esto ha demostrado que es posible transferir el conocimiento aprendido a partir de ese corpus, para resolver una tarea similar en otro tipo de textos. Los resultados obtenidos en la tesis son prometedores y demuestran que el uso de este tipo de técnicas pueden ayudar a paliar la escasez de datos anotados para resolver tareas de PLN. Aunque las tareas evaluadas están ligadas al dominio biomédicos, los enfoques estudiados podrían emplearse en cualquier otro tipo de textos.
La creciente disponibilidad de Historias Clínicas Electrónicas (HCE), así como de las reseñas electrónicas de pacientes, ha dado lugar a un gran volumen de documentos clínicos donde parte de la información está incluida de forma no estructurada dentro de textos. Debido al elevado coste en tiempo y recursos para extraer la información de los textos clínicos, se ha incrementado el interés en investigar y desarrollar técnicas de Procesamiento del Lenguaje Natural con el fin de automatizar el proceso y optimizar la investigación en nuevas soluciones y enfoques clínicos que mejoren los resultados con pacientes. No obstante, los documentos clínicos plantean retos añadidos frente a textos de carácter genérico debido a la diferencia de las características del lenguaje empleado, uso de acrónimos específicos y jergas no estandarizadas por parte de cada sistema o centro clínico. Además, la necesidad de anonimizar los textos, conlleva que el acceso a documentos clínicos sea limitado propiciando la escasez de corpus anotados.
La principal hipótesis de esta tesis doctoral es que el uso de mecanismos de aprendizaje por transferencia, enfoques semi supervisados y modelos del lenguaje generativos pre-entrenados puede mejorar el rendimiento de los modelos en escenarios con pocos datos anotados. Esto se puede conseguir transfiriendo el conocimiento aprendido de una tarea a otra, reduciendo la necesidad de grandes cantidades de datos anotados, y generando instancias o representaciones sintéticas que enriquezcan el conjunto de entrenamiento, mejorando la robustez y generalización de los modelos. En particular, el uso de algoritmos de Deep Learning que permiten adquirir conocimiento de tareas con características similares puede mitigar el problema del cuello de botella que supone la falta de corpus ricos anotados, mejorando así el aprendizaje de características relevantes para tareas específicas de Procesamiento del Lenguaje Natural.
La investigación desarrollada en esta tesis se centra principalmente en dos tareas en textos del dominio médico: la clasificación de reseñas de medicamentos y el reconocimiento de entidades (fármacos, dosis, fuerza, ruta, forma farmacológica) en prescripciones médicas a partir de datos de historias clínicas anonimizadas del la base de datos UK BioBank (https://www.ukbiobank.ac.uk/) del Reino Unido. El acceso al conjunto de datos ha sido posible gracias a la colaboración con el Birney Research Group (https://www.ebi.ac.uk/research-beta/birney/) del Instituto Europeo de Bioinformática (EMBL-EBI).
Respecto a la primera tarea, el dataset [1] (utilizado contiene un total de 215.063 revisiones de medicamentos obtenidos de la web drugs.com, que habían sido clasificados con un valor entero de 0 a 9, indicando el grado de satisfacción del paciente con el fármaco. Los creadores de este dataset agruparon las revisiones de medicamentos según tres niveles de polaridad según la calificación de la revisión: negativa (clase 0, calificación =4), neutral (clase 1, calificación en [5,6]) y positiva (clase 2; calificación>=7). La distribución de las clases indica que la clase más frecuente es la positiva (más de 142.000 revisiones), seguida de la clase negativa (alrededor de 53.000 instancias) , siendo la clase neutra la de menor número de instancias (aproximadamente 20.000 instancias). En la tesis se propone el uso de distintos modelos de Deep Learning como las redes convolucionales, las redes recurrentes y los modelos transformers. Los resultados muestran que los modelos pre-entrenados basados en transformadores superan a otros algoritmos de Deep Learning. También se propuso el estudio de un enfoque semi-supervisado basado en un red generativa adversaria (GAN), que consta de un generador y un discriminador. A partir de pequeñas muestras de datos anotados, el generador se encarga de generar nuevas instancias sintéticas con el objetivo de engañar al discriminador, cuyo objetivo es determinar si la instancia es real o ha sido generada por el generador. Además, de este enfoque basado en una red GAN, se estudió el uso de modelos generativos (en particular GPT-J) para generar nuevas instancias sintéticas. Los resultados sugieren que emplear datos no etiquetados en enfoques semi-supervisados o incluir instancias sintéticas de modelos generativos del lenguaje pre entrenados mejora el rendimiento de los modelos discriminativos ajustados en un escenario de pocos datos. No obstante, su rendimiento disminuye cuando hay datos de entrenamiento suficientes para aprender las características relevantes para la tarea.
En el caso de la segunda tarea, el reconocimiento de entidades en prescripciones médicas, se propuso el uso del modelo de lenguaje BioBERT extendido con una capa final con el algoritmo Conditional Random Field (CRF). Dicho modelo fue ajustado utilizando en primer lugar el dataset n2c2 de 2018 (https://n2c2.dbmi.hms.harvard.edu/publications/challenge/2018), y reajustado una segunda vez, utilizando una pequeño conjunto de prescripciones médicas del UK BioBank. El dataset n2c2 consiste en una colección de notas de alta de la Unidad de Cuidados Intensivos (UCI) con información detallada sobre los medicamentos utilizados en los tratamientos. El dataset incluye anotaciones de fármacos (más de 26.000 instancias), dosis (más de 6.000 instancias), forma de administración (casi 11.000 instancias), ruta (casi 10.000 instancias) y fuerza (más de 10.000 instancias). El dataset de UK BioBank fue anotado por expertos farmacéuticos con el mismo conjunto de entidades. Los resultados muestran que este enfoque obtiene mejores resultados que otros modelos como Med7 (https://github.com/kormilitzin/med7), ajustado sobre conjuntos de datos de notas clínicas y notas de alta. Esto puede deberse a la diferencia en las características del lenguaje utilizado en las prescripciones en comparación con las notas clínicas y a la heterogeneidad entre los diferentes conjuntos de datos. Al pre-ajustar el modelo primero sobre el dataset n2c2, el modelo es capaz de transferir el aprendizaje durante el ajuste de las prescripciones médicas de UK BioBank.
Otra de las contribuciones de la tesis ha sido el desarrollo de la herramienta PRESNER (https://github.com/ccolonruiz/PRESNER), capaz de extraer y mapear información de las prescripciones médicas en las historias clínicas. La herramienta ha sido diseñada para ayudar a los investigadores que necesitan obtener información de dichas prescripciones para ser utilizadas en estudios farmacogenéticos. En concreto, PRESNER es capaz de identificar medicamentos, su forma farmacológica, su ruta, dosis y fuerza, y obtener su clasificación ATC, así como distinguir entre medicamentos sistémicos y no sistémicos.

Cerrar

Paloma Martínez Alberto Ramos González, Israel González Carrasco

HULAT@IDDP CLEF 2023: Intelligent Prediction of Disease Progression in Multiple Sclerosis Patients Actas de congresos

2023.

Resumen | Enlaces | BibTeX

Raquel Hervás Barbara Corsetti, Lourdes Moreno

Knowing Users with Mild Intellectual Impairments in UX Design Processes Actas de congresos

AIPO 2023.

Resumen | Enlaces | BibTeX

Lourdes Moreno, Paloma Martínez

Managing daily living activities for people with acquired brain injury using the DailyCare application Actas de congresos

2023.

Resumen | Enlaces | BibTeX

Belén Ruiz-Mezcua Maria Jose Lucia-Mulas, Pablo Revuelta

Automatic music emotion classification model for movie soundtrack subtitling based on neuroscientific premises Artículo de revista

En: Applied Intelligence, vol. 53, pp. 27096–27109, 2023.

Enlaces | BibTeX

Helen Petrie Lourdes Moreno, Suzanna Schmeelk

Accessibility barriers with authentication methods for blind and partially sighted people in the Spanish-speaking world Actas de congresos

2023.

Resumen | BibTeX

Álvaro Barbero-Jiménez Guillem García-Subies, Paloma Martínez

A Survey of Spanish Clinical Language Models Artículo de revista

En: arXiv preprint, 2023.

Resumen | Enlaces | BibTeX

Myriam Arrue Aritz Sala, J. Eduardo Pérez

Accessibility design issues beyond the standards of government e-services for people with low vision Artículo de revista

En: International Journal of Human-Computer Interaction, 2023, ISBN: 1532-7590.

Resumen | Enlaces | BibTeX

Rodrigo Alarcon, Lourdes Moreno; Martínez, Paloma

EASIER corpus: A lexical simplification resource for people with cognitive impairments. Artículo de revista

En: PLOS One, 2023, ISBN: 1932-6203.

BibTeX

Segura-Bedma, Isabel

HULAT at SemEval-2023 Task 9: Data augmentation for pre-trained transformers applied to Multilingual Tweet Intimacy Analysis Actas de congresos En preparación

En preparación.

BibTeX

Segura-Bedmar, Isabel

HULAT at SemEval-2023 Task 10: Data augmentation for pre-trained transformers applied to the detection of sexism in social media Actas de congresos En preparación

En preparación.

BibTeX

Helen Petrie Lourdes Moreno, Paloma Martínez; Alarcon, Rodrigo

Designing user interfaces for content simplification aimed at people with cognitive impairments. Artículo de revista

En: Universal Access in the Information Society, 2023, ISBN: 1615-5297.

Enlaces | BibTeX

Rodrigo Alarcón, Paloma Martínez; Moreno, Lourdes

Tuning BART models to simplify Spanish health-related content Artículo de revista

En: Procesamiento del Lenguaje Natural, vol. 70, pp. 111-122, 2023.

Enlaces | BibTeX

Raúl Giménez de Dios, Isabel Segura-Bedmar

Ajuste y evaluacíon del modelo DialoGPT sobre distintas colecciones de subtítulos de películas y series de televisión Artículo de revista

En: Procesamiento del Lenguaje Natural, 2023.

Enlaces | BibTeX

Belen Ruiz-Mezcua Jose Manuel Masiello-Ruiz, Paloma Martinez; Gonzalez-Carrasco, Israel

Synchro-Sub, an adaptive multi-algorithm framework for real-time subtitling synchronisation of multi-type TV programmes Artículo de revista

En: Computing, 2023.

Enlaces | BibTeX

2022

Alarcón, Rodrigo; Moreno, Lourdes; Fernández, Paloma Martínez; Macías, José A.

EASIER System. Evaluating a Spanish lexical simplification proposal with people with cognitive impairments. Artículo de revista

En: International Journal of Human-Computer Interaction, 2022, ISBN: 1044-7318.

Enlaces | BibTeX

Moreno, Lourdes; Martínez, Paloma; Alarcón, Rodrigo

Requirements and design patterns for an accessible video conferencing tool Actas de congresos

Asociación de Interacción Persona-Ordenador (AIPO) ACM, Teruel, 2022.

Enlaces | BibTeX

Moreno, Lourdes; Alarcón, Rodrigo; Martínez, Paloma

Accessibility and readability compliance in Spanish public hospital websites. Proceedings Article En preparación

En: 10th International Conference on Software Development and Technologies for Enhancing Accessibility and Fighting Info-exclusion (DSAI 2022). Lisboa, Portugal. , ACM DIGITAL LIBRARY , En preparación.

BibTeX

Rubio, Adrián; Martínez, Paloma

HULAT-UC3M at SimpleText@CLEF-2022: Scientific text simplification using BART Proceedings Article

En: CLEF 2022: Conference and Labs of the Evaluation Forum. Bologna, Italy, CEUR Workshop Proceedings (CEUR-WS.org), 2022, ISBN: 1613-0073.

Enlaces | BibTeX

Isabel Segura-Bedmar, David Camino-Perdones & Sara Guerrero-Aspizua

Exploring deep learning methods for recognizing rare diseases and their clinical manifestations from texts Artículo de revista

En: BMC Bioinformatics , vol. 23, no 263, 2022.

Enlaces | BibTeX

Jaber, Areej; Martínez, Paloma

Disambiguating Clinical Abbreviations Using a One-Fits-All Classifier Based on Deep Learning Techniques Artículo de revista

En: Methods of Information in Medicine, vol. 61, iss. S 01, no e28-e34, 2022.

Enlaces | BibTeX

Departamento de Informática Areej Mustafa Mahmoud Jaber, Universidad Carlos III de Madrid

Word Sense Disambiguation for clinical abbreviations Tesis doctoral

2022.

Enlaces | BibTeX

Departamento de Informática Rodrigo Alarcón, Universidad Carlos III de Madrid

Lexical simplification for the systematic support of cognitive accessibility guidelines Tesis doctoral

2022.

Enlaces | BibTeX

Areej Jaber, Paloma Martínez

Disambiguating clinical abbreviations using a one-fits-all classifier based on deep learning techniques. Artículo de revista

En: Methods of Information in Medicine, vol. 61, iss. S 01, pp. e28-e34, 2022.

Enlaces | BibTeX

Mulas, María José Lucía

Estudio de alternativas de subtitulado accesible de estímulos sonoros no verbales para discapacidad auditiva Tesis doctoral

2022.

Resumen | Enlaces | BibTeX

@phdthesis{nokey,

title = {Estudio de alternativas de subtitulado accesible de estímulos sonoros no verbales para discapacidad auditiva},

author = {María José Lucía Mulas},

url = {https://e-archivo.uc3m.es/handle/10016/35001},

year  = {2022},

date = {2022-01-11},

urldate = {2022-01-11},

publisher = {Programa de Doctorado en Ciencia y Tecnología Informática,  Universidad Carlos III de Madrid},

abstract = {Por su capacidad de generar emoción, la música es utilizada ampliamente en los medios audiovisuales como soporte a la narrativa. La música transmite de manera inmediata la tonalidad emocional de una escena: alegría, miedo, tristeza, informando así del desarrollo de la acción dramática. El subtitulado accesible de calidad para discapacidad auditiva requiere que se subtitule la música cuando es importante para ayudar a comprender o potenciar la trama, indicando el tipo de música y la sensación que transmite. Pero la descripción de la música mediante un texto requiere un proceso cognitivo de atención consciente y selectiva para su lectura muy distinto a la respuesta emocional inmediata que genera la música. La predisposición emocional a la obra audiovisual que proporciona la música no es pues compartida por las personas sordas.



El objetivo general de esta investigación es contribuir a facilitar a las personas con discapacidad auditiva el acceso a la información emocional transmitida por la música de películas, explorando alternativas de subtitulado de la música que ayuden a “sentir” esta emoción de forma directa e inmediata. Se pretende aportar ideas base para el desarrollo de un framework de subtitulado (en el contexto de transmisión de la información de manera alternativa) accesible de la música, que pueda incorporarse en un futuro a las tecnologías de subtitulado clásico. Este framework estaría compuesto por dos funcionalidades principales: una funcionalidad de extracción e identificación de la emoción musical mediante la clasificación automática de los distintos fragmentos de audio con contenido musical, y una funcionalidad de transmisión de esta emoción a través del canal vibro táctil (transmisión háptica), estableciendo los correspondientes parámetros vibro táctiles.



Para ello, al ser un campo de investigación nuevo, se ha realizado en primer lugar un estudio del estado del arte en distintas áreas científicas relacionadas para establecer un marco científico en el que apoyar la investigación. Por un lado, se ha investigado cómo entiende la neurociencia la emoción musical: ¿qué es la emoción? ¿por qué la música emociona?, y cómo se aborda desde la ciencia informática el reconocimiento automático de las emociones, con los modelos desarrollados en los ámbitos MIR (Music Information Retrieval) y MER (Music Emotion Recognition). Por otro lado, se ha investigado la percepción vibro-táctil, base de los dispositivos que ya se han empezado a utilizar con las personas con discapacidad auditiva para potenciar la experiencia musical, desde la perspectiva de la fisiología y la neurociencia, y también desde una perspectiva más técnica de desarrollo de dispositivos vibro táctiles. A raíz del estudio del estado del arte se han podido establecer unos puntos básicos en los que sustentar esta investigación. Por un lado, los estudios neurocientíficos sobre la emoción musical muestran un cerebro capaz de procesar la emoción musical con mucha precisión, en muy poco tiempo, menos de 2 segundos, ya que la emoción musical estaría entroncada en circuitos neuronales primarios de supervivencia. Las emociones básicas e intensas de alegría, tristeza y miedo son las más claramente identificables en la música, se reconocen de forma universal e inmediata, y se asocian consistentemente con distintos valores de los parámetros musicales. Respecto a la percepción vibro táctil, se produciría una interacción estrecha entre los sentidos del oído y del tacto, existiendo una percepción multimodal vibro táctil-auditiva cerca de las áreas sensoriales primarias, de forma que parámetros como la frecuencia, el ritmo o el timbre se procesarían por un mismo mecanismo perceptivo común al oído y al tacto. La estimulación vibro táctil permitiría así transmitir parámetros musicales, aunque con un rango perceptivo más limitado que el oído. En el ámbito de la ciencia informática, los modelos MER desarrollados adolecen de muchas limitaciones, principalmente porque no existe un framework común de experimentación, lo que hace muy difícil la replicabilidad de los estudios. Por una parte, está la ausencia de datasets públicos, consensuados y adecuadamente validados, a lo que se añade la dificultad del proceso de anotación, generalmente realizado en base a taxonomías variadas, no basadas en los estudios neurocientíficos, y en un entorno poco controlado. Por otra parte, está la dificultad de seleccionar y obtener las características de audio significativas para la captura de la emoción musical, ya que no está clara la bondad de los algoritmos, ni qué características son relevantes para la detección de la emoción asociada a una música. Y, por último, está la dificultad de crear modelos de aprendizaje automático robustos para capturar las relaciones música-emoción. Los resultados apenas superan el 75% de precisión siempre que se consideren 4 o 5 emociones básicas. Actualmente las redes neuronales CNN (Convolutional Neural Networks) utilizadas en el reconocimiento de imagen se están utilizando con espectrogramas de las muestras audio como imágenes de entrada, con resultados prometedores, siendo los modelos CNN de arquitecturas simples los que obtienen mejores resultados tal y como demostraremos en la presente investigación.



A partir de estas bases teóricas se han desarrollado las experimentaciones reflejadas en el trabajo de investigación. En una primera fase, se ha estudiado mediante registros EEG (electroencefalograma) la actividad cerebral generada por estímulos audiovisuales presentados en distintas condiciones a grupos de sujetos experimentales sin discapacidad auditiva y con discapacidad auditiva. Los estímulos utilizados fueron distintos vídeos acompañados por estímulos adicionales: subtítulos, efectos sonoros, o estimulación vibro táctil. Los vídeos fueron creados específicamente para las experimentaciones, componiendo secuencias de imágenes, extraídas de películas o documentales, no asociadas con ningún diálogo o acción dramática, ya que las imágenes deben mantenerse lo más neutrales posible para permitir la medición de los efectos producidos por los estímulos adicionales a las imágenes. Para la estimulación vibro táctil se utilizó un guante háptico, creado por el Grupo de Displays y Aplicaciones Fotónicas de la Universidad Carlos III de Madrid, que permitía aplicar una suave vibración táctil en las yemas de los dedos y la palma de la mano de los participantes. La señal de conducción de los motores consistía en una ráfaga de 102 ms de señal cuadrada de 1 kHz, generada por un Arduino UNO activado por un PC de control y sincronizado con la proyección de los vídeos. El ritmo al que se disparaban las activaciones era el principal estímulo.



En ambos experimentos se reclutaron dos grupos de participantes: un grupo de control con participantes voluntarios sin discapacidad auditiva y un grupo experimental de voluntarios con discapacidad auditiva. Se gestionaron sus datos conforme a la Ley de protección de datos y se solicitó la correspondiente autorización del comité de ética, todos los participantes fueron informados del objetivo y procedimiento general de la experimentación, y firmaron un documento de consentimiento informado. Se utilizó un equipo de registro EEG multicanal de 64 canales, con un casco EEG que se ajustaba en la cabeza de los participantes previamente a la realización de las pruebas. Durante la proyección de los vídeos en las distintas condiciones experimentales, se registraba la actividad cerebral de los participantes mediante este equipo. Con los registros verificados y limpios de artefactos, se calcularon los promedios de activación cerebral para cada participante y condición. A partir de estos promedios de activación, se utilizó el algoritmo LORETA (Low Resolution Electromagnetic Tomography), que permite identificar las fuentes de corriente neuronal subyacentes a los potenciales registrados a nivel de cuero cabelludo, para generar los correspondientes mapas de activación cerebrales, de acuerdo con el modelo de atlas cerebral promedio del Instituto Neurológico de Montreal (MNI). Estos mapas permiten visualizar las áreas de máxima activación cerebral.



Los resultados de los registros EEG mostraron que, en las condiciones de un material presentado con audio en el grupo experimental sin discapacidad auditiva y sin audio en el grupo con discapacidad auditiva, se activaban las mismas áreas temporales de procesamiento de la información en ambos grupos. Pero el grupo de personas sordas movilizaba estas áreas con mucha más intensidad, es decir con mayor esfuerzo de procesamiento, y además movilizaba áreas frontales cerebrales relacionadas con la atención y procesos cognitivos de orden superior. La presencia de subtítulos aumentaba la activación de las áreas visuales y de procesamiento verbal en ambos grupos, pero con mayor intensidad en el grupo de personas sordas. Así, los resultados indican que cuando un sujeto con pérdida auditiva está viendo un video sin subtítulos, necesita un mayor consumo de recursos cerebrales como consecuencia de la pérdida auditiva. Si además agregamos subtítulos al video, este esfuerzo aumenta y se enfoca en el procesamiento visual y verbal.



En las condiciones en las que el material audiovisual se presentaba con audio en el grupo experimental sin discapacidad auditiva, y sustituyendo el audio por estimulación vibro táctil en el grupo con discapacidad auditiva, los resultados de los registros EEG mostraron una activación máxima en las mismas áreas cerebrales en ambos grupos, áreas que coinciden con las áreas involucradas en el procesamiento de la música afectiva: lóbulo temporal superior, circunvolución frontal inferior, opérculo rolándico, e ínsula, y la activación del área de Heschl (corteza auditiva). Es decir, las zonas cerebrales activadas en una experiencia audiovisual completa, al menos las que se pueden medir mediante EEG, se activaron también significativamente de forma similar durante una proyección audiovisual sin audio, pero acompañada de una suave estimulación vibro táctil rítmica, reproduciendo un patrón simple de tempo, en el grupo con discapacidad auditiva.



Los resultados de esta primera fase de experimentaciones, basadas en registros de la actividad cerebral, mostraron por un lado que el subtitulado accesible textual no transmite la información que aporta la música de forma inmediata a través de la emoción, y que, por el contrario, el subtitulado textual incrementa la activación cerebral en zonas de procesamiento visual y verbal. Por otro lado, mostraron que la estimulación vibro táctil puede ser un canal de transmisión alternativo de emociones musicales básicas, al activar zonas cerebrales análogas a las que produce la música en un material audiovisual.



En una segunda fase, se han desarrollado y comparado distintos modelos de clasificación automática de la emoción musical, con el objetivo de determinar un modelo sencillo y eficaz de clasificación automática de las emociones básicas contenidas en fragmentos musicales. Se pretendía establecer una primera aproximación al problema con la premisa de simplicidad, tomando como punto de partida unas condiciones básicas, acordes con las consideraciones neurocientíficas respecto a la emoción: clasificar en base a las emociones básicas de alegría, tristeza y miedo, expresadas en grado intenso, utilizar fragmentos musicales del orden de 2 segundos y utilizar las bases de datos de películas etiquetadas con rigor científico desde la neurociencia. Considerando, a partir del estado del arte, que los modelos CNN de clasificación de género musical más simples obtienen los mejores resultados con fragmentos musicales de pocos segundos, la experimentación se basó en el desarrollo y validación de modelos CNN basados en arquitecturas sencillas.



Todos los programas se desarrollaron en el lenguaje de programación Python (versión 3.7.6), y con el entorno de desarrollo de Spyder (Scientific Python Development Environmen). Todas las experimentaciones se realizaron siempre con el mismo equipo (Procesador Intel Core i5 2.50 GHz y 16GB RAM). Para el tratamiento audio se utilizó la librería Librosa (versión 0.8.0), la librería de referencia en Python para MIR en Python, y que dispone de amplias funcionalidades para obtener distintos tipos de espectrogramas, siendo los espectrogramas las posibles entradas audio “visuales” para las redes CNN. Para el desarrollo de los modelos CNN se utilizó la librería Keras (versión 2.4.3, biblioteca de código abierto (con licencia MIT) escrita en Python, y que tiene como objetivo ofrecer unas API sencillas e intuitivas para el desarrollo de modelos complejos de aprendizaje profundo. Como datos de entrenamiento se utilizaron las bases de datos, Film Music Excerpts de (Eerola & Vuoskoski, 2011) y Musical Excerpts de (Vieillard et al., 2008) por ser las únicas disponibles etiquetadas en cuanto a emoción de forma rigurosa desde la neurociencia. La primera se compone de 40 fragmentos, compuestos, específicamente en el género de la música de cine cualificados en base a cuatro emociones: alegría, tristeza, miedo y tranquilidad. La segunda se compone de un primer set de 360 extractos musicales de 60 bandas sonoras de películas seleccionadas por un panel de expertos musicólogos y un segundo set con los 110 ejemplos más representativos del primer set. Los fragmentos musicales seleccionados permitían generar 976 muestras de 2 segundos de duración. Aunque se trata de una cantidad limitada, y además con grupos de muestras pertenecientes a mismos fragmentos musicales, con riesgo de sobreajuste, se decidió utilizar únicamente estas muestras científicamente contrastadas y correspondientes a emociones expresadas con intensidad.



Los fragmentos se redujeron a una tasa de muestreo de 16.000 Hz para facilitar el procesamiento y se dividieron en muestras de 2 segundos. Para cada muestra de 2 segundos, y utilizando la librería Librosa, se generaron tres tipos de espectrogramas: STFT (espectrogramas de frecuencias), Mel (espectrogramas de frecuencias convertidas a la escala Mel), y CQT (espectrogramas con las frecuencias convertidas a tonos musicales). Se consideraron ventanas superpuestas de 512 muestras, con un salto entre ventanas de 256.



En una primera experimentación se buscaba el desarrollo de un modelo CNN base que alcanzara tasas de reconocimiento en línea con el estado del arte, para determinar el tipo de espectrograma más idóneo como dato de entrada y los parámetros de entrenamiento más adecuados, para la clasificación en base a emociones. Se desarrolló un modelo de aprendizaje CNN, basado en arquitecturas sencillas. Tras una fase de afinación se probaron los distintos espectrogramas. Las distintas experimentaciones realizadas mostraron que los espectrogramas CQT, curiosamente los que mejor representan las relaciones entre tonos musicales, son los que obtenían mejores resultados, requiriendo además un tiempo de procesamiento menor que el resto de los espectrogramas. Concretamente se obtenía en validación cruzada un valor medio de Accuracy (Precisión) de 78% y un tiempo medio de procesamiento de 38 mn (minutos) para 50 epochs (Iteraciones) con el espectrograma CQT, un valor medio de Accuracy de 76% y un tiempo medio de procesamiento de 60 mn para 50 epochs con el espectrograma Mel, y un valor medio de Accuracy de 76% y un tiempo medio de procesamiento de 144 mn para 50 epochs con el espectrograma STFT.



En una segunda experimentación se compararon los resultados de clasificación, sobre las mismas muestras, de los modelos CNN más representativos del estado del arte para clasificación del género musical, adaptando estos modelos para la clasificación en las emociones de alegría, tristeza, miedo y tranquilidad. Las distintas experimentaciones realizadas mostraron que el modelo CNN de arquitectura más sencilla, relativamente profundo (8 capas convolucionales), con convoluciones con estructura sencilla, sin incluir bloques más complejos como bloques ResNet (Residual Networks) o Inception (arquitectura de red Inception), ofrecía mejores resultados que otros modelos más complejos. Así en la clasificación en 4 emociones (alegría, tristeza, miedo, tranquilidad), se obtenía 81% de media de Accuracy en validación cruzada, y 89% cuando se consideraban las 3 emociones básicas (alegría, tristeza, miedo), mientras que el resto de las modelos no se alcanzaban valores superiores al 76% de Accuracy.



Hay que tener en cuenta la limitación de la muestra utilizada en los resultados obtenidos, sobre todo, por el riesgo de sobreajuste al tratarse de grupos de muestras pertenecientes a mismos fragmentos musicales. Aun así, se puede considerar que la arquitectura CNN sencilla puede ser una arquitectura eficaz en la clasificación de la emoción en fragmentos de audio de 2 segundos. El modelo muestra ser eficaz, con 2 segundos de muestra, tiempo suficiente para transmitir la emoción de forma inmediata, en las emociones básicas de alegría, tristeza, y miedo que son precisamente las más interesantes de identificar en el caso del subtitulado de la música de películas, acercándose a los resultados de los experimentos neurocientíficos con sujetos experimentales. Además, frente a otros modelos presenta la gran ventaja de no requerir una selección previa de las características de las muestras de audio, ni el soporte de datos adicionales a las muestras de audio. Por tanto, puede ser una base sencilla y eficaz para la extracción de la emoción de la música de cara a un subtitulado accesible, junto con el uso de espectrogramas CQT.



En conclusión, el objetivo inicial de esta investigación era aportar ideas base para el desarrollo de un framework de subtitulado accesible de la música (estímulo no verbal) de películas alternativo al canal textual. La reacción positiva a una suave y sencilla estimulación rítmica vibro táctil, alienta a continuar en la investigación del canal vibro táctil que parece ser capaz de aportar nuevas soluciones, como alternativa a los subtítulos tradicionales, para transmitir la información emocional contenida en la banda sonora audiovisual, y así producir la intención emocional del autor en sujetos con discapacidad auditiva. Mientras que los modelos de aprendizaje CNN, con arquitecturas sencillas, presentan una solución simple y eficaz para la clasificación automática de fragmentos musicales en base a emociones básicas.},

howpublished = {Directores de la Tesis: Belén Ruiz Mezcua },

keywords = {},

pubstate = {published},

tppubtype = {phdthesis}

}

Cerrar

Por su capacidad de generar emoción, la música es utilizada ampliamente en los medios audiovisuales como soporte a la narrativa. La música transmite de manera inmediata la tonalidad emocional de una escena: alegría, miedo, tristeza, informando así del desarrollo de la acción dramática. El subtitulado accesible de calidad para discapacidad auditiva requiere que se subtitule la música cuando es importante para ayudar a comprender o potenciar la trama, indicando el tipo de música y la sensación que transmite. Pero la descripción de la música mediante un texto requiere un proceso cognitivo de atención consciente y selectiva para su lectura muy distinto a la respuesta emocional inmediata que genera la música. La predisposición emocional a la obra audiovisual que proporciona la música no es pues compartida por las personas sordas.

El objetivo general de esta investigación es contribuir a facilitar a las personas con discapacidad auditiva el acceso a la información emocional transmitida por la música de películas, explorando alternativas de subtitulado de la música que ayuden a “sentir” esta emoción de forma directa e inmediata. Se pretende aportar ideas base para el desarrollo de un framework de subtitulado (en el contexto de transmisión de la información de manera alternativa) accesible de la música, que pueda incorporarse en un futuro a las tecnologías de subtitulado clásico. Este framework estaría compuesto por dos funcionalidades principales: una funcionalidad de extracción e identificación de la emoción musical mediante la clasificación automática de los distintos fragmentos de audio con contenido musical, y una funcionalidad de transmisión de esta emoción a través del canal vibro táctil (transmisión háptica), estableciendo los correspondientes parámetros vibro táctiles.

Para ello, al ser un campo de investigación nuevo, se ha realizado en primer lugar un estudio del estado del arte en distintas áreas científicas relacionadas para establecer un marco científico en el que apoyar la investigación. Por un lado, se ha investigado cómo entiende la neurociencia la emoción musical: ¿qué es la emoción? ¿por qué la música emociona?, y cómo se aborda desde la ciencia informática el reconocimiento automático de las emociones, con los modelos desarrollados en los ámbitos MIR (Music Information Retrieval) y MER (Music Emotion Recognition). Por otro lado, se ha investigado la percepción vibro-táctil, base de los dispositivos que ya se han empezado a utilizar con las personas con discapacidad auditiva para potenciar la experiencia musical, desde la perspectiva de la fisiología y la neurociencia, y también desde una perspectiva más técnica de desarrollo de dispositivos vibro táctiles. A raíz del estudio del estado del arte se han podido establecer unos puntos básicos en los que sustentar esta investigación. Por un lado, los estudios neurocientíficos sobre la emoción musical muestran un cerebro capaz de procesar la emoción musical con mucha precisión, en muy poco tiempo, menos de 2 segundos, ya que la emoción musical estaría entroncada en circuitos neuronales primarios de supervivencia. Las emociones básicas e intensas de alegría, tristeza y miedo son las más claramente identificables en la música, se reconocen de forma universal e inmediata, y se asocian consistentemente con distintos valores de los parámetros musicales. Respecto a la percepción vibro táctil, se produciría una interacción estrecha entre los sentidos del oído y del tacto, existiendo una percepción multimodal vibro táctil-auditiva cerca de las áreas sensoriales primarias, de forma que parámetros como la frecuencia, el ritmo o el timbre se procesarían por un mismo mecanismo perceptivo común al oído y al tacto. La estimulación vibro táctil permitiría así transmitir parámetros musicales, aunque con un rango perceptivo más limitado que el oído. En el ámbito de la ciencia informática, los modelos MER desarrollados adolecen de muchas limitaciones, principalmente porque no existe un framework común de experimentación, lo que hace muy difícil la replicabilidad de los estudios. Por una parte, está la ausencia de datasets públicos, consensuados y adecuadamente validados, a lo que se añade la dificultad del proceso de anotación, generalmente realizado en base a taxonomías variadas, no basadas en los estudios neurocientíficos, y en un entorno poco controlado. Por otra parte, está la dificultad de seleccionar y obtener las características de audio significativas para la captura de la emoción musical, ya que no está clara la bondad de los algoritmos, ni qué características son relevantes para la detección de la emoción asociada a una música. Y, por último, está la dificultad de crear modelos de aprendizaje automático robustos para capturar las relaciones música-emoción. Los resultados apenas superan el 75% de precisión siempre que se consideren 4 o 5 emociones básicas. Actualmente las redes neuronales CNN (Convolutional Neural Networks) utilizadas en el reconocimiento de imagen se están utilizando con espectrogramas de las muestras audio como imágenes de entrada, con resultados prometedores, siendo los modelos CNN de arquitecturas simples los que obtienen mejores resultados tal y como demostraremos en la presente investigación.

A partir de estas bases teóricas se han desarrollado las experimentaciones reflejadas en el trabajo de investigación. En una primera fase, se ha estudiado mediante registros EEG (electroencefalograma) la actividad cerebral generada por estímulos audiovisuales presentados en distintas condiciones a grupos de sujetos experimentales sin discapacidad auditiva y con discapacidad auditiva. Los estímulos utilizados fueron distintos vídeos acompañados por estímulos adicionales: subtítulos, efectos sonoros, o estimulación vibro táctil. Los vídeos fueron creados específicamente para las experimentaciones, componiendo secuencias de imágenes, extraídas de películas o documentales, no asociadas con ningún diálogo o acción dramática, ya que las imágenes deben mantenerse lo más neutrales posible para permitir la medición de los efectos producidos por los estímulos adicionales a las imágenes. Para la estimulación vibro táctil se utilizó un guante háptico, creado por el Grupo de Displays y Aplicaciones Fotónicas de la Universidad Carlos III de Madrid, que permitía aplicar una suave vibración táctil en las yemas de los dedos y la palma de la mano de los participantes. La señal de conducción de los motores consistía en una ráfaga de 102 ms de señal cuadrada de 1 kHz, generada por un Arduino UNO activado por un PC de control y sincronizado con la proyección de los vídeos. El ritmo al que se disparaban las activaciones era el principal estímulo.

En ambos experimentos se reclutaron dos grupos de participantes: un grupo de control con participantes voluntarios sin discapacidad auditiva y un grupo experimental de voluntarios con discapacidad auditiva. Se gestionaron sus datos conforme a la Ley de protección de datos y se solicitó la correspondiente autorización del comité de ética, todos los participantes fueron informados del objetivo y procedimiento general de la experimentación, y firmaron un documento de consentimiento informado. Se utilizó un equipo de registro EEG multicanal de 64 canales, con un casco EEG que se ajustaba en la cabeza de los participantes previamente a la realización de las pruebas. Durante la proyección de los vídeos en las distintas condiciones experimentales, se registraba la actividad cerebral de los participantes mediante este equipo. Con los registros verificados y limpios de artefactos, se calcularon los promedios de activación cerebral para cada participante y condición. A partir de estos promedios de activación, se utilizó el algoritmo LORETA (Low Resolution Electromagnetic Tomography), que permite identificar las fuentes de corriente neuronal subyacentes a los potenciales registrados a nivel de cuero cabelludo, para generar los correspondientes mapas de activación cerebrales, de acuerdo con el modelo de atlas cerebral promedio del Instituto Neurológico de Montreal (MNI). Estos mapas permiten visualizar las áreas de máxima activación cerebral.

Los resultados de los registros EEG mostraron que, en las condiciones de un material presentado con audio en el grupo experimental sin discapacidad auditiva y sin audio en el grupo con discapacidad auditiva, se activaban las mismas áreas temporales de procesamiento de la información en ambos grupos. Pero el grupo de personas sordas movilizaba estas áreas con mucha más intensidad, es decir con mayor esfuerzo de procesamiento, y además movilizaba áreas frontales cerebrales relacionadas con la atención y procesos cognitivos de orden superior. La presencia de subtítulos aumentaba la activación de las áreas visuales y de procesamiento verbal en ambos grupos, pero con mayor intensidad en el grupo de personas sordas. Así, los resultados indican que cuando un sujeto con pérdida auditiva está viendo un video sin subtítulos, necesita un mayor consumo de recursos cerebrales como consecuencia de la pérdida auditiva. Si además agregamos subtítulos al video, este esfuerzo aumenta y se enfoca en el procesamiento visual y verbal.

En las condiciones en las que el material audiovisual se presentaba con audio en el grupo experimental sin discapacidad auditiva, y sustituyendo el audio por estimulación vibro táctil en el grupo con discapacidad auditiva, los resultados de los registros EEG mostraron una activación máxima en las mismas áreas cerebrales en ambos grupos, áreas que coinciden con las áreas involucradas en el procesamiento de la música afectiva: lóbulo temporal superior, circunvolución frontal inferior, opérculo rolándico, e ínsula, y la activación del área de Heschl (corteza auditiva). Es decir, las zonas cerebrales activadas en una experiencia audiovisual completa, al menos las que se pueden medir mediante EEG, se activaron también significativamente de forma similar durante una proyección audiovisual sin audio, pero acompañada de una suave estimulación vibro táctil rítmica, reproduciendo un patrón simple de tempo, en el grupo con discapacidad auditiva.

Los resultados de esta primera fase de experimentaciones, basadas en registros de la actividad cerebral, mostraron por un lado que el subtitulado accesible textual no transmite la información que aporta la música de forma inmediata a través de la emoción, y que, por el contrario, el subtitulado textual incrementa la activación cerebral en zonas de procesamiento visual y verbal. Por otro lado, mostraron que la estimulación vibro táctil puede ser un canal de transmisión alternativo de emociones musicales básicas, al activar zonas cerebrales análogas a las que produce la música en un material audiovisual.

En una segunda fase, se han desarrollado y comparado distintos modelos de clasificación automática de la emoción musical, con el objetivo de determinar un modelo sencillo y eficaz de clasificación automática de las emociones básicas contenidas en fragmentos musicales. Se pretendía establecer una primera aproximación al problema con la premisa de simplicidad, tomando como punto de partida unas condiciones básicas, acordes con las consideraciones neurocientíficas respecto a la emoción: clasificar en base a las emociones básicas de alegría, tristeza y miedo, expresadas en grado intenso, utilizar fragmentos musicales del orden de 2 segundos y utilizar las bases de datos de películas etiquetadas con rigor científico desde la neurociencia. Considerando, a partir del estado del arte, que los modelos CNN de clasificación de género musical más simples obtienen los mejores resultados con fragmentos musicales de pocos segundos, la experimentación se basó en el desarrollo y validación de modelos CNN basados en arquitecturas sencillas.

Todos los programas se desarrollaron en el lenguaje de programación Python (versión 3.7.6), y con el entorno de desarrollo de Spyder (Scientific Python Development Environmen). Todas las experimentaciones se realizaron siempre con el mismo equipo (Procesador Intel Core i5 2.50 GHz y 16GB RAM). Para el tratamiento audio se utilizó la librería Librosa (versión 0.8.0), la librería de referencia en Python para MIR en Python, y que dispone de amplias funcionalidades para obtener distintos tipos de espectrogramas, siendo los espectrogramas las posibles entradas audio “visuales” para las redes CNN. Para el desarrollo de los modelos CNN se utilizó la librería Keras (versión 2.4.3, biblioteca de código abierto (con licencia MIT) escrita en Python, y que tiene como objetivo ofrecer unas API sencillas e intuitivas para el desarrollo de modelos complejos de aprendizaje profundo. Como datos de entrenamiento se utilizaron las bases de datos, Film Music Excerpts de (Eerola & Vuoskoski, 2011) y Musical Excerpts de (Vieillard et al., 2008) por ser las únicas disponibles etiquetadas en cuanto a emoción de forma rigurosa desde la neurociencia. La primera se compone de 40 fragmentos, compuestos, específicamente en el género de la música de cine cualificados en base a cuatro emociones: alegría, tristeza, miedo y tranquilidad. La segunda se compone de un primer set de 360 extractos musicales de 60 bandas sonoras de películas seleccionadas por un panel de expertos musicólogos y un segundo set con los 110 ejemplos más representativos del primer set. Los fragmentos musicales seleccionados permitían generar 976 muestras de 2 segundos de duración. Aunque se trata de una cantidad limitada, y además con grupos de muestras pertenecientes a mismos fragmentos musicales, con riesgo de sobreajuste, se decidió utilizar únicamente estas muestras científicamente contrastadas y correspondientes a emociones expresadas con intensidad.

Los fragmentos se redujeron a una tasa de muestreo de 16.000 Hz para facilitar el procesamiento y se dividieron en muestras de 2 segundos. Para cada muestra de 2 segundos, y utilizando la librería Librosa, se generaron tres tipos de espectrogramas: STFT (espectrogramas de frecuencias), Mel (espectrogramas de frecuencias convertidas a la escala Mel), y CQT (espectrogramas con las frecuencias convertidas a tonos musicales). Se consideraron ventanas superpuestas de 512 muestras, con un salto entre ventanas de 256.

En una primera experimentación se buscaba el desarrollo de un modelo CNN base que alcanzara tasas de reconocimiento en línea con el estado del arte, para determinar el tipo de espectrograma más idóneo como dato de entrada y los parámetros de entrenamiento más adecuados, para la clasificación en base a emociones. Se desarrolló un modelo de aprendizaje CNN, basado en arquitecturas sencillas. Tras una fase de afinación se probaron los distintos espectrogramas. Las distintas experimentaciones realizadas mostraron que los espectrogramas CQT, curiosamente los que mejor representan las relaciones entre tonos musicales, son los que obtenían mejores resultados, requiriendo además un tiempo de procesamiento menor que el resto de los espectrogramas. Concretamente se obtenía en validación cruzada un valor medio de Accuracy (Precisión) de 78% y un tiempo medio de procesamiento de 38 mn (minutos) para 50 epochs (Iteraciones) con el espectrograma CQT, un valor medio de Accuracy de 76% y un tiempo medio de procesamiento de 60 mn para 50 epochs con el espectrograma Mel, y un valor medio de Accuracy de 76% y un tiempo medio de procesamiento de 144 mn para 50 epochs con el espectrograma STFT.

En una segunda experimentación se compararon los resultados de clasificación, sobre las mismas muestras, de los modelos CNN más representativos del estado del arte para clasificación del género musical, adaptando estos modelos para la clasificación en las emociones de alegría, tristeza, miedo y tranquilidad. Las distintas experimentaciones realizadas mostraron que el modelo CNN de arquitectura más sencilla, relativamente profundo (8 capas convolucionales), con convoluciones con estructura sencilla, sin incluir bloques más complejos como bloques ResNet (Residual Networks) o Inception (arquitectura de red Inception), ofrecía mejores resultados que otros modelos más complejos. Así en la clasificación en 4 emociones (alegría, tristeza, miedo, tranquilidad), se obtenía 81% de media de Accuracy en validación cruzada, y 89% cuando se consideraban las 3 emociones básicas (alegría, tristeza, miedo), mientras que el resto de las modelos no se alcanzaban valores superiores al 76% de Accuracy.

Hay que tener en cuenta la limitación de la muestra utilizada en los resultados obtenidos, sobre todo, por el riesgo de sobreajuste al tratarse de grupos de muestras pertenecientes a mismos fragmentos musicales. Aun así, se puede considerar que la arquitectura CNN sencilla puede ser una arquitectura eficaz en la clasificación de la emoción en fragmentos de audio de 2 segundos. El modelo muestra ser eficaz, con 2 segundos de muestra, tiempo suficiente para transmitir la emoción de forma inmediata, en las emociones básicas de alegría, tristeza, y miedo que son precisamente las más interesantes de identificar en el caso del subtitulado de la música de películas, acercándose a los resultados de los experimentos neurocientíficos con sujetos experimentales. Además, frente a otros modelos presenta la gran ventaja de no requerir una selección previa de las características de las muestras de audio, ni el soporte de datos adicionales a las muestras de audio. Por tanto, puede ser una base sencilla y eficaz para la extracción de la emoción de la música de cara a un subtitulado accesible, junto con el uso de espectrogramas CQT.

En conclusión, el objetivo inicial de esta investigación era aportar ideas base para el desarrollo de un framework de subtitulado accesible de la música (estímulo no verbal) de películas alternativo al canal textual. La reacción positiva a una suave y sencilla estimulación rítmica vibro táctil, alienta a continuar en la investigación del canal vibro táctil que parece ser capaz de aportar nuevas soluciones, como alternativa a los subtítulos tradicionales, para transmitir la información emocional contenida en la banda sonora audiovisual, y así producir la intención emocional del autor en sujetos con discapacidad auditiva. Mientras que los modelos de aprendizaje CNN, con arquitecturas sencillas, presentan una solución simple y eficaz para la clasificación automática de fragmentos musicales en base a emociones básicas.

Cerrar

Publicaciones

2024

2023

2022

Mapa de la web

Contacto