Inicio/Publicaciones
Publicaciones
2024
Alberto Ramos González Paloma Martínez, Lourdes Moreno
Exploring Large Language Models to generate Easy to Read content Artículo de revista
En: Frontiers Computer. Science. Section Human-Media Interaction. Topic Artificial Intelligence and Digital Accessibility, vol. 6, no. 2024, 2024.
@article{nokey,
title = {Exploring Large Language Models to generate Easy to Read content},
author = {Paloma Martínez, Alberto Ramos González, Lourdes Moreno},
url = {https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2024.1394705/full?utm_source=Email_to_authors_&utm_medium=Email&utm_content=T1_11.5e1_author&utm_campaign=Email_publication&field&journalName=Frontiers_in_Computer_Science&id=1394705},
doi = {https://doi.org/10.3389/fcomp.2024.1394705},
year = {2024},
date = {2024-10-08},
urldate = {2024-10-08},
journal = {Frontiers Computer. Science. Section Human-Media Interaction. Topic Artificial Intelligence and Digital Accessibility},
volume = {6},
number = {2024},
abstract = {Ensuring text accessibility and understandability are essential goals, particularly for individuals with cognitive impairments and intellectual disabilities, who encounter problems accessing information across various mediums such as web pages, newspapers, online administrative tasks, or health documents. Initiatives like Easy to Read and Plain Language guidelines aim to simplify complex texts; however, standardizing these guidelines remains challenging and often involves manual processes. This work presents an exploratory investigation into leveraging Artificial Intelligence (AI) and Natural Language Processing (NLP) approaches to simplify Spanish texts into Easy to Read formats, with a focus on utilizing Large Language Models (LLMs) for creating accessible texts, especially in generating Easy to Read content. The study contributes a parallel corpus of Spanish adapted for Easy To Read format, which serves as a valuable resource for training and testing text simplification systems. Additionally, several text simplification experiments using LLMs and the collected corpus are conducted, involving fine-tuning and testing a Llama2 model to generate Easy to Read content. A qualitative evaluation, guided by an expert in text adaptation for Easy to Read content, is carried out to assess the automatically simplified texts. This research contributes to advancing text accessibility for individuals with cognitive impairments, highlighting promising strategies for leveraging LLMs while responsibly managing energy usage.},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Lourdes Moreno Barbara Corsetti,; Hervás., Raquel
Shaping Interactive Systems: Defining Features to Meet the Needs of Individuals with Mild Intellectual Disabilities Acta de congreso
In Proceedings of the XXIV International Conference on Human Computer Interaction (Interacción ’24). Association for Computing Machinery, New York, NY, USA, Article 12, 1–8., 2024.
@proceedings{nokey,
title = {Shaping Interactive Systems: Defining Features to Meet the Needs of Individuals with Mild Intellectual Disabilities},
author = {Barbara Corsetti, Lourdes Moreno, and Raquel Hervás.},
doi = {https://doi.org/10.1145/3657242.3658593},
year = {2024},
date = {2024-06-21},
urldate = {2024-06-21},
howpublished = { In Proceedings of the XXIV International Conference on Human Computer Interaction (Interacción '24). Association for Computing Machinery, New York, NY, USA, Article 12, 1–8.},
keywords = {},
pubstate = {published},
tppubtype = {proceedings}
}
Lourdes Moreno Paloma Martínez, Hiram Ochoa
A Tool Suite for Cognitive Accessibility Leveraging Easy-to-Read Resources and Simplification Strategies Acta de congreso
SEPLN – CEDI 2024. Seminar of the Spanish Society for Natural Language Processing at the 7th Spanish Conference on Informatics. June 19-20, 2024 A Coruña, Spain, 2024.
@proceedings{nokey,
title = {A Tool Suite for Cognitive Accessibility Leveraging Easy-to-Read Resources and Simplification Strategies},
author = {Paloma Martínez, Lourdes Moreno , Hiram Ochoa, Alberto Ramos y Mario Pérez.},
year = {2024},
date = {2024-06-15},
urldate = {2024-06-20},
howpublished = {SEPLN – CEDI 2024. Seminar of the Spanish Society for Natural Language Processing at the 7th Spanish Conference on Informatics. June 19-20, 2024 A Coruña, Spain},
keywords = {},
pubstate = {published},
tppubtype = {proceedings}
}
Helen Petrie Lourdes Moreno, Paloma Martínez
Designing user interfaces for content simplification aimed at people with cognitive impairments. Artículo de revista
En: Universal Access in the Information Society. 23, (1), 99-117. Springer, 1615-5297. 2024, Abril., 2024.
@article{nokey,
title = {Designing user interfaces for content simplification aimed at people with cognitive impairments. },
author = {Lourdes Moreno, Helen Petrie, Paloma Martínez, Rodrigo Alarcón. },
doi = {10.1007/s10209-023-00986-z.},
year = {2024},
date = {2024-03-01},
urldate = {2024-03-01},
journal = {Universal Access in the Information Society. 23, (1), 99-117. Springer, 1615-5297. 2024, Abril.},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Lourdes Moreno Rodrigo Alarcón, Paloma Martínez
EASIER System. Evaluating a Spanish lexical simplification proposal with people with cognitive impairments. Artículo de revista
En: International Journal of Human-Computer Interaction. 40, (5), 1195-1209. Taylor & Francis, 1044-7318. 2024, 2024.
@article{nokey,
title = {EASIER System. Evaluating a Spanish lexical simplification proposal with people with cognitive impairments. },
author = {Rodrigo Alarcón, Lourdes Moreno, Paloma Martínez, José A. Macías.},
url = {https://www.tandfonline.com/doi/abs/10.1080/10447318.2022.2134074?journalCode=hihc20},
year = {2024},
date = {2024-02-01},
urldate = {2024-02-01},
journal = { International Journal of Human-Computer Interaction. 40, (5), 1195-1209. Taylor & Francis, 1044-7318. 2024},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
2023
Ruiz, Cristobal Colón
Weakly supervised Deep Learning for Natural Language Processing Acta de congreso
2023.
@proceedings{nokey,
title = {Weakly supervised Deep Learning for Natural Language Processing},
author = {Cristobal Colón Ruiz},
editor = {Directora: Isabel Segura Bedmar. Departamento de Informática, Universidad Carlos III de Madrid},
year = {2023},
date = {2023-12-21},
urldate = {2023-12-21},
abstract = {En los últimos años, hemos sido testigos de un gran avance en las tareas de PLN gracias al uso de modelos de aprendizaje profundo, y en particular, de los modelos transformers. Sin embargo, como ocurría con el uso de los algoritmos clásicos de aprendizaje supervisado, los resultados de estos nuevos modelos en gran medida dependen de la cantidad y calidad de los corpora (colecciones de textos anotados para la tarea a resolver) utilizados para entrenar los modelos. La creación y anotación de estos recursos es muy costosa, lo que se traduce en una escasez en este tipo de datasets, suponiendo un cuello de botella para los enfoques supervisados. Por esta razón, el principal objetivo de la tesis ha sido investigar distintos métodos para resolver tareas de PLN en escenarios con pocos datos anotados. En concreto, estos métodos han sido evaluados en tareas como el análisis de sentimiento de comentarios sobre medicamentos y el reconocimiento de entidades (tales como fármacos, dosis, ruta y fuerza) en prescripciones médicas de historias clínicas. Los enfoques propuestas en la tesis abarcan desde el uso de enfoques semi-supervisados basados en el uso de redes generativas adversarias, así como el modelos generativos de lenguaje (tales como GPT-J) para la generación de nuevas textos sintéticos a partir de textos anotados. También, se ha evaluado el uso de corpus en tareas similares para ajustar los modelos propuestos. Esto ha demostrado que es posible transferir el conocimiento aprendido a partir de ese corpus, para resolver una tarea similar en otro tipo de textos. Los resultados obtenidos en la tesis son prometedores y demuestran que el uso de este tipo de técnicas pueden ayudar a paliar la escasez de datos anotados para resolver tareas de PLN. Aunque las tareas evaluadas están ligadas al dominio biomédicos, los enfoques estudiados podrían emplearse en cualquier otro tipo de textos.
La creciente disponibilidad de Historias Clínicas Electrónicas (HCE), así como de las reseñas electrónicas de pacientes, ha dado lugar a un gran volumen de documentos clínicos donde parte de la información está incluida de forma no estructurada dentro de textos. Debido al elevado coste en tiempo y recursos para extraer la información de los textos clínicos, se ha incrementado el interés en investigar y desarrollar técnicas de Procesamiento del Lenguaje Natural con el fin de automatizar el proceso y optimizar la investigación en nuevas soluciones y enfoques clínicos que mejoren los resultados con pacientes. No obstante, los documentos clínicos plantean retos añadidos frente a textos de carácter genérico debido a la diferencia de las características del lenguaje empleado, uso de acrónimos específicos y jergas no estandarizadas por parte de cada sistema o centro clínico. Además, la necesidad de anonimizar los textos, conlleva que el acceso a documentos clínicos sea limitado propiciando la escasez de corpus anotados.
La principal hipótesis de esta tesis doctoral es que el uso de mecanismos de aprendizaje por transferencia, enfoques semi supervisados y modelos del lenguaje generativos pre-entrenados puede mejorar el rendimiento de los modelos en escenarios con pocos datos anotados. Esto se puede conseguir transfiriendo el conocimiento aprendido de una tarea a otra, reduciendo la necesidad de grandes cantidades de datos anotados, y generando instancias o representaciones sintéticas que enriquezcan el conjunto de entrenamiento, mejorando la robustez y generalización de los modelos. En particular, el uso de algoritmos de Deep Learning que permiten adquirir conocimiento de tareas con características similares puede mitigar el problema del cuello de botella que supone la falta de corpus ricos anotados, mejorando así el aprendizaje de características relevantes para tareas específicas de Procesamiento del Lenguaje Natural.
La investigación desarrollada en esta tesis se centra principalmente en dos tareas en textos del dominio médico: la clasificación de reseñas de medicamentos y el reconocimiento de entidades (fármacos, dosis, fuerza, ruta, forma farmacológica) en prescripciones médicas a partir de datos de historias clínicas anonimizadas del la base de datos UK BioBank (https://www.ukbiobank.ac.uk/) del Reino Unido. El acceso al conjunto de datos ha sido posible gracias a la colaboración con el Birney Research Group (https://www.ebi.ac.uk/research-beta/birney/) del Instituto Europeo de Bioinformática (EMBL-EBI).
Respecto a la primera tarea, el dataset [1] (utilizado contiene un total de 215.063 revisiones de medicamentos obtenidos de la web drugs.com, que habían sido clasificados con un valor entero de 0 a 9, indicando el grado de satisfacción del paciente con el fármaco. Los creadores de este dataset agruparon las revisiones de medicamentos según tres niveles de polaridad según la calificación de la revisión: negativa (clase 0, calificación =4), neutral (clase 1, calificación en [5,6]) y positiva (clase 2; calificación>=7). La distribución de las clases indica que la clase más frecuente es la positiva (más de 142.000 revisiones), seguida de la clase negativa (alrededor de 53.000 instancias) , siendo la clase neutra la de menor número de instancias (aproximadamente 20.000 instancias). En la tesis se propone el uso de distintos modelos de Deep Learning como las redes convolucionales, las redes recurrentes y los modelos transformers. Los resultados muestran que los modelos pre-entrenados basados en transformadores superan a otros algoritmos de Deep Learning. También se propuso el estudio de un enfoque semi-supervisado basado en un red generativa adversaria (GAN), que consta de un generador y un discriminador. A partir de pequeñas muestras de datos anotados, el generador se encarga de generar nuevas instancias sintéticas con el objetivo de engañar al discriminador, cuyo objetivo es determinar si la instancia es real o ha sido generada por el generador. Además, de este enfoque basado en una red GAN, se estudió el uso de modelos generativos (en particular GPT-J) para generar nuevas instancias sintéticas. Los resultados sugieren que emplear datos no etiquetados en enfoques semi-supervisados o incluir instancias sintéticas de modelos generativos del lenguaje pre entrenados mejora el rendimiento de los modelos discriminativos ajustados en un escenario de pocos datos. No obstante, su rendimiento disminuye cuando hay datos de entrenamiento suficientes para aprender las características relevantes para la tarea.
En el caso de la segunda tarea, el reconocimiento de entidades en prescripciones médicas, se propuso el uso del modelo de lenguaje BioBERT extendido con una capa final con el algoritmo Conditional Random Field (CRF). Dicho modelo fue ajustado utilizando en primer lugar el dataset n2c2 de 2018 (https://n2c2.dbmi.hms.harvard.edu/publications/challenge/2018), y reajustado una segunda vez, utilizando una pequeño conjunto de prescripciones médicas del UK BioBank. El dataset n2c2 consiste en una colección de notas de alta de la Unidad de Cuidados Intensivos (UCI) con información detallada sobre los medicamentos utilizados en los tratamientos. El dataset incluye anotaciones de fármacos (más de 26.000 instancias), dosis (más de 6.000 instancias), forma de administración (casi 11.000 instancias), ruta (casi 10.000 instancias) y fuerza (más de 10.000 instancias). El dataset de UK BioBank fue anotado por expertos farmacéuticos con el mismo conjunto de entidades. Los resultados muestran que este enfoque obtiene mejores resultados que otros modelos como Med7 (https://github.com/kormilitzin/med7), ajustado sobre conjuntos de datos de notas clínicas y notas de alta. Esto puede deberse a la diferencia en las características del lenguaje utilizado en las prescripciones en comparación con las notas clínicas y a la heterogeneidad entre los diferentes conjuntos de datos. Al pre-ajustar el modelo primero sobre el dataset n2c2, el modelo es capaz de transferir el aprendizaje durante el ajuste de las prescripciones médicas de UK BioBank.
Otra de las contribuciones de la tesis ha sido el desarrollo de la herramienta PRESNER (https://github.com/ccolonruiz/PRESNER), capaz de extraer y mapear información de las prescripciones médicas en las historias clínicas. La herramienta ha sido diseñada para ayudar a los investigadores que necesitan obtener información de dichas prescripciones para ser utilizadas en estudios farmacogenéticos. En concreto, PRESNER es capaz de identificar medicamentos, su forma farmacológica, su ruta, dosis y fuerza, y obtener su clasificación ATC, así como distinguir entre medicamentos sistémicos y no sistémicos. },
keywords = {},
pubstate = {published},
tppubtype = {proceedings}
}
La creciente disponibilidad de Historias Clínicas Electrónicas (HCE), así como de las reseñas electrónicas de pacientes, ha dado lugar a un gran volumen de documentos clínicos donde parte de la información está incluida de forma no estructurada dentro de textos. Debido al elevado coste en tiempo y recursos para extraer la información de los textos clínicos, se ha incrementado el interés en investigar y desarrollar técnicas de Procesamiento del Lenguaje Natural con el fin de automatizar el proceso y optimizar la investigación en nuevas soluciones y enfoques clínicos que mejoren los resultados con pacientes. No obstante, los documentos clínicos plantean retos añadidos frente a textos de carácter genérico debido a la diferencia de las características del lenguaje empleado, uso de acrónimos específicos y jergas no estandarizadas por parte de cada sistema o centro clínico. Además, la necesidad de anonimizar los textos, conlleva que el acceso a documentos clínicos sea limitado propiciando la escasez de corpus anotados.
La principal hipótesis de esta tesis doctoral es que el uso de mecanismos de aprendizaje por transferencia, enfoques semi supervisados y modelos del lenguaje generativos pre-entrenados puede mejorar el rendimiento de los modelos en escenarios con pocos datos anotados. Esto se puede conseguir transfiriendo el conocimiento aprendido de una tarea a otra, reduciendo la necesidad de grandes cantidades de datos anotados, y generando instancias o representaciones sintéticas que enriquezcan el conjunto de entrenamiento, mejorando la robustez y generalización de los modelos. En particular, el uso de algoritmos de Deep Learning que permiten adquirir conocimiento de tareas con características similares puede mitigar el problema del cuello de botella que supone la falta de corpus ricos anotados, mejorando así el aprendizaje de características relevantes para tareas específicas de Procesamiento del Lenguaje Natural.
La investigación desarrollada en esta tesis se centra principalmente en dos tareas en textos del dominio médico: la clasificación de reseñas de medicamentos y el reconocimiento de entidades (fármacos, dosis, fuerza, ruta, forma farmacológica) en prescripciones médicas a partir de datos de historias clínicas anonimizadas del la base de datos UK BioBank (https://www.ukbiobank.ac.uk/) del Reino Unido. El acceso al conjunto de datos ha sido posible gracias a la colaboración con el Birney Research Group (https://www.ebi.ac.uk/research-beta/birney/) del Instituto Europeo de Bioinformática (EMBL-EBI).
Respecto a la primera tarea, el dataset [1] (utilizado contiene un total de 215.063 revisiones de medicamentos obtenidos de la web drugs.com, que habían sido clasificados con un valor entero de 0 a 9, indicando el grado de satisfacción del paciente con el fármaco. Los creadores de este dataset agruparon las revisiones de medicamentos según tres niveles de polaridad según la calificación de la revisión: negativa (clase 0, calificación =4), neutral (clase 1, calificación en [5,6]) y positiva (clase 2; calificación>=7). La distribución de las clases indica que la clase más frecuente es la positiva (más de 142.000 revisiones), seguida de la clase negativa (alrededor de 53.000 instancias) , siendo la clase neutra la de menor número de instancias (aproximadamente 20.000 instancias). En la tesis se propone el uso de distintos modelos de Deep Learning como las redes convolucionales, las redes recurrentes y los modelos transformers. Los resultados muestran que los modelos pre-entrenados basados en transformadores superan a otros algoritmos de Deep Learning. También se propuso el estudio de un enfoque semi-supervisado basado en un red generativa adversaria (GAN), que consta de un generador y un discriminador. A partir de pequeñas muestras de datos anotados, el generador se encarga de generar nuevas instancias sintéticas con el objetivo de engañar al discriminador, cuyo objetivo es determinar si la instancia es real o ha sido generada por el generador. Además, de este enfoque basado en una red GAN, se estudió el uso de modelos generativos (en particular GPT-J) para generar nuevas instancias sintéticas. Los resultados sugieren que emplear datos no etiquetados en enfoques semi-supervisados o incluir instancias sintéticas de modelos generativos del lenguaje pre entrenados mejora el rendimiento de los modelos discriminativos ajustados en un escenario de pocos datos. No obstante, su rendimiento disminuye cuando hay datos de entrenamiento suficientes para aprender las características relevantes para la tarea.
En el caso de la segunda tarea, el reconocimiento de entidades en prescripciones médicas, se propuso el uso del modelo de lenguaje BioBERT extendido con una capa final con el algoritmo Conditional Random Field (CRF). Dicho modelo fue ajustado utilizando en primer lugar el dataset n2c2 de 2018 (https://n2c2.dbmi.hms.harvard.edu/publications/challenge/2018), y reajustado una segunda vez, utilizando una pequeño conjunto de prescripciones médicas del UK BioBank. El dataset n2c2 consiste en una colección de notas de alta de la Unidad de Cuidados Intensivos (UCI) con información detallada sobre los medicamentos utilizados en los tratamientos. El dataset incluye anotaciones de fármacos (más de 26.000 instancias), dosis (más de 6.000 instancias), forma de administración (casi 11.000 instancias), ruta (casi 10.000 instancias) y fuerza (más de 10.000 instancias). El dataset de UK BioBank fue anotado por expertos farmacéuticos con el mismo conjunto de entidades. Los resultados muestran que este enfoque obtiene mejores resultados que otros modelos como Med7 (https://github.com/kormilitzin/med7), ajustado sobre conjuntos de datos de notas clínicas y notas de alta. Esto puede deberse a la diferencia en las características del lenguaje utilizado en las prescripciones en comparación con las notas clínicas y a la heterogeneidad entre los diferentes conjuntos de datos. Al pre-ajustar el modelo primero sobre el dataset n2c2, el modelo es capaz de transferir el aprendizaje durante el ajuste de las prescripciones médicas de UK BioBank.
Otra de las contribuciones de la tesis ha sido el desarrollo de la herramienta PRESNER (https://github.com/ccolonruiz/PRESNER), capaz de extraer y mapear información de las prescripciones médicas en las historias clínicas. La herramienta ha sido diseñada para ayudar a los investigadores que necesitan obtener información de dichas prescripciones para ser utilizadas en estudios farmacogenéticos. En concreto, PRESNER es capaz de identificar medicamentos, su forma farmacológica, su ruta, dosis y fuerza, y obtener su clasificación ATC, así como distinguir entre medicamentos sistémicos y no sistémicos.
Paloma Martínez Alberto Ramos González, Israel González Carrasco
HULAT@IDDP CLEF 2023: Intelligent Prediction of Disease Progression in Multiple Sclerosis Patients Acta de congreso
2023.
@proceedings{nokey,
title = {HULAT@IDDP CLEF 2023: Intelligent Prediction of Disease Progression in Multiple Sclerosis Patients},
author = {Alberto Ramos González, Paloma Martínez, Israel González Carrasco},
editor = {CEUR Workshop Proceedings },
url = {https://ceur-ws.org/Vol-3497/paper-104.pdf},
year = {2023},
date = {2023-09-18},
urldate = {2023-09-18},
journal = {Working Notes of CLEF 2023 - Conference and Labs of the Evaluation Forum.},
abstract = {Multiple sclerosis (MS) is a chronic inflammatory disease that affects the central nervous system causing neurological damage. This paper describes the participation of HULAT at IDDP CLEF 2023, particularly Task 1 - Predicting Risk of Disease Worsening (Multiple Sclerosis) to compare the performance of different machine learning approaches (Random Survival Forest and Elastic Net Cox) to predict the progression of multiple sclerosis in patients. The patient dataset includes medical history and demographic data. In addition, the dataset integrates records of the EDSS value, which is the degree of disability of the patient, his possible inability to work and to document the follow-up of the evolution of multiple sclerosis, as well as records of the relapses that occurred in his medical study. The results of the models show the ability of the different methods to predict when an event of interest occurs, such as the individual’s
worsening or the cumulative probability of its occurrence in different time windows},
keywords = {},
pubstate = {published},
tppubtype = {proceedings}
}
worsening or the cumulative probability of its occurrence in different time windows
Raquel Hervás Barbara Corsetti, Lourdes Moreno
Knowing Users with Mild Intellectual Impairments in UX Design Processes Acta de congreso
AIPO 2023.
@proceedings{nokey,
title = {Knowing Users with Mild Intellectual Impairments in UX Design Processes},
author = {Barbara Corsetti, Raquel Hervás, Lourdes Moreno},
editor = {ACM Digital Library},
url = {https://dl.acm.org/doi/10.1145/3612783.3612792},
doi = {https://doi.org/10.1145/3612783.3612792},
year = {2023},
date = {2023-09-04},
journal = {XXIII edición del Congreso Internacional de Persona-Ordenador (INTERACCIÓN 2023)},
pages = {1-8},
organization = {AIPO},
abstract = {Living with mild intellectual disabilities leads many people to struggle against several daily difficulties. For instance, a user with mild intellectual impairments is often not able to complete basic tasks independently (e.g., moving around the city, managing the home, shopping) and, additionally, he/she always depends on another person like a caregiver or a legal guardian. Starting from these hypotheses, the motivation behind this work is to design an interactive system for supporting users with mild intellectual impairments by improving their autonomy and, consequentially, the quality of their lives. In order to understand the needs and problems of this user group, this paper presents the first stage of a UX design process based on the Double Diamond model that was carried out using the Empathy Map tool to visualize the information gathered in the interviews with 15 users with mild intellectual impairments and three of their caregivers. By applying this approach, we reach a full understanding of the users and their environment which, as conclusions of this work, allows us to set the most appropriate decisions about the future interactive system design and development. The Empathy Map tool has turned out to be a valid tool for use with the specific target of people with intellectual disabilities, however, some tool extensions could be considered to be carried out in the future.},
keywords = {},
pubstate = {published},
tppubtype = {proceedings}
}
Lourdes Moreno, Paloma Martínez
Managing daily living activities for people with acquired brain injury using the DailyCare application Acta de congreso
2023.
@proceedings{nokey,
title = {Managing daily living activities for people with acquired brain injury using the DailyCare application},
author = {Lourdes Moreno, Paloma Martínez},
editor = {ACM Digital Library},
doi = {https://dl.acm.org/doi/10.1145/3612783.3612815},
year = {2023},
date = {2023-09-04},
urldate = {2023-09-04},
journal = {XXIII edición del Congreso Internacional de Persona-Ordenador (INTERACCIÓN 2023)},
abstract = {Daily activities give meaning to our lives and reinforce us as unique people with dignity and personal autonomy. In the case of people with Acquired Brain Injury (ABI), this performance of daily tasks is essential. It is crucial to avoid wandering behaviors that produce low self-esteem by not feeling fulfilled. In order to prevent this situation, the DailyCare system has been designed, which comprises a smartphone application and a virtual agent (chatbot) that assists people with ABI and their caregivers in structuring their time by carrying out daily tasks. With this system, the objective is that people with ABI feel usefulness and dignity. In addition, for family members and caregivers, the DailyCare system is a helpful tool for managing the daily living activities of the people with ABI they care for. A qualitative exploratory study with seven ABI users has been conducted to assess the acceptance and suitability of the system. The results indicate that the application seems easy to use and is helpful to caregivers. However, most of the participants with ABI being in a stage of the initial disease, are going through a process of acceptance of the disease, and some of them have a behavior of rejection of everything that is related to the disease, including using this application.},
keywords = {},
pubstate = {published},
tppubtype = {proceedings}
}
Belén Ruiz-Mezcua Maria Jose Lucia-Mulas, Pablo Revuelta
Automatic music emotion classification model for movie soundtrack subtitling based on neuroscientific premises Artículo de revista
En: Applied Intelligence, vol. 53, pp. 27096–27109, 2023.
@article{nokey,
title = {Automatic music emotion classification model for movie soundtrack subtitling based on neuroscientific premises},
author = {Maria Jose Lucia-Mulas, Belén Ruiz-Mezcua, Pablo Revuelta, Israel González Carrasco},
editor = {Springer},
url = {https://link.springer.com/article/10.1007/s10489-023-04967-w},
doi = {https://doi.org/10.1007/s10489-023-04967-w},
year = {2023},
date = {2023-09-01},
urldate = {2023-09-01},
journal = {Applied Intelligence},
volume = {53},
pages = {27096–27109},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Helen Petrie Lourdes Moreno, Suzanna Schmeelk
Accessibility barriers with authentication methods for blind and partially sighted people in the Spanish-speaking world Acta de congreso
2023.
@proceedings{nokey,
title = {Accessibility barriers with authentication methods for blind and partially sighted people in the Spanish-speaking world},
author = {Lourdes Moreno, Helen Petrie, Suzanna Schmeelk},
year = {2023},
date = {2023-08-31},
urldate = {2023-08-31},
journal = {36th International BCS Human-Computer Interaction Conference (co-located with the INTERACT 2023 conference)},
abstract = {Digital authentication is now an essential part of daily life, allowing users to manage the online security and privacy of their information and digital assets. However, the authentication mechanisms for these processes are not necessarily accessible to blind and partially sighted people, which means that they lose independence or protection. There has been a certain amount of research on the accessibility barriers encountered by blind and partially sighted people in this area, but almost all this research has been done in the English-speaking world. This paper presents an online survey of 34 blind and partially sighted people in Spanish-speaking countries to obtain information on the accessibility barriers they encounter relating to creating, using and changing passwords, using
CAPTCHAs, password managers, two-factor authentication, fingerprint and facial recognition, and QR codes. The results indicate numerous severe accessibility barriers which could be avoided by following accessibility standards. It was particularly surprising that even auditory alternatives to
CAPTCHAs present accessibility barriers.},
keywords = {},
pubstate = {published},
tppubtype = {proceedings}
}
CAPTCHAs, password managers, two-factor authentication, fingerprint and facial recognition, and QR codes. The results indicate numerous severe accessibility barriers which could be avoided by following accessibility standards. It was particularly surprising that even auditory alternatives to
CAPTCHAs present accessibility barriers.
Álvaro Barbero-Jiménez Guillem García-Subies, Paloma Martínez
A Survey of Spanish Clinical Language Models Artículo de revista
En: arXiv preprint, 2023.
@article{nokey,
title = {A Survey of Spanish Clinical Language Models},
author = {Guillem García-Subies, Álvaro Barbero-Jiménez, Paloma Martínez},
doi = {arXiv:2308.02199},
year = {2023},
date = {2023-08-04},
urldate = {2023-08-04},
journal = {arXiv preprint},
abstract = {This survey focuses in encoder Language Models for solving tasks in the clinical domain in the Spanish language. We review the contributions of 17 corpora focused mainly in clinical tasks, then list the most relevant Spanish Language Models and Spanish Clinical Language models. We perform a thorough comparison of these models by benchmarking them over a curated subset of the available corpora, in order to find the best-performing ones; in total more than 3000 models were fine-tuned for this study. All the tested corpora and the best models are made publically available in an accessible way, so that the results can be reproduced by independent teams or challenged in the future when new Spanish Clinical Language models are created.},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Myriam Arrue Aritz Sala, J. Eduardo Pérez
Accessibility design issues beyond the standards of government e-services for people with low vision Artículo de revista
En: International Journal of Human-Computer Interaction, 2023, ISBN: 1532-7590.
@article{nokey,
title = {Accessibility design issues beyond the standards of government e-services for people with low vision},
author = {Aritz Sala, Myriam Arrue, J. Eduardo Pérez, Sandra M. Espín-Tello, Lourdes Moreno},
editor = {Taylor & Francis Group},
url = {https://www.tandfonline.com/doi/full/10.1080/10447318.2023.2241609},
doi = {https://doi.org/10.1080/10447318.2023.2241609},
isbn = {1532-7590},
year = {2023},
date = {2023-08-03},
urldate = {2023-08-03},
journal = {International Journal of Human-Computer Interaction},
abstract = {Governments have been investing considerable resources into making their services to citizens available through the Internet. However, people face barriers when accessing these e-services. Barriers affect people with disabilities to a greater extent. Taking into account the accessibility-in-use in addition to the required standards while designing these services would mitigate some of these issues. In this work, five e-services from the Spanish government were selected from among the most used ones and tested with fifteen participants, of whom ten participants belong to the group of people with low vision. Different qualitative and quantitative measures were analyzed to determine whether participants with low vision had more difficulties performing the tasks and to identify the design issues required to achieve improvement. The results highlighted some issues to be incorporated into the complexity and cognitive accessibility evaluations of e-services to anticipate difficulties (e.g., error prompting/prevention mechanisms). In addition, contributions to existing accessibility standards are proposed to be considered in the design of the e-services.},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Rodrigo Alarcon, Lourdes Moreno; Martínez, Paloma
EASIER corpus: A lexical simplification resource for people with cognitive impairments. Artículo de revista
En: PLOS One, 2023, ISBN: 1932-6203.
@article{nokey,
title = {EASIER corpus: A lexical simplification resource for people with cognitive impairments.},
author = {Rodrigo Alarcon, Lourdes Moreno and Paloma Martínez},
isbn = {1932-6203},
year = {2023},
date = {2023-04-13},
journal = {PLOS One},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Segura-Bedma, Isabel
HULAT at SemEval-2023 Task 9: Data augmentation for pre-trained transformers applied to Multilingual Tweet Intimacy Analysis Acta de congreso En preparación
En preparación.
@proceedings{nokey,
title = {HULAT at SemEval-2023 Task 9: Data augmentation for pre-trained transformers applied to Multilingual Tweet Intimacy Analysis},
author = {Isabel Segura-Bedma},
year = {2023},
date = {2023-04-11},
journal = {SemEval 2023},
keywords = {},
pubstate = {forthcoming},
tppubtype = {proceedings}
}
Segura-Bedmar, Isabel
HULAT at SemEval-2023 Task 10: Data augmentation for pre-trained transformers applied to the detection of sexism in social media Acta de congreso En preparación
En preparación.
@proceedings{nokey,
title = {HULAT at SemEval-2023 Task 10: Data augmentation for pre-trained transformers applied to the detection of sexism in social media},
author = {Isabel Segura-Bedmar },
year = {2023},
date = {2023-04-11},
journal = {SemEval 2023},
keywords = {},
pubstate = {forthcoming},
tppubtype = {proceedings}
}
Helen Petrie Lourdes Moreno, Paloma Martínez; Alarcon, Rodrigo
Designing user interfaces for content simplification aimed at people with cognitive impairments. Artículo de revista
En: Universal Access in the Information Society, 2023, ISBN: 1615-5297.
@article{nokey,
title = {Designing user interfaces for content simplification aimed at people with cognitive impairments.},
author = {Lourdes Moreno, Helen Petrie, Paloma Martínez and Rodrigo Alarcon },
editor = {Springer},
url = {https://link.springer.com/article/10.1007/s10209-023-00986-z},
doi = {https://doi.org/10.1007/s10209-023-00986-z},
isbn = {1615-5297},
year = {2023},
date = {2023-03-24},
urldate = {2023-03-24},
journal = {Universal Access in the Information Society},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Rodrigo Alarcón, Paloma Martínez; Moreno, Lourdes
Tuning BART models to simplify Spanish health-related content Artículo de revista
En: Procesamiento del Lenguaje Natural, vol. 70, pp. 111-122, 2023.
@article{nokey,
title = {Tuning BART models to simplify Spanish health-related content},
author = {Rodrigo Alarcón, Paloma Martínez and Lourdes Moreno},
editor = {Sociedad Española para el Procesamiento del Lenguaje Natural},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6483/0 },
year = {2023},
date = {2023-03-01},
journal = {Procesamiento del Lenguaje Natural},
volume = {70},
pages = {111-122},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Raúl Giménez de Dios, Isabel Segura-Bedmar
Ajuste y evaluacíon del modelo DialoGPT sobre distintas colecciones de subtítulos de películas y series de televisión Artículo de revista
En: Procesamiento del Lenguaje Natural, 2023.
@article{nokey,
title = {Ajuste y evaluacíon del modelo DialoGPT sobre distintas colecciones de subtítulos de películas y series de televisión},
author = {Raúl Giménez de Dios, Isabel Segura-Bedmar},
url = {http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6479},
year = {2023},
date = {2023-03-01},
journal = {Procesamiento del Lenguaje Natural},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Belen Ruiz-Mezcua Jose Manuel Masiello-Ruiz, Paloma Martinez; Gonzalez-Carrasco, Israel
Synchro-Sub, an adaptive multi-algorithm framework for real-time subtitling synchronisation of multi-type TV programmes Artículo de revista
En: Computing, 2023.
@article{nokey,
title = {Synchro-Sub, an adaptive multi-algorithm framework for real-time subtitling synchronisation of multi-type TV programmes},
author = {Jose Manuel Masiello-Ruiz, Belen Ruiz-Mezcua, Paloma Martinez and Israel Gonzalez-Carrasco},
url = {https://link.springer.com/article/10.1007/s00607-023-01156-y},
doi = {https://doi.org/10.1007/s00607-023-01156-y},
year = {2023},
date = {2023-01-23},
journal = {Computing},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
2022
Alarcón, Rodrigo; Moreno, Lourdes; Fernández, Paloma Martínez; Macías, José A.
EASIER System. Evaluating a Spanish lexical simplification proposal with people with cognitive impairments. Artículo de revista
En: International Journal of Human-Computer Interaction, 2022, ISBN: 1044-7318.
@article{nokey,
title = {EASIER System. Evaluating a Spanish lexical simplification proposal with people with cognitive impairments.},
author = {Rodrigo Alarcón and Lourdes Moreno and Paloma Martínez Fernández and José A. Macías},
editor = {Taylor & Francis},
url = {https://www.tandfonline.com/doi/abs/10.1080/10447318.2022.2134074?journalCode=hihc20},
doi = {https://doi.org/10.1080/10447318.2022.2134074},
isbn = {1044-7318},
year = {2022},
date = {2022-10-24},
urldate = {2022-10-01},
journal = { International Journal of Human-Computer Interaction},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Moreno, Lourdes; Martínez, Paloma; Alarcón, Rodrigo
Requirements and design patterns for an accessible video conferencing tool Acta de congreso
Asociación de Interacción Persona-Ordenador (AIPO) ACM, Teruel, 2022.
@proceedings{Moreno2022,
title = {Requirements and design patterns for an accessible video conferencing tool},
author = {Lourdes Moreno and Paloma Martínez and Rodrigo Alarcón},
editor = {ACM DIGITAL LIBRARY},
url = {https://dl.acm.org/doi/10.1145/3549865.3549894},
doi = {https://doi.org/10.1145/3549865.3549894},
year = {2022},
date = {2022-09-08},
urldate = {2022-09-08},
booktitle = {XXII edición del Congreso Internacional de Persona-Ordenador (Interacción 2022)},
publisher = {ACM},
address = {Teruel},
organization = {Asociación de Interacción Persona-Ordenador (AIPO)},
keywords = {},
pubstate = {published},
tppubtype = {proceedings}
}
Moreno, Lourdes; Alarcón, Rodrigo; Martínez, Paloma
Accessibility and readability compliance in Spanish public hospital websites. Artículo en actas En preparación
En: 10th International Conference on Software Development and Technologies for Enhancing Accessibility and Fighting Info-exclusion (DSAI 2022). Lisboa, Portugal. , ACM DIGITAL LIBRARY , En preparación.
@inproceedings{nokey,
title = {Accessibility and readability compliance in Spanish public hospital websites.},
author = {Lourdes Moreno and Rodrigo Alarcón and Paloma Martínez},
year = {2022},
date = {2022-08-31},
urldate = {2022-08-31},
booktitle = {10th International Conference on Software Development and Technologies for Enhancing Accessibility and Fighting Info-exclusion (DSAI 2022). Lisboa, Portugal. },
publisher = {ACM DIGITAL LIBRARY },
keywords = {},
pubstate = {forthcoming},
tppubtype = {inproceedings}
}
Rubio, Adrián; Martínez, Paloma
HULAT-UC3M at SimpleText@CLEF-2022: Scientific text simplification using BART Artículo en actas
En: CLEF 2022: Conference and Labs of the Evaluation Forum. Bologna, Italy, CEUR Workshop Proceedings (CEUR-WS.org), 2022, ISBN: 1613-0073.
@inproceedings{nokey,
title = {HULAT-UC3M at SimpleText@CLEF-2022: Scientific text simplification using BART},
author = {Adrián Rubio and Paloma Martínez },
url = {http://ceur-ws.org/Vol-3180/paper-243.pdf},
isbn = {1613-0073},
year = {2022},
date = {2022-08-05},
urldate = {2022-08-05},
booktitle = {CLEF 2022: Conference and Labs of the Evaluation Forum. Bologna, Italy},
journal = {CLEF 2022: Conference and Labs of the Evaluation Forum. Bologna, Italy},
publisher = {CEUR Workshop Proceedings (CEUR-WS.org)},
keywords = {},
pubstate = {published},
tppubtype = {inproceedings}
}
Isabel Segura-Bedmar, David Camino-Perdones & Sara Guerrero-Aspizua
Exploring deep learning methods for recognizing rare diseases and their clinical manifestations from texts Artículo de revista
En: BMC Bioinformatics , vol. 23, no. 263, 2022.
@article{nokey,
title = {Exploring deep learning methods for recognizing rare diseases and their clinical manifestations from texts},
author = {Isabel Segura-Bedmar, David Camino-Perdones & Sara Guerrero-Aspizua },
url = {https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04810-y},
doi = {https://doi.org/10.1186/s12859-022-04810-y},
year = {2022},
date = {2022-07-06},
journal = {BMC Bioinformatics },
volume = {23},
number = {263},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Jaber, Areej; Martínez, Paloma
Disambiguating Clinical Abbreviations Using a One-Fits-All Classifier Based on Deep Learning Techniques Artículo de revista
En: Methods of Information in Medicine, vol. 61, iss. S 01, no. e28-e34, 2022.
@article{nokey,
title = {Disambiguating Clinical Abbreviations Using a One-Fits-All Classifier Based on Deep Learning Techniques},
author = {Areej Jaber and Paloma Martínez},
url = {https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9246508/},
doi = {10.1055/s-0042-1742388},
year = {2022},
date = {2022-06-01},
urldate = {2022-06-01},
journal = {Methods of Information in Medicine},
volume = {61},
number = {e28-e34},
issue = {S 01},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Departamento de Informática Areej Mustafa Mahmoud Jaber, Universidad Carlos III de Madrid
Word Sense Disambiguation for clinical abbreviations Tesis doctoral
2022.
@phdthesis{nokey,
title = {Word Sense Disambiguation for clinical abbreviations},
author = {Areej Mustafa Mahmoud Jaber, Departamento de Informática, Universidad Carlos III de Madrid},
url = {https://e-archivo.uc3m.es/handle/10016/34899},
year = {2022},
date = {2022-04-19},
keywords = {},
pubstate = {published},
tppubtype = {phdthesis}
}
Departamento de Informática Rodrigo Alarcón, Universidad Carlos III de Madrid
Lexical simplification for the systematic support of cognitive accessibility guidelines Tesis doctoral
2022.
@phdthesis{nokey,
title = {Lexical simplification for the systematic support of cognitive accessibility guidelines},
author = {Rodrigo Alarcón, Departamento de Informática, Universidad Carlos III de Madrid},
url = {https://e-archivo.uc3m.es/handle/10016/35140},
year = {2022},
date = {2022-03-22},
keywords = {},
pubstate = {published},
tppubtype = {phdthesis}
}
Areej Jaber, Paloma Martínez
Disambiguating clinical abbreviations using a one-fits-all classifier based on deep learning techniques. Artículo de revista
En: Methods of Information in Medicine, vol. 61, iss. S 01, pp. e28-e34, 2022.
@article{nokey,
title = {Disambiguating clinical abbreviations using a one-fits-all classifier based on deep learning techniques. },
author = {Areej Jaber , Paloma Martínez},
url = {https://www.thieme-connect.de/products/ejournals/abstract/10.1055/s-0042-1742388},
doi = {10.1055/s-0042-1742388},
year = {2022},
date = {2022-02-01},
journal = {Methods of Information in Medicine},
volume = {61},
issue = {S 01},
pages = {e28-e34},
keywords = {},
pubstate = {published},
tppubtype = {article}
}
Mulas, María José Lucía
Estudio de alternativas de subtitulado accesible de estímulos sonoros no verbales para discapacidad auditiva Tesis doctoral
2022.
@phdthesis{nokey,
title = {Estudio de alternativas de subtitulado accesible de estímulos sonoros no verbales para discapacidad auditiva},
author = {María José Lucía Mulas},
url = {https://e-archivo.uc3m.es/handle/10016/35001},
year = {2022},
date = {2022-01-11},
urldate = {2022-01-11},
publisher = {Programa de Doctorado en Ciencia y Tecnología Informática, Universidad Carlos III de Madrid},
abstract = {Por su capacidad de generar emoción, la música es utilizada ampliamente en los medios audiovisuales como soporte a la narrativa. La música transmite de manera inmediata la tonalidad emocional de una escena: alegría, miedo, tristeza, informando así del desarrollo de la acción dramática. El subtitulado accesible de calidad para discapacidad auditiva requiere que se subtitule la música cuando es importante para ayudar a comprender o potenciar la trama, indicando el tipo de música y la sensación que transmite. Pero la descripción de la música mediante un texto requiere un proceso cognitivo de atención consciente y selectiva para su lectura muy distinto a la respuesta emocional inmediata que genera la música. La predisposición emocional a la obra audiovisual que proporciona la música no es pues compartida por las personas sordas.
El objetivo general de esta investigación es contribuir a facilitar a las personas con discapacidad auditiva el acceso a la información emocional transmitida por la música de películas, explorando alternativas de subtitulado de la música que ayuden a “sentir” esta emoción de forma directa e inmediata. Se pretende aportar ideas base para el desarrollo de un framework de subtitulado (en el contexto de transmisión de la información de manera alternativa) accesible de la música, que pueda incorporarse en un futuro a las tecnologías de subtitulado clásico. Este framework estaría compuesto por dos funcionalidades principales: una funcionalidad de extracción e identificación de la emoción musical mediante la clasificación automática de los distintos fragmentos de audio con contenido musical, y una funcionalidad de transmisión de esta emoción a través del canal vibro táctil (transmisión háptica), estableciendo los correspondientes parámetros vibro táctiles.
Para ello, al ser un campo de investigación nuevo, se ha realizado en primer lugar un estudio del estado del arte en distintas áreas científicas relacionadas para establecer un marco científico en el que apoyar la investigación. Por un lado, se ha investigado cómo entiende la neurociencia la emoción musical: ¿qué es la emoción? ¿por qué la música emociona?, y cómo se aborda desde la ciencia informática el reconocimiento automático de las emociones, con los modelos desarrollados en los ámbitos MIR (Music Information Retrieval) y MER (Music Emotion Recognition). Por otro lado, se ha investigado la percepción vibro-táctil, base de los dispositivos que ya se han empezado a utilizar con las personas con discapacidad auditiva para potenciar la experiencia musical, desde la perspectiva de la fisiología y la neurociencia, y también desde una perspectiva más técnica de desarrollo de dispositivos vibro táctiles. A raíz del estudio del estado del arte se han podido establecer unos puntos básicos en los que sustentar esta investigación. Por un lado, los estudios neurocientíficos sobre la emoción musical muestran un cerebro capaz de procesar la emoción musical con mucha precisión, en muy poco tiempo, menos de 2 segundos, ya que la emoción musical estaría entroncada en circuitos neuronales primarios de supervivencia. Las emociones básicas e intensas de alegría, tristeza y miedo son las más claramente identificables en la música, se reconocen de forma universal e inmediata, y se asocian consistentemente con distintos valores de los parámetros musicales. Respecto a la percepción vibro táctil, se produciría una interacción estrecha entre los sentidos del oído y del tacto, existiendo una percepción multimodal vibro táctil-auditiva cerca de las áreas sensoriales primarias, de forma que parámetros como la frecuencia, el ritmo o el timbre se procesarían por un mismo mecanismo perceptivo común al oído y al tacto. La estimulación vibro táctil permitiría así transmitir parámetros musicales, aunque con un rango perceptivo más limitado que el oído. En el ámbito de la ciencia informática, los modelos MER desarrollados adolecen de muchas limitaciones, principalmente porque no existe un framework común de experimentación, lo que hace muy difícil la replicabilidad de los estudios. Por una parte, está la ausencia de datasets públicos, consensuados y adecuadamente validados, a lo que se añade la dificultad del proceso de anotación, generalmente realizado en base a taxonomías variadas, no basadas en los estudios neurocientíficos, y en un entorno poco controlado. Por otra parte, está la dificultad de seleccionar y obtener las características de audio significativas para la captura de la emoción musical, ya que no está clara la bondad de los algoritmos, ni qué características son relevantes para la detección de la emoción asociada a una música. Y, por último, está la dificultad de crear modelos de aprendizaje automático robustos para capturar las relaciones música-emoción. Los resultados apenas superan el 75% de precisión siempre que se consideren 4 o 5 emociones básicas. Actualmente las redes neuronales CNN (Convolutional Neural Networks) utilizadas en el reconocimiento de imagen se están utilizando con espectrogramas de las muestras audio como imágenes de entrada, con resultados prometedores, siendo los modelos CNN de arquitecturas simples los que obtienen mejores resultados tal y como demostraremos en la presente investigación.
A partir de estas bases teóricas se han desarrollado las experimentaciones reflejadas en el trabajo de investigación. En una primera fase, se ha estudiado mediante registros EEG (electroencefalograma) la actividad cerebral generada por estímulos audiovisuales presentados en distintas condiciones a grupos de sujetos experimentales sin discapacidad auditiva y con discapacidad auditiva. Los estímulos utilizados fueron distintos vídeos acompañados por estímulos adicionales: subtítulos, efectos sonoros, o estimulación vibro táctil. Los vídeos fueron creados específicamente para las experimentaciones, componiendo secuencias de imágenes, extraídas de películas o documentales, no asociadas con ningún diálogo o acción dramática, ya que las imágenes deben mantenerse lo más neutrales posible para permitir la medición de los efectos producidos por los estímulos adicionales a las imágenes. Para la estimulación vibro táctil se utilizó un guante háptico, creado por el Grupo de Displays y Aplicaciones Fotónicas de la Universidad Carlos III de Madrid, que permitía aplicar una suave vibración táctil en las yemas de los dedos y la palma de la mano de los participantes. La señal de conducción de los motores consistía en una ráfaga de 102 ms de señal cuadrada de 1 kHz, generada por un Arduino UNO activado por un PC de control y sincronizado con la proyección de los vídeos. El ritmo al que se disparaban las activaciones era el principal estímulo.
En ambos experimentos se reclutaron dos grupos de participantes: un grupo de control con participantes voluntarios sin discapacidad auditiva y un grupo experimental de voluntarios con discapacidad auditiva. Se gestionaron sus datos conforme a la Ley de protección de datos y se solicitó la correspondiente autorización del comité de ética, todos los participantes fueron informados del objetivo y procedimiento general de la experimentación, y firmaron un documento de consentimiento informado. Se utilizó un equipo de registro EEG multicanal de 64 canales, con un casco EEG que se ajustaba en la cabeza de los participantes previamente a la realización de las pruebas. Durante la proyección de los vídeos en las distintas condiciones experimentales, se registraba la actividad cerebral de los participantes mediante este equipo. Con los registros verificados y limpios de artefactos, se calcularon los promedios de activación cerebral para cada participante y condición. A partir de estos promedios de activación, se utilizó el algoritmo LORETA (Low Resolution Electromagnetic Tomography), que permite identificar las fuentes de corriente neuronal subyacentes a los potenciales registrados a nivel de cuero cabelludo, para generar los correspondientes mapas de activación cerebrales, de acuerdo con el modelo de atlas cerebral promedio del Instituto Neurológico de Montreal (MNI). Estos mapas permiten visualizar las áreas de máxima activación cerebral.
Los resultados de los registros EEG mostraron que, en las condiciones de un material presentado con audio en el grupo experimental sin discapacidad auditiva y sin audio en el grupo con discapacidad auditiva, se activaban las mismas áreas temporales de procesamiento de la información en ambos grupos. Pero el grupo de personas sordas movilizaba estas áreas con mucha más intensidad, es decir con mayor esfuerzo de procesamiento, y además movilizaba áreas frontales cerebrales relacionadas con la atención y procesos cognitivos de orden superior. La presencia de subtítulos aumentaba la activación de las áreas visuales y de procesamiento verbal en ambos grupos, pero con mayor intensidad en el grupo de personas sordas. Así, los resultados indican que cuando un sujeto con pérdida auditiva está viendo un video sin subtítulos, necesita un mayor consumo de recursos cerebrales como consecuencia de la pérdida auditiva. Si además agregamos subtítulos al video, este esfuerzo aumenta y se enfoca en el procesamiento visual y verbal.
En las condiciones en las que el material audiovisual se presentaba con audio en el grupo experimental sin discapacidad auditiva, y sustituyendo el audio por estimulación vibro táctil en el grupo con discapacidad auditiva, los resultados de los registros EEG mostraron una activación máxima en las mismas áreas cerebrales en ambos grupos, áreas que coinciden con las áreas involucradas en el procesamiento de la música afectiva: lóbulo temporal superior, circunvolución frontal inferior, opérculo rolándico, e ínsula, y la activación del área de Heschl (corteza auditiva). Es decir, las zonas cerebrales activadas en una experiencia audiovisual completa, al menos las que se pueden medir mediante EEG, se activaron también significativamente de forma similar durante una proyección audiovisual sin audio, pero acompañada de una suave estimulación vibro táctil rítmica, reproduciendo un patrón simple de tempo, en el grupo con discapacidad auditiva.
Los resultados de esta primera fase de experimentaciones, basadas en registros de la actividad cerebral, mostraron por un lado que el subtitulado accesible textual no transmite la información que aporta la música de forma inmediata a través de la emoción, y que, por el contrario, el subtitulado textual incrementa la activación cerebral en zonas de procesamiento visual y verbal. Por otro lado, mostraron que la estimulación vibro táctil puede ser un canal de transmisión alternativo de emociones musicales básicas, al activar zonas cerebrales análogas a las que produce la música en un material audiovisual.
En una segunda fase, se han desarrollado y comparado distintos modelos de clasificación automática de la emoción musical, con el objetivo de determinar un modelo sencillo y eficaz de clasificación automática de las emociones básicas contenidas en fragmentos musicales. Se pretendía establecer una primera aproximación al problema con la premisa de simplicidad, tomando como punto de partida unas condiciones básicas, acordes con las consideraciones neurocientíficas respecto a la emoción: clasificar en base a las emociones básicas de alegría, tristeza y miedo, expresadas en grado intenso, utilizar fragmentos musicales del orden de 2 segundos y utilizar las bases de datos de películas etiquetadas con rigor científico desde la neurociencia. Considerando, a partir del estado del arte, que los modelos CNN de clasificación de género musical más simples obtienen los mejores resultados con fragmentos musicales de pocos segundos, la experimentación se basó en el desarrollo y validación de modelos CNN basados en arquitecturas sencillas.
Todos los programas se desarrollaron en el lenguaje de programación Python (versión 3.7.6), y con el entorno de desarrollo de Spyder (Scientific Python Development Environmen). Todas las experimentaciones se realizaron siempre con el mismo equipo (Procesador Intel Core i5 2.50 GHz y 16GB RAM). Para el tratamiento audio se utilizó la librería Librosa (versión 0.8.0), la librería de referencia en Python para MIR en Python, y que dispone de amplias funcionalidades para obtener distintos tipos de espectrogramas, siendo los espectrogramas las posibles entradas audio “visuales” para las redes CNN. Para el desarrollo de los modelos CNN se utilizó la librería Keras (versión 2.4.3, biblioteca de código abierto (con licencia MIT) escrita en Python, y que tiene como objetivo ofrecer unas API sencillas e intuitivas para el desarrollo de modelos complejos de aprendizaje profundo. Como datos de entrenamiento se utilizaron las bases de datos, Film Music Excerpts de (Eerola & Vuoskoski, 2011) y Musical Excerpts de (Vieillard et al., 2008) por ser las únicas disponibles etiquetadas en cuanto a emoción de forma rigurosa desde la neurociencia. La primera se compone de 40 fragmentos, compuestos, específicamente en el género de la música de cine cualificados en base a cuatro emociones: alegría, tristeza, miedo y tranquilidad. La segunda se compone de un primer set de 360 extractos musicales de 60 bandas sonoras de películas seleccionadas por un panel de expertos musicólogos y un segundo set con los 110 ejemplos más representativos del primer set. Los fragmentos musicales seleccionados permitían generar 976 muestras de 2 segundos de duración. Aunque se trata de una cantidad limitada, y además con grupos de muestras pertenecientes a mismos fragmentos musicales, con riesgo de sobreajuste, se decidió utilizar únicamente estas muestras científicamente contrastadas y correspondientes a emociones expresadas con intensidad.
Los fragmentos se redujeron a una tasa de muestreo de 16.000 Hz para facilitar el procesamiento y se dividieron en muestras de 2 segundos. Para cada muestra de 2 segundos, y utilizando la librería Librosa, se generaron tres tipos de espectrogramas: STFT (espectrogramas de frecuencias), Mel (espectrogramas de frecuencias convertidas a la escala Mel), y CQT (espectrogramas con las frecuencias convertidas a tonos musicales). Se consideraron ventanas superpuestas de 512 muestras, con un salto entre ventanas de 256.
En una primera experimentación se buscaba el desarrollo de un modelo CNN base que alcanzara tasas de reconocimiento en línea con el estado del arte, para determinar el tipo de espectrograma más idóneo como dato de entrada y los parámetros de entrenamiento más adecuados, para la clasificación en base a emociones. Se desarrolló un modelo de aprendizaje CNN, basado en arquitecturas sencillas. Tras una fase de afinación se probaron los distintos espectrogramas. Las distintas experimentaciones realizadas mostraron que los espectrogramas CQT, curiosamente los que mejor representan las relaciones entre tonos musicales, son los que obtenían mejores resultados, requiriendo además un tiempo de procesamiento menor que el resto de los espectrogramas. Concretamente se obtenía en validación cruzada un valor medio de Accuracy (Precisión) de 78% y un tiempo medio de procesamiento de 38 mn (minutos) para 50 epochs (Iteraciones) con el espectrograma CQT, un valor medio de Accuracy de 76% y un tiempo medio de procesamiento de 60 mn para 50 epochs con el espectrograma Mel, y un valor medio de Accuracy de 76% y un tiempo medio de procesamiento de 144 mn para 50 epochs con el espectrograma STFT.
En una segunda experimentación se compararon los resultados de clasificación, sobre las mismas muestras, de los modelos CNN más representativos del estado del arte para clasificación del género musical, adaptando estos modelos para la clasificación en las emociones de alegría, tristeza, miedo y tranquilidad. Las distintas experimentaciones realizadas mostraron que el modelo CNN de arquitectura más sencilla, relativamente profundo (8 capas convolucionales), con convoluciones con estructura sencilla, sin incluir bloques más complejos como bloques ResNet (Residual Networks) o Inception (arquitectura de red Inception), ofrecía mejores resultados que otros modelos más complejos. Así en la clasificación en 4 emociones (alegría, tristeza, miedo, tranquilidad), se obtenía 81% de media de Accuracy en validación cruzada, y 89% cuando se consideraban las 3 emociones básicas (alegría, tristeza, miedo), mientras que el resto de las modelos no se alcanzaban valores superiores al 76% de Accuracy.
Hay que tener en cuenta la limitación de la muestra utilizada en los resultados obtenidos, sobre todo, por el riesgo de sobreajuste al tratarse de grupos de muestras pertenecientes a mismos fragmentos musicales. Aun así, se puede considerar que la arquitectura CNN sencilla puede ser una arquitectura eficaz en la clasificación de la emoción en fragmentos de audio de 2 segundos. El modelo muestra ser eficaz, con 2 segundos de muestra, tiempo suficiente para transmitir la emoción de forma inmediata, en las emociones básicas de alegría, tristeza, y miedo que son precisamente las más interesantes de identificar en el caso del subtitulado de la música de películas, acercándose a los resultados de los experimentos neurocientíficos con sujetos experimentales. Además, frente a otros modelos presenta la gran ventaja de no requerir una selección previa de las características de las muestras de audio, ni el soporte de datos adicionales a las muestras de audio. Por tanto, puede ser una base sencilla y eficaz para la extracción de la emoción de la música de cara a un subtitulado accesible, junto con el uso de espectrogramas CQT.
En conclusión, el objetivo inicial de esta investigación era aportar ideas base para el desarrollo de un framework de subtitulado accesible de la música (estímulo no verbal) de películas alternativo al canal textual. La reacción positiva a una suave y sencilla estimulación rítmica vibro táctil, alienta a continuar en la investigación del canal vibro táctil que parece ser capaz de aportar nuevas soluciones, como alternativa a los subtítulos tradicionales, para transmitir la información emocional contenida en la banda sonora audiovisual, y así producir la intención emocional del autor en sujetos con discapacidad auditiva. Mientras que los modelos de aprendizaje CNN, con arquitecturas sencillas, presentan una solución simple y eficaz para la clasificación automática de fragmentos musicales en base a emociones básicas.},
howpublished = {Directores de la Tesis: Belén Ruiz Mezcua },
keywords = {},
pubstate = {published},
tppubtype = {phdthesis}
}
El objetivo general de esta investigación es contribuir a facilitar a las personas con discapacidad auditiva el acceso a la información emocional transmitida por la música de películas, explorando alternativas de subtitulado de la música que ayuden a “sentir” esta emoción de forma directa e inmediata. Se pretende aportar ideas base para el desarrollo de un framework de subtitulado (en el contexto de transmisión de la información de manera alternativa) accesible de la música, que pueda incorporarse en un futuro a las tecnologías de subtitulado clásico. Este framework estaría compuesto por dos funcionalidades principales: una funcionalidad de extracción e identificación de la emoción musical mediante la clasificación automática de los distintos fragmentos de audio con contenido musical, y una funcionalidad de transmisión de esta emoción a través del canal vibro táctil (transmisión háptica), estableciendo los correspondientes parámetros vibro táctiles.
Para ello, al ser un campo de investigación nuevo, se ha realizado en primer lugar un estudio del estado del arte en distintas áreas científicas relacionadas para establecer un marco científico en el que apoyar la investigación. Por un lado, se ha investigado cómo entiende la neurociencia la emoción musical: ¿qué es la emoción? ¿por qué la música emociona?, y cómo se aborda desde la ciencia informática el reconocimiento automático de las emociones, con los modelos desarrollados en los ámbitos MIR (Music Information Retrieval) y MER (Music Emotion Recognition). Por otro lado, se ha investigado la percepción vibro-táctil, base de los dispositivos que ya se han empezado a utilizar con las personas con discapacidad auditiva para potenciar la experiencia musical, desde la perspectiva de la fisiología y la neurociencia, y también desde una perspectiva más técnica de desarrollo de dispositivos vibro táctiles. A raíz del estudio del estado del arte se han podido establecer unos puntos básicos en los que sustentar esta investigación. Por un lado, los estudios neurocientíficos sobre la emoción musical muestran un cerebro capaz de procesar la emoción musical con mucha precisión, en muy poco tiempo, menos de 2 segundos, ya que la emoción musical estaría entroncada en circuitos neuronales primarios de supervivencia. Las emociones básicas e intensas de alegría, tristeza y miedo son las más claramente identificables en la música, se reconocen de forma universal e inmediata, y se asocian consistentemente con distintos valores de los parámetros musicales. Respecto a la percepción vibro táctil, se produciría una interacción estrecha entre los sentidos del oído y del tacto, existiendo una percepción multimodal vibro táctil-auditiva cerca de las áreas sensoriales primarias, de forma que parámetros como la frecuencia, el ritmo o el timbre se procesarían por un mismo mecanismo perceptivo común al oído y al tacto. La estimulación vibro táctil permitiría así transmitir parámetros musicales, aunque con un rango perceptivo más limitado que el oído. En el ámbito de la ciencia informática, los modelos MER desarrollados adolecen de muchas limitaciones, principalmente porque no existe un framework común de experimentación, lo que hace muy difícil la replicabilidad de los estudios. Por una parte, está la ausencia de datasets públicos, consensuados y adecuadamente validados, a lo que se añade la dificultad del proceso de anotación, generalmente realizado en base a taxonomías variadas, no basadas en los estudios neurocientíficos, y en un entorno poco controlado. Por otra parte, está la dificultad de seleccionar y obtener las características de audio significativas para la captura de la emoción musical, ya que no está clara la bondad de los algoritmos, ni qué características son relevantes para la detección de la emoción asociada a una música. Y, por último, está la dificultad de crear modelos de aprendizaje automático robustos para capturar las relaciones música-emoción. Los resultados apenas superan el 75% de precisión siempre que se consideren 4 o 5 emociones básicas. Actualmente las redes neuronales CNN (Convolutional Neural Networks) utilizadas en el reconocimiento de imagen se están utilizando con espectrogramas de las muestras audio como imágenes de entrada, con resultados prometedores, siendo los modelos CNN de arquitecturas simples los que obtienen mejores resultados tal y como demostraremos en la presente investigación.
A partir de estas bases teóricas se han desarrollado las experimentaciones reflejadas en el trabajo de investigación. En una primera fase, se ha estudiado mediante registros EEG (electroencefalograma) la actividad cerebral generada por estímulos audiovisuales presentados en distintas condiciones a grupos de sujetos experimentales sin discapacidad auditiva y con discapacidad auditiva. Los estímulos utilizados fueron distintos vídeos acompañados por estímulos adicionales: subtítulos, efectos sonoros, o estimulación vibro táctil. Los vídeos fueron creados específicamente para las experimentaciones, componiendo secuencias de imágenes, extraídas de películas o documentales, no asociadas con ningún diálogo o acción dramática, ya que las imágenes deben mantenerse lo más neutrales posible para permitir la medición de los efectos producidos por los estímulos adicionales a las imágenes. Para la estimulación vibro táctil se utilizó un guante háptico, creado por el Grupo de Displays y Aplicaciones Fotónicas de la Universidad Carlos III de Madrid, que permitía aplicar una suave vibración táctil en las yemas de los dedos y la palma de la mano de los participantes. La señal de conducción de los motores consistía en una ráfaga de 102 ms de señal cuadrada de 1 kHz, generada por un Arduino UNO activado por un PC de control y sincronizado con la proyección de los vídeos. El ritmo al que se disparaban las activaciones era el principal estímulo.
En ambos experimentos se reclutaron dos grupos de participantes: un grupo de control con participantes voluntarios sin discapacidad auditiva y un grupo experimental de voluntarios con discapacidad auditiva. Se gestionaron sus datos conforme a la Ley de protección de datos y se solicitó la correspondiente autorización del comité de ética, todos los participantes fueron informados del objetivo y procedimiento general de la experimentación, y firmaron un documento de consentimiento informado. Se utilizó un equipo de registro EEG multicanal de 64 canales, con un casco EEG que se ajustaba en la cabeza de los participantes previamente a la realización de las pruebas. Durante la proyección de los vídeos en las distintas condiciones experimentales, se registraba la actividad cerebral de los participantes mediante este equipo. Con los registros verificados y limpios de artefactos, se calcularon los promedios de activación cerebral para cada participante y condición. A partir de estos promedios de activación, se utilizó el algoritmo LORETA (Low Resolution Electromagnetic Tomography), que permite identificar las fuentes de corriente neuronal subyacentes a los potenciales registrados a nivel de cuero cabelludo, para generar los correspondientes mapas de activación cerebrales, de acuerdo con el modelo de atlas cerebral promedio del Instituto Neurológico de Montreal (MNI). Estos mapas permiten visualizar las áreas de máxima activación cerebral.
Los resultados de los registros EEG mostraron que, en las condiciones de un material presentado con audio en el grupo experimental sin discapacidad auditiva y sin audio en el grupo con discapacidad auditiva, se activaban las mismas áreas temporales de procesamiento de la información en ambos grupos. Pero el grupo de personas sordas movilizaba estas áreas con mucha más intensidad, es decir con mayor esfuerzo de procesamiento, y además movilizaba áreas frontales cerebrales relacionadas con la atención y procesos cognitivos de orden superior. La presencia de subtítulos aumentaba la activación de las áreas visuales y de procesamiento verbal en ambos grupos, pero con mayor intensidad en el grupo de personas sordas. Así, los resultados indican que cuando un sujeto con pérdida auditiva está viendo un video sin subtítulos, necesita un mayor consumo de recursos cerebrales como consecuencia de la pérdida auditiva. Si además agregamos subtítulos al video, este esfuerzo aumenta y se enfoca en el procesamiento visual y verbal.
En las condiciones en las que el material audiovisual se presentaba con audio en el grupo experimental sin discapacidad auditiva, y sustituyendo el audio por estimulación vibro táctil en el grupo con discapacidad auditiva, los resultados de los registros EEG mostraron una activación máxima en las mismas áreas cerebrales en ambos grupos, áreas que coinciden con las áreas involucradas en el procesamiento de la música afectiva: lóbulo temporal superior, circunvolución frontal inferior, opérculo rolándico, e ínsula, y la activación del área de Heschl (corteza auditiva). Es decir, las zonas cerebrales activadas en una experiencia audiovisual completa, al menos las que se pueden medir mediante EEG, se activaron también significativamente de forma similar durante una proyección audiovisual sin audio, pero acompañada de una suave estimulación vibro táctil rítmica, reproduciendo un patrón simple de tempo, en el grupo con discapacidad auditiva.
Los resultados de esta primera fase de experimentaciones, basadas en registros de la actividad cerebral, mostraron por un lado que el subtitulado accesible textual no transmite la información que aporta la música de forma inmediata a través de la emoción, y que, por el contrario, el subtitulado textual incrementa la activación cerebral en zonas de procesamiento visual y verbal. Por otro lado, mostraron que la estimulación vibro táctil puede ser un canal de transmisión alternativo de emociones musicales básicas, al activar zonas cerebrales análogas a las que produce la música en un material audiovisual.
En una segunda fase, se han desarrollado y comparado distintos modelos de clasificación automática de la emoción musical, con el objetivo de determinar un modelo sencillo y eficaz de clasificación automática de las emociones básicas contenidas en fragmentos musicales. Se pretendía establecer una primera aproximación al problema con la premisa de simplicidad, tomando como punto de partida unas condiciones básicas, acordes con las consideraciones neurocientíficas respecto a la emoción: clasificar en base a las emociones básicas de alegría, tristeza y miedo, expresadas en grado intenso, utilizar fragmentos musicales del orden de 2 segundos y utilizar las bases de datos de películas etiquetadas con rigor científico desde la neurociencia. Considerando, a partir del estado del arte, que los modelos CNN de clasificación de género musical más simples obtienen los mejores resultados con fragmentos musicales de pocos segundos, la experimentación se basó en el desarrollo y validación de modelos CNN basados en arquitecturas sencillas.
Todos los programas se desarrollaron en el lenguaje de programación Python (versión 3.7.6), y con el entorno de desarrollo de Spyder (Scientific Python Development Environmen). Todas las experimentaciones se realizaron siempre con el mismo equipo (Procesador Intel Core i5 2.50 GHz y 16GB RAM). Para el tratamiento audio se utilizó la librería Librosa (versión 0.8.0), la librería de referencia en Python para MIR en Python, y que dispone de amplias funcionalidades para obtener distintos tipos de espectrogramas, siendo los espectrogramas las posibles entradas audio “visuales” para las redes CNN. Para el desarrollo de los modelos CNN se utilizó la librería Keras (versión 2.4.3, biblioteca de código abierto (con licencia MIT) escrita en Python, y que tiene como objetivo ofrecer unas API sencillas e intuitivas para el desarrollo de modelos complejos de aprendizaje profundo. Como datos de entrenamiento se utilizaron las bases de datos, Film Music Excerpts de (Eerola & Vuoskoski, 2011) y Musical Excerpts de (Vieillard et al., 2008) por ser las únicas disponibles etiquetadas en cuanto a emoción de forma rigurosa desde la neurociencia. La primera se compone de 40 fragmentos, compuestos, específicamente en el género de la música de cine cualificados en base a cuatro emociones: alegría, tristeza, miedo y tranquilidad. La segunda se compone de un primer set de 360 extractos musicales de 60 bandas sonoras de películas seleccionadas por un panel de expertos musicólogos y un segundo set con los 110 ejemplos más representativos del primer set. Los fragmentos musicales seleccionados permitían generar 976 muestras de 2 segundos de duración. Aunque se trata de una cantidad limitada, y además con grupos de muestras pertenecientes a mismos fragmentos musicales, con riesgo de sobreajuste, se decidió utilizar únicamente estas muestras científicamente contrastadas y correspondientes a emociones expresadas con intensidad.
Los fragmentos se redujeron a una tasa de muestreo de 16.000 Hz para facilitar el procesamiento y se dividieron en muestras de 2 segundos. Para cada muestra de 2 segundos, y utilizando la librería Librosa, se generaron tres tipos de espectrogramas: STFT (espectrogramas de frecuencias), Mel (espectrogramas de frecuencias convertidas a la escala Mel), y CQT (espectrogramas con las frecuencias convertidas a tonos musicales). Se consideraron ventanas superpuestas de 512 muestras, con un salto entre ventanas de 256.
En una primera experimentación se buscaba el desarrollo de un modelo CNN base que alcanzara tasas de reconocimiento en línea con el estado del arte, para determinar el tipo de espectrograma más idóneo como dato de entrada y los parámetros de entrenamiento más adecuados, para la clasificación en base a emociones. Se desarrolló un modelo de aprendizaje CNN, basado en arquitecturas sencillas. Tras una fase de afinación se probaron los distintos espectrogramas. Las distintas experimentaciones realizadas mostraron que los espectrogramas CQT, curiosamente los que mejor representan las relaciones entre tonos musicales, son los que obtenían mejores resultados, requiriendo además un tiempo de procesamiento menor que el resto de los espectrogramas. Concretamente se obtenía en validación cruzada un valor medio de Accuracy (Precisión) de 78% y un tiempo medio de procesamiento de 38 mn (minutos) para 50 epochs (Iteraciones) con el espectrograma CQT, un valor medio de Accuracy de 76% y un tiempo medio de procesamiento de 60 mn para 50 epochs con el espectrograma Mel, y un valor medio de Accuracy de 76% y un tiempo medio de procesamiento de 144 mn para 50 epochs con el espectrograma STFT.
En una segunda experimentación se compararon los resultados de clasificación, sobre las mismas muestras, de los modelos CNN más representativos del estado del arte para clasificación del género musical, adaptando estos modelos para la clasificación en las emociones de alegría, tristeza, miedo y tranquilidad. Las distintas experimentaciones realizadas mostraron que el modelo CNN de arquitectura más sencilla, relativamente profundo (8 capas convolucionales), con convoluciones con estructura sencilla, sin incluir bloques más complejos como bloques ResNet (Residual Networks) o Inception (arquitectura de red Inception), ofrecía mejores resultados que otros modelos más complejos. Así en la clasificación en 4 emociones (alegría, tristeza, miedo, tranquilidad), se obtenía 81% de media de Accuracy en validación cruzada, y 89% cuando se consideraban las 3 emociones básicas (alegría, tristeza, miedo), mientras que el resto de las modelos no se alcanzaban valores superiores al 76% de Accuracy.
Hay que tener en cuenta la limitación de la muestra utilizada en los resultados obtenidos, sobre todo, por el riesgo de sobreajuste al tratarse de grupos de muestras pertenecientes a mismos fragmentos musicales. Aun así, se puede considerar que la arquitectura CNN sencilla puede ser una arquitectura eficaz en la clasificación de la emoción en fragmentos de audio de 2 segundos. El modelo muestra ser eficaz, con 2 segundos de muestra, tiempo suficiente para transmitir la emoción de forma inmediata, en las emociones básicas de alegría, tristeza, y miedo que son precisamente las más interesantes de identificar en el caso del subtitulado de la música de películas, acercándose a los resultados de los experimentos neurocientíficos con sujetos experimentales. Además, frente a otros modelos presenta la gran ventaja de no requerir una selección previa de las características de las muestras de audio, ni el soporte de datos adicionales a las muestras de audio. Por tanto, puede ser una base sencilla y eficaz para la extracción de la emoción de la música de cara a un subtitulado accesible, junto con el uso de espectrogramas CQT.
En conclusión, el objetivo inicial de esta investigación era aportar ideas base para el desarrollo de un framework de subtitulado accesible de la música (estímulo no verbal) de películas alternativo al canal textual. La reacción positiva a una suave y sencilla estimulación rítmica vibro táctil, alienta a continuar en la investigación del canal vibro táctil que parece ser capaz de aportar nuevas soluciones, como alternativa a los subtítulos tradicionales, para transmitir la información emocional contenida en la banda sonora audiovisual, y así producir la intención emocional del autor en sujetos con discapacidad auditiva. Mientras que los modelos de aprendizaje CNN, con arquitecturas sencillas, presentan una solución simple y eficaz para la clasificación automática de fragmentos musicales en base a emociones básicas.