Thamar Solorio
Thamar Solorio es profesora asociada al Departamento de Ciencias de la Computación de la Universidad de Houston (UH). Es licenciada en Informática por el Instituto Nacional de Astrofísica, Óptica y Electrónica, en Puebla, México. Entre sus intereses de investigación figuran la extracción de información de redes sociales, la habilitación de la tecnología para los datos conmutados por código, el modelado estilístico del texto y, más recientemente, los enfoques multimodales para la comprensión del contenido en línea. Es directora y fundadora del Laboratorio de Investigación en Comprensión de Textos y Análisis del Lenguaje de la UH. Ha recibido el premio NSF CAREER por su trabajo en la atribución de autoría y el premio ABIE al Líder Emergente 2014 en honor a Denice Denton. Es miembro electo de la junta del North American Chapter of the Association of Computational Linguistics (2020-2021). Su investigación está actualmente financiada por la Fundación Nacional de Ciencias y ADOBE y en el pasado ha recibido el apoyo de la Oficina de Investigación Naval y la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA).
Hallazgos recientes en los sistemas de predicción multimodal
Hay muchos casos en los que un sistema de Inteligencia Artificial puede beneficiarse de la observación de pruebas en más de una modalidad. En este contexto, la modalidad se refiere al texto, el discurso, las imágenes o el vídeo. Por ejemplo, en la clasificación de películas, es razonable esperar que la información pertinente para la tarea pueda provenir de cualquier combinación de los segmentos de habla, audio, imágenes y vídeo. Por lo tanto, la clave para lograr precisiones aceptables radica en el enfoque para combinarlas. Durante esta charla presentará los trabajos recientes que se basan en el modelo Gated Multimodal Unit (GMU) para proporcionar un mecanismo interno adaptable para combinar modalidades durante el aprendizaje de la representación. Motivaré el uso de estas GMU con ejemplos exitosos de problemas multimodales.
También argumentará que la multimodalidad no siempre es el enfoque óptimo. El hecho de que tengamos acceso a datos multimodales no significa necesariamente que debamos explotar las modalidades múltiples. Presentará ejemplos en los que la multimodalidad no consigue aportar mejoras con respecto a los modelos unimodales debido a las características inherentes del problema/datos en cuestión, así como a las capacidades actuales de los modelos subyacentes.