La inteligencia artificial de Google permite a los usuarios buscar bases de conocimiento independientes del idioma en su idioma nativo.

La vinculaci√≥n de entidades juega un papel clave en la comprensi√≥n del lenguaje arraigado. Dada una menci√≥n en el texto (por ejemplo, la palabra ¬ę√ļtil¬Ľ), la tarea es identificar la entrada correspondiente de la entidad en una base de conocimiento (un art√≠culo de Wikipedia). Para ampliar su utilidad, los investigadores de Google proponen una nueva t√©cnica en la que se resuelven las menciones espec√≠ficas del idiomaagn√≥stico base de conocimientos. Describen un modelo de recuperaci√≥n de entidad √ļnica que cubre m√°s de 100 idiomas y 20 millones de entidades, mientras que aparentemente excede los resultados de actividades interling√ľ√≠sticas m√°s limitadas.

Vincular entidades multiling√ľes implica vincular un fragmento de texto en contexto a la entidad correspondiente en una base de conocimientos independiente del idioma. Las bases de conocimiento son esencialmente bases de datos que incluyen informaci√≥n sobre entidades: personas, lugares y cosas. En 2012, Google lanz√≥ una base de conocimientos, Knowledge Graph, para mejorar los resultados de b√ļsqueda con cientos de miles de millones de datos recopilados de fuentes como Wikipedia, Wikidata y el CIA World Factbook. Microsoft proporciona una base de conocimientos con m√°s de 150.000 art√≠culos creados por profesionales de soporte que han resuelto problemas para sus clientes.

Las bases de conocimiento para vincular entidades multiling√ľes pueden incluir informaci√≥n textual, como nombres y descripciones sobre cada entidad en uno o m√°s idiomas. Pero no hacen suposiciones preliminares sobre la relaci√≥n entre estos lenguajes de la base de conocimientos y el lenguaje secundario de menci√≥n.

Los investigadores de Google utilizaron los llamados modelos avanzados de recuperación de codificador dual y WikiData como base de conocimiento, que analiza un gran conjunto de entidades diferentes. WikiData contiene nombres y descripciones breves, pero a través de su estrecha integración con todas las ediciones de Wikipedia, también vincula entidades a descripciones enriquecidas (y otras características) tomadas de las páginas de Wikipedia específicas del idioma correspondiente.

Modelo de entidad de Google

Los investigadores extrajeron un conjunto de datos a gran escala de 684 millones de citas en 104 idiomas vinculados a entidades de WikiData, que dicen que son al menos seis veces más grandes que los conjuntos de datos utilizados en trabajos anteriores de vinculación solo en inglés. Además, los coautores crearon un conjunto de datos correspondiente, Mewsli-9, que abarca un conjunto diverso de idiomas y entidades, incluidas 289.087 citas de entidades que aparecen en 58.717 artículos de WikiNews. (Solo el 11% de las 82.162 entidades objetivo distintas en Mewsli-9 no tienen páginas de Wikipedia en inglés, lo que establece un límite superior para los sistemas centrados en entidades de Wikipedia en inglés).

Los investigadores dicen que los resultados muestran que la vinculaci√≥n de entidades puede reflejar mejor los desaf√≠os del mundo real de entidades raras y / o lenguajes con pocos recursos. ¬ęOperacionalizados a trav√©s de Wikipedia y WikiData, nuestros experimentos que utilizan modelos mejorados de recuperaci√≥n de codificador dual y evaluaci√≥n basada en frecuencia proporcionan evidencia convincente de que esta tarea se puede lograr con un solo modelo que cubre m√°s de 100 idiomas¬Ľ, escribieron. ¬ęNuestro conjunto de datos Mewsli-9 extra√≠do autom√°ticamente sirve como punto de partida para evaluar la vinculaci√≥n de entidades m√°s all√° de los puntos de referencia establecidos en el Reino Unido y dentro de la configuraci√≥n multiling√ľe ampliada¬Ľ.

Sin embargo, no est√° claro si los modelos de los investigadores muestran sesgo demogr√°fico. En un art√≠culo publicado a principios de este a√Īo, los investigadores de Twitter dijeron que encontraron evidencia de sesgo en los patrones de reconocimiento de entidades con nombres populares, particularmente con respecto a los nombres negros y otros nombres ¬ęno blancos¬Ľ. Pero los coautores de Google dejan la puerta abierta al uso de evaluadores humanos no expertos para mejorar la calidad del conjunto de datos de capacitaci√≥n e incorporar conocimiento relacional.


Cómo las startups están escalando la comunicación:

La pandemia está impulsando a las nuevas empresas a analizar más de cerca el auge de sus soluciones de comunicación. Aprender como


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *