A comparative study of word embeddings and other features for lexical complexity detection in French

Aina Garí; Marianna Apidianaki; Alexandre Allauzen

Communication Dans Un Congrès Année : 2018

A comparative study of word embeddings and other features for lexical complexity detection in French

Etude comparative de plongements lexicaux et autres traits pour la détection de la complexité lexicale en français

, (1) , (1)

Aina Garí

Fonction : Auteur

Marianna Apidianaki

Fonction : Auteur
PersonId : 20607
IdHAL : marianna-apidianaki

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Alexandre Allauzen

Fonction : Auteur
PersonId : 171266
IdHAL : alexandre-allauzen
IdRef : 078187621

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Résumé

Lexical complexity detection is an important step for automatic text simplification which serves to make informed lexical substitutions. In this study, we experiment with word embeddings for measuring the complexity of French words and combine them with other features that have been shown to be well-suited for complexity prediction. Our results on a synonym ranking task show that embeddings perform better than other features in isolation, but do not outperform frequency-based systems in this language.

Détecter la complexité lexicale est une étape importante pour la simplification automatique de textes, servant lors de l'identification des éléments lexicaux à substituer. Dans ce travail, nous explorons l'utilité des plongements lexicaux pour mesurer la complexité de mots en français, en les combinant avec d'autres traits reconnus comme étant utiles pour cette tâche. Nos résultats sur une tâche d'ordonnancement de synonymes selon leur complexité montrent que les plongements seuls donnent de meilleurs résultats que nombreux autres traits, bien que leur performance reste inférieure à celle de systèmes basés sur la fréquence pour cette langue.

Mots clés

readability synonym ranking word embeddings. Lexical complexity

Complexité lexicale, lisibilité, ordonnancement de synonymes, plongements lexicaux

Domaines

Informatique [cs] Informatique et langage [cs.CL]

Fichier principal

taln-complexity-3.pdf (126.86 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Limsi Publications : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01838512

Soumis le : vendredi 13 juillet 2018-15:41:51

Dernière modification le : samedi 7 octobre 2023-21:36:20

Archivage à long terme le : lundi 15 octobre 2018-16:16:22

Dates et versions

hal-01838512 , version 1 (13-07-2018)

Identifiants

HAL Id : hal-01838512 , version 1

Citer

Aina Garí, Marianna Apidianaki, Alexandre Allauzen. A comparative study of word embeddings and other features for lexical complexity detection in French. Conférence sur le Traitement Automatique des Langues Naturelles, May 2018, Rennes, France. ⟨hal-01838512⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS LIMSI UNIV-PARIS-SACLAY SORBONNE-UNIVERSITE LISN GS-ENGINEERING GS-COMPUTER-SCIENCE

88 Consultations

184 Téléchargements

A comparative study of word embeddings and other features for lexical complexity detection in French

Etude comparative de plongements lexicaux et autres traits pour la détection de la complexité lexicale en français

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager