Mesures linguistiques automatiques pour l'évaluation des systèmes de Reconnaissance Automatique de la Parole - Laboratoire Informatique de l'Université du Maine Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Mesures linguistiques automatiques pour l'évaluation des systèmes de Reconnaissance Automatique de la Parole

Résumé

Evaluating transcriptions from automatic speech recognition (ASR) systems is a difficult and still open problem, which often boils down to not considering only the word-error rate (WER). We present in this article a set of metrics, often used in other tasks in natural language processing (NLP), which we propose to apply in addition to WER in ASR. In particular, we introduce two measures relating to the morpho-syntactic and semantic aspects of transcribed words : 1) the POSER (Part-of-speech Error Rate), which highlights the grammatical aspects, and 2) the EmbER (Embedding Error Rate), an original measurement which takes up that of the WER by providing a weighting according to the semantic distance of the badly transcribed words. In order to show the additional information they provide, we also offer a qualitative analysis describing the contribution at the linguistic level of the language models used for the a posteriori rescoring of transcription hypotheses.
L'évaluation de transcriptions issues de systèmes de Reconnaissance Automatique de la Parole (RAP) est un problème difficile et toujours ouvert, qui se résume généralement à ne considérer que le WER. Nous présentons dans cet article un ensemble de métriques, souvent utilisées dans d'autres tâches en traitement du langage naturel, que nous proposons d'appliquer en complément du WER en RAP. Nous introduisons en particulier deux mesures considérant les aspects morpho-syntaxiques et sémantiques des mots transcrits : 1) le POSER (Part-of-speech Error Rate), qui évalue les aspects grammaticaux, et 2) le EmbER (Embedding Error Rate), une mesure originale qui reprend celle du WER en apportant une pondération en fonction de la distance sémantique des mots mal transcrits. Afin de montrer les informations supplémentaires qu'elles apportent, nous proposons également une analyse qualitative décrivant l'apport au niveau linguistique de modèles de langage utilisés pour le réordonnancement d'hypothèses de transcription a posteriori.
Fichier principal
Vignette du fichier
TALN_2022_v2.pdf (143.16 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03688029 , version 1 (03-06-2022)
hal-03688029 , version 2 (17-11-2022)

Identifiants

  • HAL Id : hal-03688029 , version 1

Citer

Thibault Bañeras Roux, Mickael Rouvier, Jane Wottawa, Richard Dufour. Mesures linguistiques automatiques pour l'évaluation des systèmes de Reconnaissance Automatique de la Parole. 29ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), Jun 2022, Avignon, France. ⟨hal-03688029v1⟩
255 Consultations
180 Téléchargements

Partager

Gmail Facebook X LinkedIn More