Reconnaissance de la parole dans un contexte de cours magistraux : évaluation, avancées et enrichissement

Salima Mdhaffar

Résumé

This thesis is part of a study that explores automatic transcription potential for the instrumentation of educational situations.Our contribution covers several axes.First, we describe the enrichment and the annotation of COCo dataset that we produced as part of the ANR PASTEL project.This corpus is composed of different lectures' videos. Each lecture is related to a particular field (natural language, graphs, functions ...).In this multi-thematic framework, we are interested in the problem of the linguistic adaptation of automatic speech recognition systems (ASR).The proposed language model adaptation is based both on the lecture presentation supports provided by the teacher and in-domain data collected automatically from the web.Then, we focused on the ASR evaluation problem.The existing metrics don't allow a precise evaluation of the transcriptions' quality.Thus, we proposed two evaluation protocols.The first one deals with an intrinsic evaluation, making it possible to estimate performance only for domain words of each lecture (IWER_Average).The second protocol offers an extrinsic evaluation, which estimates the performance for two tasks exploiting transcription: information retrieval and indexability.Our experimental results show that the global word error rate (WER) masks the gain provided by language model adaptation.So, to better evaluate this gain, it seems particularly relevant to use specific measures, like those presented in this thesis.As LM adaptation is based on a collection of data from the web, we study the reproducibility of language model adaptation results by comparing the performances obtained over a long period of time.Over a collection period of one year, we were able to show that, although the data on the Web changed in part from one month to the next, the performance of the adapted transcription systems remainedconstant (i.e. no significant performance changes), no matter the period considered.Finally, we are intersted on thematic segmentation of ASR output and alignment of slides with oral lectures.For thematic segmentation, the integration of slide's change information into the TextTiling algorithm provides a significant gain in terms of F-measure.For alignment of slides with oral lectures, we have calculated a cosine similarity between the TF-IDF representation of the transcription segments andthe TF-IDF representation of text slides and we have imposed a constraint torespect the sequential order of the slides and transcription segments.Also, we have considered a confidence measure todiscuss the reliability of the proposed approach.

Cette thèse s’inscrit dans le cadre d’une étude sur le potentiel de la transcription automatique pour l'instrumentation de situations pédagogiques.Notre contribution porte sur plusieurs axes. Dans un premier temps, nous décrivons l'enrichissement et l'annotation du corpus COCo que nous avons réalisés dans le cadre du projet ANR PASTEL.Ce corpus est composé de vidéos de différents cours magistraux, chacun étant spécialisé dans un domaine particulier (langage naturel, graphes, fonctions...).Dans ce cadre multi-thématiques, nous nous sommes ensuite intéressés à la problématique de l'adaptation linguistique des systèmes de reconnaissance automatique de la parole (SRAP). La proposition d'adaptation des modèles s'appuie à la fois sur les supports de présentation de cours fournis par les enseignants et sur des données spécialisées récoltées automatiquement à partir du web.Puis, nous nous sommes focalisés sur la problématique de l'évaluation des SRAP, les métriques existantes ne permettant pas une évaluation précise de la qualité des transcriptions dans un cadre applicatif déterminé. Ainsi, nous avons proposé deux protocoles d'évaluation. Le premier porte sur une évaluation intrinsèque, permettant d'estimer la performance seulement pour des mots spécialisés de chacun des cours (IWER_Average). D'autre part, nous proposons une évaluation extrinsèque, qui estime la performance pour deux tâches exploitant la transcription: la recherche d'informations et l'indexabilité.Nos résultats expérimentaux montrent que le taux d'erreurs-mots global (WER) masque les apports effectifs de l’adaptation des modèles de langage et prouve la nécessité d’utiliser de nouvelles mesures, telles que celles présentées dans ce manuscrit, pour évaluer l’apport réel de l’adaptation des modèles de langage.L'adaptation reposant sur une collecte de données issues du web, nous avons cherché à rendre compte de la reproductibilité des résultats sur l'adaptation de modèles de langage en comparant les performances obtenues sur une longue période temporelle.Nos résultats expérimentaux montrent que même si les données sur le web changent en partie d’une période à l’autre, la variabilité de la performance des systèmes de transcription adaptés est restée non significative à partir d'un nombre minimum de documents collectés.Enfin, nous avons proposé une approche permettant de structurer la sortie de la transcription automatique en segmentant thématiquement la transcription et en alignant la transcription avec les diapositives des supports de cours.Pour la segmentation, l'intégration de l'information de changement de diapositives dans l'algorithme TextTiling apporte un gain significatif en termes de F-mesure.Pour l'alignement, nous avons développé une technique basé sur des représentations TF-IDF en imposant une contrainte pour respecter l’ordre séquentiel des diapositives et des segments de transcription et nous avons vérifié la fiabilité de l'approche utilisée à l'aide d'une mesure de confiance.

Speech recognition in the context of lectures : assessment, progress and enrichment

Reconnaissance de la parole dans un contexte de cours magistraux : évaluation, avancées et enrichissement

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager