Approches neuronales pour le résumé abstractif de transcriptions de parole

Paul Tardy

Résumé

In this thesis, we study the application of Deep Learning Neural Approaches for abstractive summarization for meetings reports generation. This work takes place in a context where Deep Learning is omnipresent in the Natural Language Processing field (NLP). In fact, neural models constitute the current state-of-the-art in different language generation tasks such as Machine Translation and Abstractive Summarization. However, the application of automatic summarization for meeting report generation in french remains unexplored. Indeed, this task suffers from a lack of available data because of difficulties to collect and annotate such data. In this context, our first contribution consists of the creation of a dataset for this task by aligning meeting reports with automatic transcriptions of the meeting's audio recording. We propose a methodology associating automatic alignment with human alignment. This methodology enables us to develop automatic alignment models thanks to the annotation of an evaluation dataset while facilitating the human annotation task thanks to the use of automatic pre-alignments. Then, in order to avoid constraints from the annotation -- even automatic -- we suggest running a self-supervised pre-training in order to take profit from large amounts of unaligned data. Moreover, we introduce back-summarization that allows us to generate synthetic data and create training pairs from unaligned meeting reports. We also combine those two approaches and show their synergy. In this thesis, we focus our work on the abstractive approach of automatic summarization which consists in generating a summary from scratch, as opposed to the extractive approach where parts of the source document are selected to form the summary. Indeed, writing meeting reports from automatic transcriptions requires rephrasing what is being said, optionally correcting it or reorganizing it in order to go from a spoken language to a written, and more formal language. In order to alleviate this bias, we introduce the explicit learning of the expected copy rate with control tokens. Finally, we conclude this thesis work with a human evaluation of automatic reports. This evaluation allows us to give a critical look at our models' performances as well as our experimental setup in particular on the metrics and the data used during evaluation.

Nous étudions, dans cette thèse, l'application des approches neuronales d'apprentissage profond pour le résumé abstractif de transcription de parole dans le cadre de la génération de comptes rendus de réunions. Ce travail prend place dans un contexte où l'apprentissage profond est omniprésent dans le domaine du Traitement Automatique du Langage Naturel (TALN). En effet, les modèles neuronaux constituent désormais l'état de l'art sur différentes tâches de génération de texte telles que la traduction automatique et le résumé abstractif. Toutefois, l'application du résumé automatique pour la génération de comptes rendus de réunions en français reste très peu explorée. En effet, cette tâche souffre du manque de données disponibles du fait des difficultés à collecter et à annoter de telles données. Dans ce contexte, notre première contribution consiste en la constitution d'un jeu de données pour cette tâche en alignant des comptes rendus avec les transcriptions automatiques des enregistrements audio de la réunion. Nous proposons une méthodologie associant l'alignement automatique à l'alignement humain. Cette méthodologie nous permet de développer des modèles d'alignement automatique grâce à la constitution de jeux de données d'évaluation tout en facilitant la tâche aux annotateurs humains grâce à l'usage de pré-alignements automatiques. Ensuite, afin de s'abstraire des contraintes liées à l'annotation -- même automatique -- nous proposons un pré-entraînement auto-supervisé des modèles afin de tirer profit de grands ensembles de données non-alignées. De plus, nous introduisons le résumé inverse nous permettant de générer des données synthétiques et de former des paires d'entraînement à partir de comptes rendus non-alignés. Nous combinons enfin ces deux approches et montrons leur bonne synergie. Les travaux de cette thèse se concentrent sur l'approche abstractive du résumé automatique qui consiste à générer un résumé de toutes pièces, par opposition à l'approche extractive où des portions du document sont sélectionnées en tant que résumé. En effet, la rédaction de comptes rendus de réunion à partir de transcriptions automatiques nécessite de reformuler les propos, d'éventuellement les corriger ou de les réorganiser afin de passer d'un langage oral hasardeux à un langage écrit et bien structuré. Pour autant, même les modèles dits abstractifs présentent un biais d'extractivité consistant à trop copier des mots issus de la source. Afin de limiter ce biais, nous introduisons l'apprentissage explicite du taux de copie attendu au sein du résumé grâce à des tokens de contrôle. Enfin, nous clôturons ce travail de thèse par une évaluation humaine des comptes rendus automatiques. Cette évaluation nous permet notamment de porter un regard critique sur les performances de nos modèles ainsi que sur le cadre expérimental, notamment sur les métriques et les données utilisées lors de l'évaluation.

Neural Approaches for Abstractive Summarization of Speech Transcription

Approches neuronales pour le résumé abstractif de transcriptions de parole

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager