Accéder directement au contenu Accéder directement à la navigation
Communication dans un congrès

Traitement multi-microphone pour la segmentation automatique de la parole en réunion

Résumé : "Qui a parlé quand ?" C'est la question à laquelle répond la segmentation et le regroupement de locuteurs. Cette tâche de traitement automatique de la parole consiste à identifier les locuteurs et à déterminer les instants où chacun s'exprime dans un enregistrement audio. Les performances des algorithmes de segmentation et de regroupement des locuteurs sont conditionnées par un ensemble de tâches préalables telles que la détection d'activité vocale (Voice Activity Detection, VAD). La généralisation de l'utilisation des réseaux de neurones profonds et de l'apprentissage automatique a permis d'améliorer les performances des modèles au cours des dernières années. La qualité des résultats tend cependant à se dégrader en conditions acoustiques difficiles (faible rapport signal à-bruit, réverbération...). L'utilisation d'antennes de microphones est un axe pour permettre l'amélioration des performances dans ce contexte. Ces dispositifs, composés de plusieurs capteurs placés à différentes positions, permettent l'acquisition d'informations spatiales sur le champ acoustique. Des méthodes de traitement des signaux telles que la formation de voies permettent de combiner les canaux afin de filtrer le signal dans une certaine direction spatiale. Ces approches requièrent cependant la localisation explicite des locuteurs, parfois délicate à estimer. Récemment introduits dans la littérature, les mécanismes d'attention permettent aux modèles neuronaux de se focaliser automatiquement sur une partie des données d'entrée. Les travaux présentés s'intéressent à l'utilisation de ce type de mécanisme pour pondérer et combiner automatiquement les signaux issus de chaque microphone. Les expériences sont menées sur les données du corpus AMI, enregistrées au cours de réunions en conditions réelles. Deux méthodes de combinaison des canaux sont mises en œuvre pour la tâche de VAD. Les poids de combinaison des canaux sont également analysés, montrant que le modèle localise intrinsèquement le locuteur.
Liste complète des métadonnées

https://hal-univ-lemans.archives-ouvertes.fr/hal-03700014
Contributeur : Théo Mariotte Connectez-vous pour contacter le contributeur
Soumis le : lundi 20 juin 2022 - 17:28:27
Dernière modification le : vendredi 24 juin 2022 - 03:41:46

Fichier

cfa2022_papier_vf.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-03700014, version 1

Collections

Citation

Théo Mariotte, Anthony Larcher, Jean-Hugh Thomas, Silvio Montrésor. Traitement multi-microphone pour la segmentation automatique de la parole en réunion. 16ème Congrès Français d'Acoustique, Apr 2022, Marseille, France. ⟨hal-03700014⟩

Partager

Métriques

Consultations de la notice

0

Téléchargements de fichiers

0