Rencontres des Jeunes Chercheurs en Parole 2023 (10e édition)

Du 29 Nov. au 1er Déc. 2023, Grenoble (FRANCE)

Programme > Keynotes speeches

Mercredi
Représentations acoustiques de la parole

Pour de nombreux domaines d’application en sciences de la voix et de la parole, la caractérisation acoustique des phénomènes étudiés pour permettre leur quantification est cruciale, mais se heurte à la complexité du signal de parole. Dans la majorité des travaux passés et actuels, la phonétique privilégie les métriques pouvant donner lieu à une interprétation articulatoire, qui pour la plupart consistent en une projection d’une partie de l’information spectrale. Dans cet exposé nous passerons en revue un certain nombre de ces métriques appliquées aux consonnes et aux voyelles, avec un focus particulier sur les représentations des consonnes fricatives et des voyelles que nous illustrerons par des recherches récentes, en soulignant les défis méthodologiques liés à leur application à des corpus de parole non contrôlée ou de trop grande taille pour permettre une supervision fine. Nous aborderons ensuite l’apport potentiel pour les études phonétiques de paramétrisations du signal de parole plus classiquement utilisées dans le domaine du traitement automatique, à travers le cas des mesures de l’espace vocalique.
Nicolas Audibert (LPP)
Les diapos de la présentation

Jeudi
Interactive control of expressive speech synthesis

While state-of-the-art speech synthesis has now achieved impressive degrees of naturalness, being capable of generating speech samples that are little distinguishable from a natural voice, these most often mimic read speech, with little diversity of enunciation. The next milestone in the field is therefore to encode and control fine speech variations that convey expressive information in line with the context of communication. In paradigms as diverse as text-to-speech synthesis (e.g., to give voice to a conversational agent) or speech-to-speech synthesis (e.g., to enhance a pathological voice), the challenge of expressive speech synthesis is twofold: On the one hand, there is a need to identify control spaces within state-of-the-art speech generation models, where low-level or high-level speech features that carry expressive information (e.g., prosodic features) can be identified and tuned while ensuring high-quality modification of the generated speech signal. On the other hand, mappings between expected variations of those speech features and target expressivity should be designed for a fine-grained expressivity control. In the field of computer-human interaction, my research addresses both these issues, and this presentation aims at summarising the principle results gathered over the last ten years. The search for speech feature control spaces has evolved from the design of dedicated signal-based speech models (vocoders) to the exploration of intermediate representation spaces within highly non-linear deep neural networks, and both approaches will be presented. The mapping between variation of speech features and target expressivity has been mainly tackled in the speech-to-speech paradigm, in a context where a speaker expresses him/herself through a synthetic voice while controlling the variation of prosodic features in real-time. To this end, the use of manual gestures with simple rule-based mappings has yielded encouraging results. Perspectives on the design of more complex mappings between multi-channel co-occurring speech gestures and different functions of prosody will conclude the presentation.
Olivier Perrotin (GIPSA-lab)
Les diapos de la présentation

Vendredi
Construction des représentations phonologiques au cours du développement

Cet exposé portera sur le processus de construction des représentations phonologiques chez l’enfant, par l’interaction entre informations sensorielles multimodales et informations motrices. Ce processus sera étudié sur la base de données recueillies auprès de nourrissons et d'enfants au développement typique, ainsi que d'enfants porteurs de troubles de la parole ou de déficits auditifs. On questionnera ensuite la nature des représentations mises en jeu dans les tâches de conscience phonologique, et l’évaluation des méthodes permettant de soutenir ces habiletés métaphonologiques.
Anne Vilain (GIPSA-lab)

Vie privée | Accessibilité