Le corpus ‘Parole’ est formé de données orales authentiques issues de programmes radiophoniques britanniques, américains et, de façon plus marginale, français.

Il s’agit essentiellement de discours politiques, journaux d’information, documentaires et interviews. La très bonne qualité des enregistrements permet de faire des analyses acoustiques fines. Ce corpus de 80 000 mots a vocation à être élargi à d’autres langues et d’autres types d’oral.

Type de corpus : oral

Langues concernées : anglais, français

Taille : 80 000 mots (environ 8h d’audio)

Provenance des données :

Documents authentiques, issus de la radio britannique BBC Radio 4 et de la radio américaine National Public Radio pour l’anglais ; pour le français, les documents sont issus de France Inter et de France 3 Télévision.

Le corpus a vocation de s’élargir à d’autres langues représentées au sein de l’équipe de linguistique du laboratoire FoReLLIS : l’allemand, le grec moderne et le roumain, par exemple, ainsi que d’envisager des corpus plurilingues (traduits ou comparables).

Le choix qui a été fait de n’intégrer pour l’instant que des documents radiophoniques est lié à la volonté d’avoir accès à un corpus authentique, et non fabriqué, au même titre que certains gros corpus écrits ces dernières années ont réuni des textes originaux (littéraires et/ou journalistiques) pour une exploitation de données en contexte afin de mener des analyses inter-langues (corpus alignés de textes traduits ou comparables) ou des analyses monolingues. Le corpus ‘Parole’ a d’autre part vocation à se diversifier en intégrant par la suite d’autres types de documents oraux, relevant notamment de la sphère privée : enregistrements de conversations familiales, conversations téléphoniques, tandems linguistiques, par exemple, mais cela nécessite la mise en place d’un protocole expérimental précis qui n’a pas été envisagé pour l’instant.

Format : .wav

Alignement : Les documents sont transcrits et alignés (texte-son) sous forme graphique (pas d’alignement prévu pour l’instant au niveau du phonème ou des constituants syllabiques, syllabes, mots, pieds accentuels et unités intonatives). L’alignement a été fait avec le logiciel Praat et nous avons procédé à un alignement en segments liés au temps (segments de 15s environ). La constitution de ce corpus, son alignement et sa compilation ont été l’objet de travaux de stage en licence et Master à l’UFR Lettres et Langues de l’Université de Poitiers.

Logiciels d’exploitation : Outil pour l’interrogation du corpus : logiciel Dolmen, développé par Julien Eychenne (www.julieneychenne.info/dolmen).

Utilisation du corpus : L’équipe de linguistique du FoReLLIS est constituée de chercheurs s’intéressant à divers domaines de la linguistique : syntaxe, énonciation, morphologie, lexicologie, sémantique cognitive, phonétique/phonologie. Souhaitant que ce corpus puisse servir au plus grand nombre d’entre eux, il a donc été décidé de nous en tenir à une transcription graphique, ce qui permettra à chaque chercheur d’y avoir recours selon ses besoins.

  • La vie du labo continue sur les réseaux sociaux !