Présentation :
Numérisation accomplie au sein du laboratoire. Documents en image de page disponibles sur Internet (archive.org, etc.), ou acquis grâce aux infrastructures de numérisation de la MSHS et postédités ou traités en reconnaissance optique de caractères, de manière à constituer des fichiers investigables sur la base de chaînes de caractères et des champs d’entrées lexicographiques.
Type de corpus : écrit, archive dictionnairique, avec indications phonétiques
Langues concernées : anglais
Taille : 100 000 000 mots en prenant en compte le plus volumineux des dictionnaires.
Provenance des données:
Références des dictionnaires numérisés :
– Bailey, Nathan, An Orthographical Dictionary, Shewing both the Orthography and the Orthoepia of the English Tongue, London: T. Cox, 1727.
– Buchanan, James, An Essay Towards Establishing a Standard for an Elegant and Uniform Pronunciation of the English Language, throughout the British dominions, as practised by the most learned and polite speakers, London: E.N.C. Dilly, 1766.
– Walker, John, A critical pronouncing dictionary, and expositor of the English language, 5th ed., 1809.
– Jones, Stephen. A General Pronouncing and Explanatory Dictionary of the English Language, 3rd ed. London 1798, 904 p.
– Jones, Daniel, English Pronouncing Dictionary, 12th ed. 1956. Fichier cédé par Lionel Guierre.
– Jones, Daniel, English Pronouncing Dictionary, 1st-18th ed. 1917-2011. Fichier des mots sujets à variation accentuelle dans les éditions successives de ce dictionnaire.
– Wells, John C. Longman Dictionary of Pronunciation, Longman, 1990, 2000, 2008.
Références des dictionnaires en cours de numérisation :
– Sheridan, Thomas. A General Dictionary of the English Language, one main object of which, is, to establish a plain and permanent standard of pronunciation, to which is prefixed a rhetorical grammar, London: J. Dodsley, C. Dilly & J. Wilkie 1780, [24]+1029 p.
– Wright, Thomas, The Universal Pronouncing Dictionary, and General Expositor of the English Language, London, Edinburgh and Dublin: J & F Tallis 1852-1856, vol.I iv+8+8+920 p., vol.II 843 p., vol. III 1104 p., vol. IV 986 p., vol. V 962 p.
Format : .doc, .txt codé UTF-8, .xml, .csv.
Logiciels d’exploitation : Recherche sur chaîne de caractères avec des expressions régulières. Possibilités en cours d’étude : Jupyterlab.
Utilisation du corpus :
L’exploitation de données dictionnairiques vise à mener des analyses de la régularité et de la variation phonétiques et accentuelles au cours de l’histoire récente de l’anglais (1700-2010).
Une base de données des sources numérisées est en cours de constitution, privilégiant les entrées lexicales où les dictionnaires, par leurs divergences, permettent de cerner des conflits de règles et l’émergence d’innovations phonétiques dans la langue.
L’analyse du discours explicite sur la norme recommandée permet également des études de sociolinguistique diachronique. Les résultats atteints sont confrontés avec ceux des recherches menées au sein du laboratoire par Philippe Caron sur la diction haute en français.
L’accès aux données est partagé avec le laboratoire Clillac-Arp de Paris-Diderot et est accessible à d’autres chercheurs sur demande, notamment en vue d’échanges de données.