L3 LEA “Introduction à l’analyse outillée des données linguistiques”

Machine Translation: A brief history

Video. Introduction to Neural MT (GRIAL, UOC)

Article: “Franz Josef Och, Google’s translation über-scientist, talks about Google Translate”, LA Times, March 11, 2010.

Post: “Recent advances in Google Translate”, Google AI Blog, June 8, 2020.

Trustpoint.One. (2019). “How Artificial Intelligence is transforming Machine Translation and the global language business“.

References

Lavault-Olléon, Elisabeth. (2018). Regard diachronique et prospectif sur un demi-siècle de traductologie pragmatique. ASp 74, 5-26.

Léon, Jacqueline. (2015). Histoire de l’automatisation des sciences du langage. ÉNS Editions. Chapter 3 : Effort de guerre, technologisation de la linguistique et naissance de la linguistique appliquée.

1. Interrogation du corpus Google Books avec l’interface Ngram Viewer

Présentation de l’interface : Ngram Viewer

Exercices : ouvrir Ngram Viewer

  • Afficher le graphique pour voir l’évolution des occurrences de global warming, ozone layer, biodiversity, climate change dans le corpus anglais 2019.
  • Identifier l’émergence du terme transition écologique en français.
  • Comparer les fréquences d’utilisation de événements climatiques extrêmes / extreme weather events en anglais et en français.
  • Afficher simultanément les graphiques correspondant à l’usage des mots suivants en français et en anglais entre 1950 et 2019 : développement durable / sustainable development; couche d’ozone / ozone layer.

Article 1. Héran, François. (2015). Les mots de la démographie des origines à nos jours : une exploration numérique. Population 70(3), 525-566.

Article 2. Pécatte, Patrick. (2011). L’interprétation des graphiques produits par Ngram Viewer.

2. Utilisation de Sketch Engine

Exercices : ouvrir SketchEngine

a. Premiers pas

Regardez la vidéo de présentation :

  • Quel terme fait référence aux mots tels qu’ils apparaissent dans les dictionnaires ?
  • Quelle fonction me permet de faire apparaître les mots en contexte ?
  • Quelle fonction me permet de rechercher des synonymes ?

b. Corpus

  • Combien de corpus en anglais sont accessibles ?
  • Parmi les corpus en anglais, lequel comporte le nombre le plus élevé de mots ?
  • Quel corpus est représentatif de la variété britannique, écrite et orale, dans les années 1980 et 1990 ?
  • Je souhaite conduire une recherche sur les registres informels en langue française contemporaine, quel corpus me conseillez-vous ?

c. Manipuler Word Sketch : comparer deux corpus

Dans le BNC,

  • Combien identifiez-vous d’occurrences du terme multilateralism ?
  • Quels sont les verbes ayant multilateralism comme sujet ?
  • Quelles sont les occurrences de ces combinaisons en contexte ?
  • Quels sont les verbes ayant multilateralism comme objet ?
  • Quelles sont les occurrences de ces combinaisons en contexte ?
  • De quelle source provient l’ensemble de ces occurrences ?

Dans le corpus English Web 2020,

  • Combien identifiez-vous d’occurrences du terme multilateralism ?
  • Quels attributs du sujet sont proposés ?
  • Quels sont les noms modifiés avec multilateralism ?
  • Quels sont les verbes ayant multilateralism comme objet ?

d. Focus : The EcoLexicon English Corpus (EEC)

  • Je dois rédiger une brochure pour une ONG qui souhaite faire connaître l’intérêt de l’énergie éolienne. Créez un sous-corpus adapté.

S’initier à l’étiquetage morpho-syntaxique (regardez la vidéo) :

puis lisez cette page sur l’étiquetage morpho-syntaxique (part-of speech tagging / POS tagging) et faites le petit exercice suivant:

Find the words corresponding to the following definitions:

A type of annotation or tagging whereby grammatical categories are assigned to words, usually via an automatic tagger:

The canonical form of a word:

A single linguistic unit, most often a word:

A more informal term for the act of applying additional levels of annotation to corpus data:

A collection of tags (or codes) that occur in an encoding or tagging scheme used to annotate corpora in order to facilitate a more sophisticated analysis (give an example):

A collection of texts (often a smaller, representative sample taken from a larger corpus) that has been annotated and can be used to ‘train’ an automatic tagger or parser to apply that same annotation to other texts:

  • CQL Builder : affichez les occurrences de wind turbine(s) avec Concordance.

Regardez la vidéo de présentation :

  • CQL Builder : affichez les occurrences de wind turbine(s) avec CQL Builder puis les mots pré-modifiant wind farm(s), les adjectifs pré-modifiant wind farms(s), et les verbes pré-modifiant climate change.

e. Focus: The Medical Web Corpus

Vous devez vérifier les conclusions auxquelles arrivent les deux auteurs de l’article 4 (Ngan Nguyen Le & Miller 2020) : confirmer la fréquence (retrouvez exactement les mêmes chiffres) des 4 morphèmes suivants : physi-, physio-/peri-/neur-, neuri-, neuro-/norm-, normo par deux moyens différents.

Puis, trouvez les 3 mots les plus fréquents contenant le préfixe norm- et les 3 adjectifs les plus fréquents contenant le préfixe physi-,physio– (utilisez Concordance et Wordlist).

Article 3. León-Araúz, Pilar, Antonio San Martin & Arianne Reimerink. (2018). The EcoLexicon English Corpus as an Open Corpus in SketchEngine. Proceedings of the XVIII EURALEX International Congress.

Article 4. Ngan Nguyen Le, Chinh & Julia Miller. (2020). A corpus-based list of commonly used English medical morphemes for students learning English for Specific Purposes. English for Specific Purposes 58, 102-121.

3. Utilisation d’un corpus multilingue aligné pour la traduction

Accédez au corpus Europarl par le site du projet OPUS : http://opus.lingfil.uu.se/

Pour vous aider, vous pouvez utiliser ce tableau pour l’étiquetage morpho-syntaxique.

  • Dans la section Search and Browse, cliquez sur le corpus Europarl v7 (search interface),
  • Dans la section languages, cliquez sur en (English) pour choisir la langue source,
  • Dans la section alignments, vérifiez que la langue cible est bien le français (fr)

Je dois traduire le document suivant : “European Parliament calls on ECB to prioritise climate response”. Je commence par identifier le genre de document et la source. En commençant à préparer le travail de traduction, il apparaît que la phrase suivante pose problème :

“A large majority of MEPs from across the political spectrum voted in favour of the resolution, recommending that the ECB examine ways in which it can help move the economy away from carbon and mitigate the climate crisis”.

Nous rencontrons un problème pour trouver une traduction appropriée dans ce contexte de mitigate.

  • Quelles sont les deux façons les plus simples de faire une requête sur le mot ? Combien de réponses obtient-on ?
  • Je veux faire apparaître plus de propositions, quelle requête puis-je formuler pour me permettre de faire apparaître les autres formes (mitigate / mitigating / mitigated) ?

Je pense que la traduction qui convient le mieux est atténuer. Je veux afficher les propositions de correspondances mitigate/atténuer.

Retournez sur la page d’accueil et dans la section Search & Browse, cliquez sur OPUS Multilingual Search interface. Choisir le module de recherche avancée, et faire apparaître les occurrences mitigate / atténuer.

  • Trouvez sept traductions françaises du verbe mitigate (autres que celle mentionnée ci-dessus) qui sont utilisées au moins trois fois dans le corpus.
  • Trouvez au moins trois expressions dans lesquelles l’adverbe environmentally est suivi d’un adjectif pour former un trigramme dont la traduction française contient l’adjectif durable.

4. Traduire avec DeepL et le deep learning

Article 5. “What counts as artificially intelligent? AI and deep learning, explained”. The Verge, février 2016.

Article 6. “DeepL schools other online translators with clever machine learning”. TechCrunch, août 2017.

5. Créer et manipuler ses propres corpus avec IRaMuTeQ

Il faut installer le logiciel (mis à jour régulièrement) qui, pour fonctionner correctement, a besoin de plusieurs installations préalables :

  • installer xquartz, puis redémarrer votre ordinateur,
  • installer R à partir d’un site miroir (“CRAN mirror”).

Tout est ici : Iramuteq/telechargement

Ensuite, il faut préparer votre corpus (= formater les textes). En fait, il s’agit de la première version de votre corpus, que vous allez retravailler au fur et à mesure.

Tout est ici : Iramuteq/formatage-des-corpus-texte

Pour aller plus loin

Toutes les réponses à vos questions se trouvent sans doute sur le site : http://www.iramuteq.org/

IRaMuTeQ est utilisé pour la recherche en sciences humaines et sociales, par exemple, ici, il est décrit dans la boîte à outils des historiens.

Article 7. Entretien avec Laurence Harris, “Du corpus à l’analyse du discours” (2019).

Article 8. Bouchard, Marc-André, Lacy Berasngar & Sylvia Kasparian. (2020). Dénomination des Autochtones dans la presse francophone et anglophone du Nouveau-Brunswick (Canada) : Étude logométrique avec IRaMuTeq. Actes” JADT. Analyse statistique des données textuelles”.