Partagez l'article

langue

Toutes les ressources du néerlandais réunies à l’Instituut voor de Nederlandse Taal

Par Mathilde Jansen, traduit par Pierre Lambert
4 octobre 2024 11 min. temps de lecture

Fondé voici plus d’un demi-siècle, l’Instituut voor de Nederlandse Taal (Institut de la langue néerlandaise) est surtout renommé pour ses nombreux dictionnaires. Mais cet établissement de recherche basé à Leyde joue également un rôle de premier plan dans la numérisation des ressources linguistiques, et ce depuis des décennies. Gros plan sur sa mission à la fois simple et complexe: mettre l’ensemble des ressources du néerlandais à la portée de tous.

L’Instituut voor de Nederlandse Taal (en abrégé INT) occupe un imposant édifice sis au numéro 61 du Rapenburg, le canal le plus célèbre de Leyde. C’est Frieda Steurs, nommée directrice en 2016, qui me souhaite la bienvenue. Beaucoup de choses ont changé depuis son arrivée, à commencer par le nom de l’institut, qui s’appelait initialement Instituut voor Nederlandse Lexicologie (Institut de lexicologie néerlandaise, INL). Ce fait à lui seul en dit long sur le changement de cap qui s’est opéré ces dernières années: alors que les mots étaient autrefois au centre des préoccupations, le domaine de recherche s’est désormais élargi à tous les aspects de la langue néerlandaise.

Un pionnier: Matthias de Vries

Tout a commencé avec Matthias de Vries, explique Frieda Steurs. Professeur de néerlandais et d’histoire à l’université de Leyde, de Vries (1820-1892) a été chargé en 1851, lors d’un congrès rassemblant des linguistes et littéraires néerlandais et flamands, de composer un dictionnaire pour la langue néerlandaise. C’est dans son salon, au 68 du Rapenburg, qu’il a entrepris la rédaction du Woordenboek der Nederlandse taal (WNT, Dictionnaire de la langue néerlandaise), dont le dernier tome était publié par l’INT en 1998. Passant pour le plus grand dictionnaire au monde, ce dictionnaire historique décrit la signification et l’évolution de centaines de milliers de mots du néerlandais écrit de 1500 à 1976. Il s’agit en outre d’un dictionnaire philologique richement documenté, incluant de nombreux exemples et citations.

Frieda Steurs me montre les quarante-trois volumes qui occupent plusieurs mètres de sa bibliothèque. «C’était une entreprise gigantesque. D’autant plus que De Vries a d’abord dû fixer l’orthographe, aucune règle n’existant jusque-là dans ce domaine. Il a donc établi une norme orthographique, avec l’aide de son confrère Te Winkel.» Dans une vitrine trône la toute première plaquette de 1852, intitulée Ontwerp van een Nederlandsch Woordenboek (Ébauche d’un dictionnaire de néerlandais).

La publication a commencé en 1864, sous forme de fascicules contenant un nombre réduit de mots. «Chaque livraison était vendue au prix de 87 cents. Plus tard, on les a regroupées en volumes. Lorsque le dernier tome a été achevé en 1998, on a célébré l’événement dans l’ancienne église Pieterskerk de Leyde, en présence de la reine Beatrix et du roi Albert II. Une fois le WNT terminé, l’institut s’est attelé à l’Algemeen Nederlands Woordenboek (ANW, dictionnaire général du néerlandais), qui décrit le néerlandais contemporain des Pays-Bas et de Flandre. Trois suppléments au WNT ont en outre été édités en 2001.»

De Vries a d’abord dû fixer l’orthographe, aucune règle n’existant jusque-là dans ce domaine

L’Instituut voor Nederlandse Lexicologie a vu le jour en 1967 grâce aux efforts accomplis par les rédacteurs du WNT dans les années 1950. En 1982, il s’est fixé au Matthias de Vrieshof, juste derrière la bibliothèque universitaire. D’importants travaux de rénovation à l’université de Leyde l’on contraint à s’installer temporairement au Rapenburg. Les dictionnaires papier y occupent une place honorable, mais la grande différence par rapport aux premiers temps est que tous ces dictionnaires sont aujourd’hui consultables en ligne.

En effet, l’institut s’est lancé très tôt dans la numérisation, comme l’explique Frieda Steurs: «Nous avons commencé dès les années 1980. Grâce à cette solide expérience, l’INL est devenu en 2006, sous l’ancien directeur Piet van Sterkenburg, le premier centre pilote néerlandais de CLARIN, une plateforme qui ambitionne d’uniformiser toutes les données linguistiques d’Europe et de les rendre accessibles à la recherche scientifique.»

Ce succès a toutefois été suivi d’une longue période de turbulences, après le départ à la retraite de Piet van Sterkenburg en 2007. Son successeur a été remercié au bout de quelques années et une vaste restructuration a été engagée. Les statuts ont finalement été modifiés en 2015 pour redéfinir la mission de l’institut, qui lui-même a été rebaptisé Instituut voor de Nederlandse Taal un an plus tard.

Au service de la Taalunie

Les nouvelles attributions découlent du traité conclu en 1980 entre les Pays-Bas et la Flandre en vue de créer la Nederlandse Taalunie (Union linguistique néerlandaise), poursuit Frieda Steurs: «Ce traité avait pour but de promouvoir la langue néerlandaise et de rendre l’ensemble des ressources linguistiques accessibles à tous. Il s’agissait de fixer l’orthographe officielle, telle qu’on la trouve aujourd’hui dans Het Groene Boekje (le petit livre vert), mais aussi le lexique à reprendre dans les dictionnaires, la grammaire à enseigner dans les écoles, le jargon des différentes professions et les variétés linguistiques. Toutes ces tâches nous ont été confiées.»

Le financement structurel de l’INT est assuré par la Taalunie, elle-même financée par le ministère de l’Éducation, de la Culture et des Sciences aux Pays-Bas et par les ministères de la Culture et de l’Éducation en Flandre. Si l’Union linguistique n’a fixé aucune règle concernant le nombre de Flamands à employer au sein de l’institut, le hasard veut qu’un tiers des collaborateurs soient actuellement flamands, signale la directrice. Elle-même est née à Anvers et a longtemps enseigné la terminologie et les technologies du langage à la KU Leuven. En revanche, la Taalunie exige que les travaux descriptifs de l’INT couvrent l’ensemble de l’aire néerlandophone: les Pays-Bas et leurs territoires d’outre-mer, la Flandre et le Suriname.

La besogne abattue par Frieda Steurs et son équipe de trente-cinq chercheurs à peine est impressionnante. Pour pouvoir mener à bien toutes ses tâches, l’INT mise depuis le début sur l’automatisation.

Un «numéro de registre national» pour chaque mot

La personne la mieux placée pour nous en dire plus à ce sujet est Katrien Depuydt. Cela fait trente-neuf ans qu’elle travaille à l’institut, où elle est responsable de la constitution des corpus (grandes collections de textes) et des lexiques (listes de termes avec leurs caractéristiques). Après avoir collaboré quelque temps à la rédaction du WNT, elle a bien vite bifurqué vers le développement d’outils numériques, à commencer par une station de travail pour le Vroegmiddelnederlands Woordenboek (Dictionnaire du néerlandais du XIIIe siècle).

Elle commente: «Cet institut ne possède pas de département distinct en sciences humaines numériques, car nous avons toujours été pluridisciplinaires, et c’est très bien ainsi. Depuis le départ, je peux compter sur des programmeurs et développeurs pour concevoir les outils et les fonctionnalités nécessaires à nos recherches. C’est un sacré défi, et l’on peut en dire autant de notre objectif actuel: constituer une base de connaissances unique, réunissant tous les éléments descriptifs du néerlandais. »

Katrien Depuydt explique que la description des mots gagne sans cesse en uniformité dans toutes les ressources accessibles via le site web de l’INT, ce qui facilite les interconnexions. À terme, il n’existera plus qu’une seule base de données centrale dont dépendront toutes les autres. «Au fond, il s’agit de créer une sorte de numéro de registre national pour chaque mot néerlandais», note-t-elle. Autrement dit, on pourra bientôt effectuer une recherche simultanée dans toutes les ressources du néerlandais et trouver un mot avec toutes ses variantes orthographiques à travers le temps.

on pourra bientôt effectuer une recherche simultanée dans toutes les ressources du néerlandais et trouver un mot avec toutes ses variantes orthographiques à travers le temps

Si les données peuvent être stockées et interconnectées de manière uniforme, c’est parce que l’INT les rassemble toutes en son sein, une situation plutôt exceptionnelle selon la chercheuse: dans des pays comme l’Allemagne ou l’Angleterre, les ressources linguistiques sont beaucoup plus fragmentées entre différentes institutions.

Enrichissement automatique

Aux dires de Katrien Depuydt, les utilisateurs peuvent d’ores et déjà remarquer l’interconnexion toujours plus grande entre les descriptions de mots: «L’Algemeen Nederlands Woordenboek et Woordenlijst.org procurent les mêmes informations, car le contenu de ce dernier site provient aussi de notre base de données centrale. Toutes les ressources, qu’il s’agisse de l’ANW ou des dictionnaires historiques, dépendent de celle-ci.»

Woordenlijst.org, la version en ligne de Het Groene Boekje, est également gérée par l’INT depuis janvier dernier. Auparavant, l’INT ne fournissait que les données pour Het Groene Boekje; désormais, il est également responsable de la version en ligne, du moteur de recherche et de la structuration des données. Toutes les descriptions de mots consultables dans ce glossaire et dans les dictionnaires se basent en fin de compte sur de grands corpus de textes tels que le Corpus Hedendaags Nederlands (Corpus du néerlandais contemporain). Celui-ci rassemble aujourd’hui plus de neuf millions de textes provenant de quotidiens, magazines, journaux télévisés, blogs et livres des Pays-Bas, des territoires d’outre-mer, de Belgique et du Suriname.

Katrien Depuydt souligne que la gestion des données issues de ces vastes corpus est de plus en plus automatisée. Les termes provenant des journaux sont déjà automatiquement «étiquetés» ou «annotés», c’est-à-dire pourvus de diverses métadonnées et autres informations linguistiques, telles que la catégorie grammaticale et le lemme. Ils sont ensuite indexés pour permettre des recherches en ligne. «Le travail manuel a été supprimé. Nous souhaitons encore aller plus loin dans l’automatisation afin d’offrir des informations non seulement sur la catégorie grammaticale, par exemple, mais aussi sur les syntagmes.»

Les annotateurs automatiques ont été entraînés à partir de textes annotés à la main. Ces textes étiquetés automatiquement sont ensuite révisés par des humains, car ils ne sont pas encore corrects à 100%. Roland de Bonth est l’un des chercheurs qui s’y attellent. «Bien que les annotateurs s’améliorent constamment, des erreurs continuent à se produire, par exemple lorsque la syntaxe ou l’orthographe s’écarte fortement du néerlandais moderne. Nous sommes en train de générer du matériel d’entraînement pour la période allant du XIVe au XIXe siècle. Nous nous basons pour ce faire sur nos corpus historiques, tels que Brieven als Buit (“lettres interceptées”, voir plus loin), Corpus laat Middelnederlands en vroeg Nieuwnederlands (Corpus du néerlandais moyen tardif et des débuts du nouveau néerlandais), le Couranten Corpus et le WNT.»

«Lettres interceptées»

Roland de Bonth signale que cet enrichissement linguistique accroît les possibilités de recherche dans les textes. Ainsi, on peut effectuer une recherche en fonction de plusieurs variantes orthographiques ou pour une catégorie grammaticale particulière. Et cela n’est pas seulement intéressant pour les chercheurs en linguistique, car de Bonth répond aussi aux questions des utilisateurs finaux des dictionnaires historiques. C’est l’occasion pour lui d’entrer en contact avec des personnes de tous horizons: enseignants, archivistes, interprètes et traducteurs. Même les cinéastes qui souhaitent écrire des dialogues en s’inspirant de documents du XVIIIe siècle, par exemple, consultent ces dictionnaires. De Bonth aide toutes ces personnes à s’orienter dans les ressources. Il élabore en outre du matériel didactique pour les enseignants, leur faisant des suggestions sur la manière d’exploiter les bases de données en classe.

Lui-même utilise régulièrement les bases de données disponibles à des fins de recherche. Ainsi, à l’occasion du centenaire de la mort de Louis Couperus, il a composé un «dictionnaire de circonstance» avec les mots qui apparaissent dans les œuvres du célèbre écrivain néerlandais. Il a procédé de même pour W. F. Hermans et Stijn Streuvels. Et pendant l’année Rembrandt 2019, il a rédigé avec un collègue un fascicule sur les termes picturaux utilisés à l’époque du grand maître hollandais.

En ce qui concerne les corpus, il est particulièrement enthousiaste à propos de Brieven als Buit, une collection unique de lettres issues de toutes les couches de la société néerlandaise des XVIIe et XVIIIe siècles. Ce corpus est par ailleurs très facile à consulter, car chaque mot a été étiqueté individuellement et contrôlé manuellement. Roland de Bonth commente: «Il s’agit de lettres envoyées par des personnes vivant dans les Provinces-Unis à des proches ou des connaissances résidant à l’étranger et vice versa. Elles étaient transportées par bateau. Au cours des guerres entre les Provinces-Unies et l’Angleterre, des navires ont été capturés par des corsaires anglais, et les lettres ont été remises aux autorités anglaises en tant que pièces à conviction. Conservées ensuite aux National Archives, elles n’ont été redécouvertes que dans les années 1980. Nous en avons numérisé une partie.»

La quantité de matériel numérisé jusqu’ici ne représente en effet qu’une fraction de toutes les lettres versées aux archives anglaises: pas moins de 40 000 au total. La numérisation de ces documents est chronophage et coûte cher, explique Roland de Bonth: «La numérisation en soi ne pose pas de réel problème, mais encore faut-il s’assurer que ces textes soient lisibles et interrogeables. L’idéal serait que tout cela puisse se faire de façon automatique. À l’aide d’un programme comme Transkribus, par exemple, on peut déjà convertir automatiquement des manuscrits anciens. Mais comme il y a toujours une marge d’erreur dans ces modèles informatiques, on a encore besoin de personnes pour vérifier les transcriptions. Or, nous devons faire appel à des bénévoles pour effectuer ce travail. Je lance donc un appel à tous les intéressés!»

La professeure émérite Nicoline van der Sijs a également apporté une contribution majeure à la numérisation du néerlandais au sein de l’INT. Si elle a officiellement pris sa retraite en janvier 2024, elle reste toutefois attachée à l’institut en tant que chercheuse invitée. À l’occasion de ses adieux, elle a rédigé un ouvrage de vulgarisation scientifique intitulé Daar is geen woord Frans bij. Het beeld van vreemde talen in Nederlandse uitdrukkingen. (Daar is geen woord Frans bij (1). L’image des langues étrangères dans les expressions néerlandaises).

L’institut fait montre de polyvalence et d’un fort ancrage dans son temps. Pour preuve, la série de podcasts Over taal gesproken (Parlons de la langue), produite par l’INT en collaboration avec la revue Onze Taal. Y sont présentées les recherches linguistiques menées à l’INT, et dans d’autres établissements. L’un des derniers épisodes est consacré à une nouvelle forme de dialecte en vogue parmi les jeunes du Brabant-Septentrional.

Note 1:
Daar is geen woord Frans bij signifie littéralement: «il n’y a pas un mot de français là-dedans». Cette expression peut être traduite par «voilà qui est dit sans détour, qui est clair et net».

Mathilde Jansen

linguiste et journaliste scientifique

photo  © Meulenhoff

Laisser un commentaire

Lisez aussi

		WP_Hook Object
(
    [callbacks] => Array
        (
            [10] => Array
                (
                    [00000000000025ab0000000000000000ywgc_custom_cart_product_image] => Array
                        (
                            [function] => Array
                                (
                                    [0] => YITH_YWGC_Cart_Checkout_Premium Object
                                        (
                                        )

                                    [1] => ywgc_custom_cart_product_image
                                )

                            [accepted_args] => 2
                        )

                    [spq_custom_data_cart_thumbnail] => Array
                        (
                            [function] => spq_custom_data_cart_thumbnail
                            [accepted_args] => 4
                        )

                )

        )

    [priorities:protected] => Array
        (
            [0] => 10
        )

    [iterations:WP_Hook:private] => Array
        (
        )

    [current_priority:WP_Hook:private] => Array
        (
        )

    [nesting_level:WP_Hook:private] => 0
    [doing_action:WP_Hook:private] => 
)