Revue Romane, Bind 29 (1994) 1Eveline Martin : Reconnaissance de contextes thématiques dans un corpus textuel Éléments de lexico-sémantique. Collection 'Etudes de sémantique lexicale'. Didier Erudition, Paris, 1993. 283 p.Henning Nølke Side 132
Avec le développement explosif de bases de textes auquel on a assisté ces dernières années, l'élaboration de logiciels pour leur exploration intelligente devient urgente. En effet, si l'on désire faire de cette masse de textes informatisés un outil intéressant pour les recherches, il faut développer des méthodes de dépouillement automatique qui dépassent la simple reconnaissance des formes. Le travail effectué par Éveline Martin constitue un progrès considérable dans cette direction. Ingénieur de recherchesà l'lNaLf, elle a accès à la BASE du TLF (le Trésor de la Langue Française), qui est la plus grande base textuelle de ce genre qui existe actuellement, ce qui lui a permis de vérifier constamment ses idées et l'efficacité de son système. Dans son Side 133
ouvrage, qui est une version abrégée de sa thèse, elle expose d'abord les problèmes théoriques et pratiques qu'implique la création d'un système de reconnaissance structuréeet automatique de contextes thématiques, puis elle présente un exemple d'utilisationpour finir par une discussion du potentiel de la Base. Quelques principes fondamentaux doivent sous-tendre l'élaboration du système en question : il doit être assez souple et dynamique pour permettre une mise à jour permanente, il doit être facile à appliquer pour l'utilisateur et l'expert doit toujours intervenir pour garantir et contrôler le perfectionnement des structures lexico-sémantiques qui constituent le cœur de la Base. Tout d'abord, il faut concevoir cette structure. Inspirée par les recherches cognitives ainsi que par les systèmes d'experts, l'auteur opte pour un modèle qui «sera constitué de champs lexicaux, ou champs thématiques, désignés chacun par un intitulé ou mot-pôle, et consitué par une collection structurée de corrélats» (p. 25). Le champ sémantique est organisé comme un graphe où le mot-pôle et ses corrélats constituent les nœuds qui sont joints par des arcs symbolisants divers types de relations logico-sémantiques. Le problème est dès lors de choisir pour chaque mot-pôle ses corrélats et de déterminer la nature des relations reliant ceux-ci à celui-là. C'est l'expert qui est chargé de ce travail, pour lequel il aura recours à deux sortes de sources : les données secondaires constituées par les divers dictionnaires (y compris les dictionnaires thématiques - il est, en fait, intéressant de voir comment des travaux philologiques conçus pour tout autre chose seront remis en honneur pour ce travail en informatique) et les données primaires qui résultent de l'exploitation des textes eux-mêmes. Éveline Martin aborde de nombreux problèmes associés à chacune de ces deux méthodes : dans quelle mesure les dictionnaires fontils autorité? faut-il inclure les antonymes? que faire des métaphores? combien de niveaux inclure dans les structures? comment choisir les corrélats? est-il possible d'appliquer des critères qui ne soient pas purement quantitatifs? etc. On peut ressentir parfois une certaine hésitation devant ces questions. D'une part, l'auteur fait valoir que «inclure dans la Base l'antonymie au même titre que l'équivalence surchargerait inutilement le Système» (p. 59), et d'autre part, elle reconnaît l'importance que peuvent avoir les antonymes pour l'étude d'un champ thématique donné. D'une manière générale, il est évident qu'il reste un certain nombre de problèmes à résoudre, notamment en ce qui concerne la précision de la nature des relations qui relient les corrélats au mot-pôle. Eauteur en discute longuement et se décide pour un inventaire incluant les relations d'équivalence, de synecdoque et de métonymie, notions qui subsument les types de relations que l'on «rencontre le plus souvent en logique, dans la grammaire des cas et plus généralement lors de l'élaboration des langues formalisées» (p. 44). Dans le système, ces relateurs de concepts seront spécifiés davantage, ce qui permet à l'utilisateur d'accomplir des explorations plus subtiles. Etant donné que la Base du TLF comprend surtout des textes littéraires, le systèmedéveloppé par Éveline Martin se prête d'abord aux études d'aspect littéraire : en effet, pour une étude d'une certaine thématique chez un certain auteur ou pendant une certaine période, la Base sera un outil très adapté ; l'analyse exemplaire que propose l'auteur du champ de Yennui (qui n'est certainement pas ennuyeux tel qu'il est présenté ici) le montre bien. Or l'auteur mentionne bien d'autres emplois potentielsde la Base. Ainsi elle esquisse la manière dont on peut faire une critique métalexicographiquedu dictionnaire le Grand Robert, elle indique comment est facilitée l'étude des collocations si importante pour l'apprentissage du français langue étrangère,et Side 134
gère,etelle effleure les applications imaginables à la traduction automatique, où la Base pourrait fonctionner comme une instance de «désambiguïsation». A cela s'ajoutentdes exploitations évidentes de la Base en lexicographie informatisée, pour le traitement semi-automatique de l'information et peut-être même, à plus long terme, pour la génération automatique de textes en langue naturelle. Les utilisations virtuellessemblent, en fait, être légion. Ce livre soulève beaucoup de questions qui incitent à la réflexion. Grâce à un style sobre et à un bel équilibre dans la présentation entre théorie et pratique, il constitue une excellente introduction à cette nouvelle branche de la linguistique computationnelle qui est à cheval sur la lexicographie, l'informatique, l'intelligence artificielle et, même, les études littéraires. Parfois, on peut regretter que la prudence de l'auteur laisse certaines questions un peu dans l'ombre. Ainsi, j'aurais aimé une discussion plus approfondie du problème de la représentativité du corpus, question extrêmement difficile et pourtant cruciale pour l'évaluation de l'utilité de la Base. En effet, quelles sont les conséquences, par exemple, de l'intégration prévue d'une plus grande quantité de textes non littéraires? De même, de quelle sorte seraient les dispositifs de contrôle qui permettraient à la Base de s'auto-enrichir (p. 190)? Mais on comprend : le traitement intelligent automatique d'un corpus textuel est un sujet en pointe et en rapide évolution ; seul l'avenir pourra nous montrer quelle direction il est susceptible de prendre. Si l'on désire prendre le train en marche, le livre d'Éveline Martin constitue une excellente introduction sans prétention, mais qui arrive néanmoins à indiquer de multiples utilisations virtuelles et de nombreuses pistes de recherche. Si l'on peut conclure, me semble-t-il, que cette œuvre soulève plus de questions qu'elle n'en résout, il faut souligner que c'est là un aspect très positif du travail. En effet, la science n'avance qu'en se posant sans cesse de nouvelles questions. Ecole des Hautes
Etudes Commerciales de Ârhus
|