of 21

Apport du Web dans la reconnaissance des entités nommées

0 views
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Share
Description
Document généré le 1 août 219 1:6 Revue québécoise de linguistique Apport du Web dans la reconnaissance des entités nommées Nordine Fourour et Emmanuel Morin TALN, Web et corpus Volume 2, numéro 1, 2 URI
Transcript
Document généré le 1 août 219 1:6 Revue québécoise de linguistique Apport du Web dans la reconnaissance des entités nommées Nordine Fourour et Emmanuel Morin TALN, Web et corpus Volume 2, numéro 1, 2 URI : DOI : Aller au sommaire du numéro Résumé de l'article Cet article présente une étude sur l apport que peut fournir le Web dans la reconnaissance des entités nommées pour le français. Cette étude a engendré l implémentation d un nouveau module de notre système de reconnaissance des entités nommées (Némésis). Ce module nous a permis d évaluer l apport de l utilisation du Web dans cette tâche et de dégager un certain nombre d heuristiques pour ce module. Les performances atteintes par Némésis, sur l ensemble des entités nommées, étaient de 79 % pour le rappel et 91 % pour la précision. Le gain en rappel s élève à plus de 5 %, tandis que la perte en précision reste faible (environ 2 %). Éditeur(s) Université du Québec à Montréal ISSN (imprimé) (numérique) Découvrir la revue Citer cet article Fourour, N. & Morin, E. (2). Apport du Web dans la reconnaissance des entités nommées. Revue québécoise de linguistique, 2 (1), Tous droits réservés Revue québécoise de linguistique, 2 Ce document est protégé par la loi sur le droit d auteur. L utilisation des services d Érudit (y compris la reproduction) est assujettie à sa politique d utilisation que vous pouvez consulter en ligne. Cet article est diffusé et préservé par Érudit. Érudit est un consortium interuniversitaire sans but lucratif composé de l Université de Montréal, l Université Laval et l Université du Québec à Montréal. Il a pour mission la promotion et la valorisation de la recherche. Revue québécoise de linguistique, vol. 2, n o 1, 2, RQL (UQAM), Montréal Reproduction interdite sans autorisation de l éditeur APPORT DU WEB DANS LA RECONNAISSANCE DES ENTITÉS NOMMÉES Nordine Fourour Emmanuel Morin Université de Nantes 1. Introduction La reconnaissance des entités nommées pour le français est un problème qui se pose dans les différents domaines du traitement automatique de la langue naturelle (TALN) :veille technologique, indexation de textes ou traduction (Daille et Morin 2). Cette reconnaissance a été convenablement réalisée en extraction d information (EI) pour des textes journalistiques anglais (précision et rappel supérieurs à 9 %) (MUC ). Le terme entité nommée (EN) regroupe les noms propres communément reconnus comme tels (la classe ENAMEX des conférences MUC), ainsi qu un certain nombre d entités qui ne sont pas toujours considérées comme noms propres : les noms collectifs (les Français, les néandertaliens, etc.), les maladies ou encore les noms de personnages mythiques ou fictifs (Hercule, Colombo, etc.). En EI, les entités nommées sont généralement séparées en quatre classes : personnes, lieux, organisations et expressions temporelles. Bien que cette catégorisation regroupe une grande partie des entités nommées présentes dans les textes journalistiques, elle est limitée et inadaptée à la traduction, car elle reste insuffisamment exhaustive et peu fine. C est pour cela que nous proposons une typologie générale la plus complète possible. Cette typologie, indépendante du domaine, est vérifiée expérimentalement par une étude de corpus. Pour le français, comme pour l anglais (Wacholder et coll. 1997), cette reconnaissance se heurte aux problèmes d ambiguïté liés aux majuscules en début de phrase (Mikheev 1999) et à la localisation des limites à droite du nom propre : modification adjectivale et attachement des prépositions et des coordinations, possibilité que certaines entités nommées soient composées en quasi 42 RECONNAISSANCE DES ENTITÉS NOMMÉES totalité de mots en minuscules. Pour aider à cette délimitation, nous proposons des critères graphiques qui sont également validés sur corpus. En plus de cette ambiguïté se posent les problèmes de surcomposition : une EN complexe peut contenir une EN d une autre catégorie référentielle (p. ex. Guerre d Algérie, Université de Nantes). La reconnaissance des entités nommées est donc une tâche complexe, qui nécessite le recours à de nombreuses ressources lexicales (liste de prénoms, d entreprises, de régions, de fleuves, de groupes de musique, etc.). Les lexiques que nous exploitons sont le plus souvent incomplets. En effet, il est difficile de créer des lexiques exhaustifs : recenser l ensemble des cours d eau de la planète serait une tâche presque impossible. D autre part, la maintenance de ces lexiques est une activité très lourde, comme pour les noms d entreprises, par exemple. Face à ces différentes difficultés, nous étudions de quelles façons le Web peut être exploité comme source de connaissance pour le TALN, à l instar des travaux de Grefenstette 1999 pour la traduction à bases d exemples ou de Jacquemin et Bush 2 pour la collecte d entités nommées. À la différence de Jacquemin et Bush 2, nous ne cherchons pas à collecter des identités nommées à partir du Web, mais uniquement à catégoriser des entités nommées déjà identifiées par notre système. En ce sens, nous considérons le Web comme une source de connaissance externe apte à proposer différents exemples linguistiques de l usage d une identité nommée. Après la présentation des catégorisations graphique et référentielle proposées (section 2), nous décrivons le système permettant l identification et la catégorisation des entités nommées (section ). Puis, nous évaluons les performances de ce système (section 4) et pointons les limites de ce dernier (section 5). Ensuite, nous proposons un couplage de notre système avec un module de reconnaissance à partir du Web (section 6), ainsi qu une évaluation de l impact de ce dernier dans Némésis (section 7). Enfin, nous présentons nos conclusions et les perspectives qu ouvre notre travail (section 8). 2. Catégorisations Nous présentons successivement les résultats d une étude portant sur la distribution des différentes catégories référentielles des entités nommées, puis ceux de l étude graphique. Les résultats quantitatifs que nous présentons ont été obtenus manuellement. Toutes les entités nommées ont été identifiées, catégorisées et comptées. Ces études ont été réalisées sur un corpus regroupant des échantillons de deux périodiques dont les textes sont disponibles sous format NORDINE FOUROUR ET EMMANUEL MORIN 4 électronique : La Recherche 1 (17 67 mots) et Le Monde 2 (2 866 mots). Nous concluons cette étude par quelques remarques sur les liens mis au jour entre catégories graphiques et référentielles. 2.1 Catégorisation référentielle Notre objectif est d établir une catégorisation référentielle fine et stable pour les entités nommées : les nouvelles EN rencontrées dans les textes devront y trouver place. Cependant, cette typologie pourra être évolutive : ajout d un niveau de profondeur supplémentaire pour raffiner des catégories qui s avèreraient trop vastes. Dans le cadre de la traduction automatique ou humaine assistée par ordinateur, une catégorisation précise du nom propre est utile pour décider de son traitement. Selon sa catégorie référentielle, il devra être traduit, transposé ou non traduit. Parmi les catégorisations des entités nommées, la plus couramment répandue est celle utilisée pour les conférences MUC. Les informations à identifier au cours de ces conférences sont divisées en trois catégories : 1 ENAMEX : noms propres référant à des noms de personnes, lieux ou organisations; 2 TIMEX : expressions temporelles divisées en dates et heures; NUMEX : expressions numériques (pourcentages ou des valeurs monétaires). Les entités prises en compte par les systèmes de reconnaissance développés dans le cadre des conférences MUC ne considèrent pas toute la palette des entités intéressantes en TALN : les noms de médias, d évènements, de documents, etc. n y sont pas représentés. Paik et coll présentent une autre classification des entités, regroupant entités nommées et entités temporelles, réalisée à partir d une étude du Wall Street Journal qui comporte catégories divisées en 9 classes, dont les 8 premières couvrent 89 % des EN du corpus d étude de Paik et coll : Géographique : villes, ports, aéroports, îles, comtés ou départements, provinces, pays, continents, régions, fleuves, autres noms géographiques; Appartenance : religions, nationalités; Organisation : entreprises, types d entreprises, institutions, organisations; Humain : personnes, fonctions; Document : documents; Équipement : logiciels, matériels, machines; 1 Corpus La Recherche année 1998 distribué par ELRA ( 2 Corpus Le Monde année 1997 European Corpus Initiative (ECI) distribué par ELRA. 44 RECONNAISSANCE DES ENTITÉS NOMMÉES Scientifique : maladies, drogues, médicaments; Temporelle : dates et heures; Divers : autres noms d entités nommées. Quant à eux, Wolinski et coll ont défini une catégorisation comprenant une cinquantaine de thèmes pour permettre le classement automatique des dépêches de l Agence France Presse. Cette catégorisation n est malheureusement pas détaillée dans leur article. La seule classification existante pour la traduction, à notre connaissance, est celle réalisée par Grass 2, inspirée de la typologie du linguiste germanophone Bauer Il énumère ce qui, par convention, constitue un nom propre et prend en considération des éléments extralinguistiques propres au référent. Cette typologie comporte cinq classes : Anthroponymes : noms de personnes individuelles et de groupes; Toponymes : noms de lieux; Ergonymes : objets et produits manufacturés; Praxonymes : faits historiques, maladies, évènements culturels; Phénonymes : ouragans, zones de pressions, astres et comètes. Hormis la classe des entités temporelles, il existe de nombreuses similitudes entre la catégorisation de Paik et coll et celle de Grass 2. Néanmoins, certaines classes de Grass 2, comme les praxonymes ou les phénonymes, n apparaissent pas chez Paik et coll Inversement, toutes les classes présentes dans Paik et coll peuvent s insérer dans les classes de la typologie de Grass 2. De plus, cette dernière a été construite indépendamment d un corpus et apparaît comme l une des catégorisations existantes les plus complètes. Nous avons donc adopté la typologie proposée par Grass 2, comme base pour notre catégorisation. Toutes les entités nommées rencontrées dans nos corpus trouvent place dans les cinq classes, et une majorité s inscrit dans les catégories. Néanmoins, il est nécessaire d étendre certaines catégories et d en créer de nouvelles. La distribution des entités nommées en fonction de leur catégorie dans la typologie ainsi obtenue est présentée au Tableau 1, où les catégories étendues ou créées apparaissent précédées d un astérisque. NORDINE FOUROUR ET EMMANUEL MORIN 45 Tableau 1 Distribution des entités nommées en fonction de leur catégorie référentielle La Recherche Le Monde # Occ. Proportion # Occ. Proportion ANTHROPONYMES , % ,8 % Patronymes Prénoms Ethnonymes * Organisations * Ensembles artistiques Pseudonymes * Zoonymes TOPONYMES 17 28,7 % ,7 % * Toponymes Pays Pays * Pays Toponymes Villes Villes Microtoponymes Hydronymes Oronymes Rues Déserts Édifices ERGONYMES 64 17,2 % 92 6,4 % Entreprises industrielles Marques et produits Établissements d enseignement et de recherche * Oeuvres PRAXONYMES,8 % 16 1,1 % Faits historiques * Évènements culturels, sportifs, politiques * Périodes historiques 15 1 PHÉNONYMES 5 1, % % Catastrophes naturelles Astres et comètes TOTAL 46 RECONNAISSANCE DES ENTITÉS NOMMÉES 2.2 Catégorisation graphique La distinction des entités nommées suivant des critères graphiques est intéressante dans une optique de reconnaissance automatique. En effet, selon la graphie, l identification et la classification des entités nommées entraîneront des traitements différents. Nous distinguons les catégories suivantes, inspirées de la terminologie de Jonasson 1994 : EN pures simples : constituées d une seule unité lexicale commençant par une majuscule, comme France ou Aristote; EN pures complexes : constituées de plusieurs unités lexicales commençant par une majuscule, comme Confl ans Sainte-Honorine. Nous introduisons la sous-catégorie Prénom Nom : entités nommées constituées d un ou plusieurs prénoms et d une unité lexicale commençant par une majuscule référant à un nom de personne, comme Paul Valéry; EN faiblement mixtes : constituées de plusieurs mots commençant par une majuscule et contenant des mots de liaison en minuscules, comme Jardin des Plantes. Cette liste de mots de liaison est fermée et comprend des prépositions, des articles, etc.; EN mixtes : constituées de plusieurs unités lexicales dont au moins une commence par une majuscule, comme Comité international de la Croix-Rouge, Mouvement contre le racisme et pour l amitié entre les peuples; Sigles : entités nommées constituées d une seule unité lexicale comportant plusieurs majuscules qui réfèrent elles-mêmes à une autre unité lexicale, comme USA. Les entités nommées appartenant à cette catégorie, qu il est important de distinguer au niveau graphique, réfèrent à des EN pures complexes et à des EN mixtes (faibles ou non). Tableau 2 Présence d entités nommées en fonction de leurs caractéristiques graphiques EN pures simples EN pures complexes Prénom+Nom EN faiblement mixtes EN mixtes Sigles La Recherche Le Monde Total NORDINE FOUROUR ET EMMANUEL MORIN 47 Le Tableau 2 présente les résultats de l étude quantitative de la présence des entités nommées selon leurs caractéristiques graphiques. Il montre qu il y a plus d entités nommées dans l échantillon du corpus du Monde que dans celui de La Recherche (resp. 1 7 et 18) et ceci toutes catégories graphiques confondues. Les EN pures simples sont les plus présentes dans les deux corpus (46 % des entités nommées pour La Recherche et 1 % pour Le Monde). Les EN pures complexes sont moins présentes que les simples (7,8 % et 8,8 %). Les EN faiblement mixtes sont un peu moins présentes que les EN pures complexes (6,6 % et,5 %). Les EN mixtes sont loin d être négligeables (1,8 % et 14, %). La présence des sigles est moins importante dans l échantillon de La Recherche que dans celui du Monde (4,7 % et 12,6 %). Il est intéressant d établir les liens entre catégories référentielles et graphiques, afin de concevoir les traitements à effectuer (lexiques, règles, etc.) pour chaque classe. Les patronymes et les prénoms forment des EN complexes appartenant à la sous-catégorie Prénom Nom. Les ethnonymes, l ensemble des toponymes, les maladies, les périodes historiques, les catastrophes naturelles, les astres et les comètes sont essentiellement des EN pures simples (Parisien, France, Alpes, Renaissance, le cyclone Hugo). Cependant, les toponymes, par exemple, peuvent être des EN pures complexes ou des EN mixtes (Europe de l ouest, Océan Indien), voire même des sigles (RFA, URSS, USA). Les organisations sont composées de sigles, d EN pures complexes, faiblement mixtes et mixtes (CEE, Communauté économique Européenne, Association of Ceramic Industry). Ces trois dernières catégories regroupent également les ensembles artistiques, les sites de production, les entreprises industrielles, les coopératives, les établissements d enseignement et de recherche, les installations militaires, les œuvres, les faits historiques et les évènements. Ces liens pourront être exprimés sous forme de règles pondérées. Ces deux études ainsi que notre typologie vont servir de base à la mise en place de notre système de reconnaissance des entités nommées.. Architecture logicielle Némésis, élaboré conséquemment à cette étude, est un système qui permet l identification des bornes des EN, ainsi que leur catégorisation selon cette typologie. Son architecture, présentée à la Figure 1, se compose de quatre modules qui effectuent un traitement séquentiel immédiat des données : prétraitement lexical, première reconnaissance des entités nommées, apprentissage et seconde reconnaissance des entités nommées. 48 RECONNAISSANCE DES ENTITÉS NOMMÉES règles heuristiques Prétraitement lexical Reconnaissance des EN (première passe) Apprentissage Reconnaissance des EN (deuxième passe) texte brut texte avec balisage des entités nommées lexiques Fig. 1 : Architecture du système Némésis.1 Prétraitement lexical Le prétraitement lexical s effectue en deux étapes : segmentation du texte en phrases et en mots, puis association des sigles et de leur forme étendue. Cette dernière phase est réalisée uniquement en étudiant les structures locales. Par exemple, lorsqu un sigle apparaît pour la première fois dans un texte, il est souvent accompagné de sa forme étendue (p. ex. la FFF (Fédération française de football)). L association des sigles et de leur forme étendue permet donc d identifier des EN mixtes et de catégoriser des sigles. Parmi les différents dispositifs de reconnaissance des noms propres que nous avons étudiés, seuls Wolinski et coll et Wacholder et coll utilisent l association entre les sigles et leur forme étendue, mais uniquement pour les coréférences en ce qui concerne les derniers..1.1 Projection des lexiques La projection a lieu en trois étapes : 1 passage du texte en fichier inverse (Salton et McGill 198) pour limiter les accès disque; 2 projection : les étiquettes sémantiques liées aux lexiques sont associées aux différentes formes du texte; étiquetage des mots commençant par une majuscule et absents des lexiques par NP. Il a été démontré que l utilisation de lexiques spécialisés était la base de tout système de reconnaissance des noms propres (McDonald 1994, Wakao et NORDINE FOUROUR ET EMMANUEL MORIN 49 coll. 1996). Nos lexiques ont été construits soit manuellement, soit automatiquement, en exploitant des ressources textuelles (pages Web, etc.). Les éléments composant ces lexiques peuvent tenir un ou plusieurs rôles : EN : l élément est une entité nommée connue (OMS, Alexandre, Canal+); mot déclencheur : l élément fait partie de l entité nommée (Fédération, Boulevard); contexte : l élément appartient au contexte gauche immédiat de l EN, mais ne fait pas partie de celle-ci (philosophe, français); fin d'en : l élément est la dernière forme composant l entité nommée (football, régional); élément d EN : il s agit de tous les éléments lexicaux pouvant faire partie de l EN, mais sans en permettre la délimitation ou la catégorisation. Nous pouvons donc assigner des rôles à nos lexiques en fonction des catégories référentielles dans lesquelles ils sont utilisés. Cette assignation peut être visualisée sous deux angles : en prenant comme point central soit une catégorie référentielle (p.ex. la reconnaissance des patronymes utilise les éléments du lexique des noms de pays comme fin d EN ou élément d EN (cf. Figure ), soit un lexique (les éléments du lexique des noms de pays sont utilisés uniquement comme fin d EN pour la reconnaissance des ensembles artistiques (cf. Figure 2). Villes Toponymes Pays Pays Organisations 1,2, 1,2, noms de pays 4 noms de nationalité 1 Patronymes Organisations Ensembles artistiques Patronymes Ethnonymes Fig. 2 : Deux lexiques et leur rôle selon les catégories référentielles Chaque catégorie référentielle utilise un nombre réduit de lexiques (cf. Tableau ). Sur nos 45 lexiques, regroupant éléments, seuls les patronymes et les organisations utilisent plus de 1 lexiques. Ce nombre plus important s explique par la grande variété de mots pouvant composer les EN de ces deux catégories. 5 RECONNAISSANCE DES ENTITÉS NOMMÉES Tableau Nombre de lexiques utilisés pour les anthroponymes et les toponymes ANTHROPONYMES Patronymes 29 Prénoms 1 Ethnonymes Organisations 45 Ensembles artistiques 6 TOPONYMES Toponymes Pays 5 Pays 1 Villes Toponymes Pays 1 Villes 2 Microtoponymes 2 Hydronymes 4 Oronymes Rues 2 Édifices 5 noms de continents adjectifs de nationalité noms de départements nom d États américains noms d hydronymes noms de mers et d océans noms d oronymes noms de nationalité noms de pays noms de provinces canadiennes noms de régions pays noms de régions pays noms de régions françaises noms
Related Search
Advertisements
Related Docs
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks