EITAB

PEPS CNRS-PSL

Extraction d’Informations textuelles pour Alimenter des Bases de données automatiquement, transferts d’information et évolution des thésaurus.

L’objectif est d’extraire des champs de caractères de textes structurés en catalogue afin d’alimenter des tableurs pour nos bases et nos atlas. Les tests portent actuellement sur les CAG (Cartes Archéologiques de la Gaule).

Projet en cours de finalisation


Partenaires institutionnels

AOROC - UMR8546-CNRS/ENS CNRS - Centre National de la Recherche Scientifique ENS - Ecole Normale Supérieure | Paris FRANTIQ - Fédération et ressources sur l’Antiquité LaTTiCe - Laboratoire PSL  - Paris Sciences et Lettres | université de recherche

La coopération entre chercheurs archéologues, linguistes et informaticiens, vise à concevoir et valider un traitement automatisé des corpus, de façon à réduire le temps d’intervention, accroître la fiabilité des résultats et faciliter le partage des données en interdisciplinaire (traitements statistiques, historiques, thématiques,...) : autrement dit, améliorer l’environnement d’étude et de recherche de l’archéologue.

Il s’agit de permettre l’association d’informations extraites automatiquement à des champs composant les tables de la base. L’ontologie sert à établir une correspondance entre l’information extraite et le champ d’une table à remplir pour la description d’un élément reconnu dans le texte ; exemple pour un site de la BaseFer : « fibule » correspond à un type de mobilier (tables a Type Mobilier= parure et Mobilier = fibule). Du point de vue de l’analyse textuelle, les informations sont extraites sous la forme de « termes candidats », c’est-à-dire un mot ou un groupe de mots correspondant à un concept exemples : épée, âge du Fer. La principale difficulté concerne la reconnaissance des différentes variantes d’un terme composé de plusieurs mots.

L’outil d’Extraction de Termes pour l’Archéologie est constitué d’un ensemble de formulaires, qui permettent à l’utilisateur de contrôler toutes les étapes de l’extraction. Il est auto-apprenant, c’est-à-dire qu’il mémorise les choix retenu.

Ainsi, le premier formulaire est séparé en 2 parties :
- la partie gauche permet l’affichage du texte,
- la partie droite est consacrée aux paramétrages de l’outil, à l’affichage des listes de termes.

Il est adossé aux ontologies « Pactols » développées en multi -langues par « Frantiq » et aux listes de valeurs intégrées dans la Base Fer pour la protohistoire.

L’outil Web est en cours de développement et de test par Lattice et AOrOc