OUTILS DE TRATEMENT DE CORPUS

Céline POUDAT
Université d'Orléans


1. Outils de Traitement Automatique des Langues

On recense plusieurs outils disponibles en ligne, susceptibles de participer à l’analyse du corpus ; notons que la plupart de ces programmes ont été conçus en vue de valider une ou plusieurs théories linguistiques particulières. 

1.1. Outils disponibles en ligne ou téléchargeables

Certains laboratoires, comme le LATL (Université de Genève), présentent un ensemble de programmes qu’il est possible de télécharger ou d’évaluer en ligne ; quelques entreprises proposent de même une démonstration de leurs outils, à des fins commerciales.

Parmi l’ensemble des logiciels en ligne recensés n’ont été retenus que les étiqueteurs (ou taggers) et les analyseurs syntaxiques (ou parsers) ; nous avons distingué les outils monolingues (c’est-à-dire ne traitant que l’une des deux langues qui nous intéressent) des outils bilingues ou multilingues. Un descriptif succinct de chacun de ces produits est proposé.

1.1.1. Etiqueteurs 

A. Unilingues (français ou anglais) :

B. Bilingues (ou multilingues) français et anglais :

1.1.2. Analyseurs syntaxiques 

A. Unilingues (français ou anglais) :

B. Bilingues (ou multilingues) français et anglais :

1.2. Outils commercialisés

Le site de l’Atala propose une liste – non exhaustive - d’outils de TAL (http://www.biomath.jussieu.fr/ATALA/outil). Chaque outil est accompagné d’un descriptif, voire de l’adresse de son site et des coordonnées de son concepteur. Parmi les différents logiciels présentés, nous avons relevé quelques programmes qui pourraient contribuer à l’analyse du corpus :


2. Outils statistiques

La statistique textuelle a vu émerger deux grands courants dans le champ francophone : la statistique lexicale (Charles Muller, fin des années 50), et l’analyse statistique des données linguistiques ou textuelles (Jean-Paul Benzécri). Les deux approches ont donné naissance à deux logiciels d’analyse statistique : Hyperbase® et Alceste®.
En ce qui concerne les logiciels purement statistiques, SAS® nous semble constituer le logiciel le plus complet, et le plus utilisé en sciences humaines.


Vous pouvez adresser vos commentaires et suggestions à : celine.poudat@univ-orleans.fr

© juin-septembre 2003 pour l'édition électronique.

Référence bibliographique : POUDAT, Céline. Outils de tratement de corpus. Texto! [en ligne], juin-septembre 2003, vol. VIII, n°2-3. Disponible sur : <http://www.revue-texto.net/Corpus/Manufacture/pub/Poudat_Outils.html>. (Consultée le ...).