Introduction à la TEI

Sous-sections :


Contexte technologique

Proximité TEI / XML : Sperberg McQueen est un des auteurs des deux recommandations. Certains mécanismes XML (XPointer e.g.) viennent de la TEI.

Cette proximité historique TEI / XML montre l'importance initiale dans la définition d'XML de son usage pour ce qu'on appelle les "documents narratifs" (narrative documents), par opposition aux documents où XML est utilisé comme moyen de sérialisation ou comme base de données (record-oriented documents). La possibilité d'appliquer à des "documents narratifs" la puissance des langages de requêtes structurés des bases de données, comme la possibilité d'utiliser pour définir des formats de stockage ou de sérialisation la flexibilité des formats de description de documents narratifs est précisément l'intérêt de XML ; Il permet, pour traiter le texte à travers des données, de respecter la textualité de ces données.

La TEI a commencé ses travaux en 1987, en se basant sur SGML ; La dernière version des Recommandations, TEI P4, se veut entièrement XML-conforme.


Echange de données et standardisation

L'objectif du consortium TEI est de définir un format d'échange, de création, et de stockage de textes annotés, ce qui implique à la fois de définir un jeu de balises standardisées et de rendre ce schéma indépendant des matériels, spécificités de réseaux, diversité des jeux de caractères, etc., ce que permet XML. Par exemple la TEI reprend la distinction entre fichier (unité physique) et document (unité logique) : The term computer file here is to be understood as referring to the whole entity or document described by the header, even when this is stored in several distinct operating system files. (http://www.tei-c.org/P4X/HD.html)

La TEI est à la fois une recension de tous les traits à encoder et une normalisation des balises pour les encoder. The goals of the TEI project initially had a dual focus: being concerned with both what textual features should be encoded (i.e. made explicit) in an electronic text, and how that encoding should be represented for loss-free, platform-independent, interchange. (http://www.tei-c.org.uk/Vault/SC/J31/WHAT.htm)

Ainsi l'annotation est entendue comme normalisation de faits déjà donnés ("explicit markers for implicit textual features" http://www.tei-c.org/P4X/AB.html), l'équivalent de la désambiguïsation pour l'analyse morpho-syntaxique, plus que comme un ajout (ou une interprétation) donnée au texte.

Le but est de fournir des versions "computer-readable" des textes : l'encodage TEI est une solution peu économique si ce n'est pas pour utiliser des parseurs pour exploiter l'encodage.

Dans les Recommandations, l'encodage n'est pas une "interprétation" mais une "représentation" du texte : In these Guidelines, no hard and fast distinction is drawn between `objective' and `subjective' information or between `representation' and `interpretation'. These distinctions, though widely made and often useful in narrow, well-defined contexts, are perhaps best interpreted as distinctions between issues on which there is a scholarly consensus and issues where no such consensus exists. Such consensus has been, and no doubt will be, subject to change. The TEI Guidelines do not make suggestions or restrictions as to which of these features should be encoded. The use of the terms descriptive and interpretive about different types of encoding in the Guidelines is not intended to support any particular view on these theoretical issues, but reflects a purely practical division of responsibility between the two committees called Committee on Text Representation and Committee on Text Interpretation and Analysis. (http://www.tei-c.org/P4X/AB.html#ABDPIU)

La limitation au point de vue de la "représentation" du texte dans les Recommandations est donc censé garantir également l'absence de normativité et la disponibilité pour le plus grand nombre de besoins. [...] the TEI Guidelines make (with relatively rare exceptions) no suggestions or restrictions as to the relative importance of textual features. The philosophy of the Guidelines is Â?if you want to encode this feature, do it this wayÂ? Â? but very few features are mandatory. (http://www.tei-c.org/P4X/AB.html)

Universalisme des données traitées : "The Guidelines apply to texts in any natural language, of any date, in any literary genre or text type, without restriction on form or content." (http://www.tei-c.org/P4X/AB.html) ; pour tous les usages possibles ; "interdisciplinary standard that helps libraries, museums, publishers, and individual scholars" (http://www.tei-c.org/)


Niveau de normativité et documentation des choix

Pour l'encodage d'un texte dans la perspective de la TEI trois niveaux successifs de normativité s'appliquent sur le texte encodé, et chacun doit être explicité dans une documentation.


L'organisation modulaire de la TEI

1. Les modules de la TEI

Les modules de la TEI sont organisés en trois niveaux :

Pour une présentation des mécanismes internes permettant cette modularité, cf. 3 Structure of the TEI Document Type Definition

2. L'organisation des balises en trois niveaux

Pour prévoir la diversité de DTD, tous les éléments documentés dans la TEI sont répartis entre trois grands niveaux d'inclusion qui traversent les DTD : les niveaux chunk, interlevel et phrase.

On peut ajouter :

Certains composants (e.g. <p> ou <note>) sont communs à tous les base tag sets, tandis que d'autres sont spécifiques. Cependant tous les tag set respectent cette structure en niveau qui leur permet de se combiner sans conflit.

En consultant les Recommandations ou l'index des éléments (35 Elements), on peut ainsi savoir la position d'un élément par rapport aux autres.


Plan des Recommandations

Le plan des 39 chapitres des Recommandations suit l'organisation hiérarchique et modulaire. On peut décrire huit parties (http://www.tei-c.org/P4X/AB.html#ABSTRUNC) :


La structure du header

Un et un seul Header est obligatoire pour tout document. Son importance tient principalement à son rôle d'identifiant du document, de lieu de la caractérisation globale de son contenu, de mémoire électronique de ses variations, et de documentation fine de la stratégie d'encodage qui a été appliquée au texte. Le header est donc nécessaire à la réutilisation et à la maintenance du corpus.

Ces quatre fonctions se retrouvent dans les quatre composantes du Header :

Le header fait l'objet d'un chapitre entier : http://www.tei-c.org/P4X/HD.html, et d'extension dans le tag set "Corpora". Dans un corpus, le document peut avoir un "corpus header" en plus du header de chaque texte. Dans ce cas les deux headers n'ont pas la même fonction : le corpus header permet de noter ce qui s'applique à tous les textes, le header de chaque texte ne notant que ses spécificités ou des exceptions par rapport à ce qui est défini pour tous.

Une part extrêmement minime est absolument requise : le header minimal selon la TEI contient seulement le nom du texte électronique et de son auteur (cf. http://www.tei-c.org/P4X/HD.html#HD7).


Liens