Introduction à la TEI

Sous-sections :

Contexte technologique
Echange de données et standardisation
Niveau de normativité et documentation des choix
L'organisation modulaire de la TEI
Plan des Recommandations
La structure du header
Liens

[ < ]

[ ^ ]

[ > ]

[ << ]

[ sommaire ]

[ >> ]

Contexte technologique

Proximité TEI / XML : Sperberg McQueen est un des auteurs des deux recommandations. Certains mécanismes XML (XPointer e.g.) viennent de la TEI.

Cette proximité historique TEI / XML montre l'importance initiale dans la définition d'XML de son usage pour ce qu'on appelle les "documents narratifs" (narrative documents), par opposition aux documents où XML est utilisé comme moyen de sérialisation ou comme base de données (record-oriented documents). La possibilité d'appliquer à des "documents narratifs" la puissance des langages de requêtes structurés des bases de données, comme la possibilité d'utiliser pour définir des formats de stockage ou de sérialisation la flexibilité des formats de description de documents narratifs est précisément l'intérêt de XML ; Il permet, pour traiter le texte à travers des données, de respecter la textualité de ces données.

La TEI a commencé ses travaux en 1987, en se basant sur SGML ; La dernière version des Recommandations, TEI P4, se veut entièrement XML-conforme.

[ < ]

[ ^ ]

[ > ]

[ << ]

[ sommaire ]

[ >> ]

Echange de données et standardisation

L'objectif du consortium TEI est de définir un format d'échange, de création, et de stockage de textes annotés, ce qui implique à la fois de définir un jeu de balises standardisées et de rendre ce schéma indépendant des matériels, spécificités de réseaux, diversité des jeux de caractères, etc., ce que permet XML. Par exemple la TEI reprend la distinction entre fichier (unité physique) et document (unité logique) : The term computer file here is to be understood as referring to the whole entity or document described by the header, even when this is stored in several distinct operating system files. (http://www.tei-c.org/P4X/HD.html)

La TEI est à la fois une recension de tous les traits à encoder et une normalisation des balises pour les encoder. The goals of the TEI project initially had a dual focus: being concerned with both what textual features should be encoded (i.e. made explicit) in an electronic text, and how that encoding should be represented for loss-free, platform-independent, interchange. (http://www.tei-c.org.uk/Vault/SC/J31/WHAT.htm)

Ainsi l'annotation est entendue comme normalisation de faits déjà donnés ("explicit markers for implicit textual features" http://www.tei-c.org/P4X/AB.html), l'équivalent de la désambiguÃ¯sation pour l'analyse morpho-syntaxique, plus que comme un ajout (ou une interprétation) donnée au texte.

Le but est de fournir des versions "computer-readable" des textes : l'encodage TEI est une solution peu économique si ce n'est pas pour utiliser des parseurs pour exploiter l'encodage.

Dans les Recommandations, l'encodage n'est pas une "interprétation" mais une "représentation" du texte : In these Guidelines, no hard and fast distinction is drawn between `objective' and `subjective' information or between `representation' and `interpretation'. These distinctions, though widely made and often useful in narrow, well-defined contexts, are perhaps best interpreted as distinctions between issues on which there is a scholarly consensus and issues where no such consensus exists. Such consensus has been, and no doubt will be, subject to change. The TEI Guidelines do not make suggestions or restrictions as to which of these features should be encoded. The use of the terms descriptive and interpretive about different types of encoding in the Guidelines is not intended to support any particular view on these theoretical issues, but reflects a purely practical division of responsibility between the two committees called Committee on Text Representation and Committee on Text Interpretation and Analysis. (http://www.tei-c.org/P4X/AB.html#ABDPIU)

La limitation au point de vue de la "représentation" du texte dans les Recommandations est donc censé garantir également l'absence de normativité et la disponibilité pour le plus grand nombre de besoins. [...] the TEI Guidelines make (with relatively rare exceptions) no suggestions or restrictions as to the relative importance of textual features. The philosophy of the Guidelines is Â?if you want to encode this feature, do it this wayÂ? Â? but very few features are mandatory. (http://www.tei-c.org/P4X/AB.html)

Universalisme des données traitées : "The Guidelines apply to texts in any natural language, of any date, in any literary genre or text type, without restriction on form or content." (http://www.tei-c.org/P4X/AB.html) ; pour tous les usages possibles ; "interdisciplinary standard that helps libraries, museums, publishers, and individual scholars" (http://www.tei-c.org/)

[ < ]

[ ^ ]

[ > ]

[ << ]

[ sommaire ]

[ >> ]

Niveau de normativité et documentation des choix

Pour l'encodage d'un texte dans la perspective de la TEI trois niveaux successifs de normativité s'appliquent sur le texte encodé, et chacun doit être explicité dans une documentation.

Au niveau du vocabulaire définit par la TEI, différents traits pour marquer le même fait sont parfois proposés. Par exemple toutes les DTD TEI contiennent un mécanisme de base pour marquer des erreurs (<corr sic='ancienne valeur'>nouvelle valeur</corr>), mais dans le module "apparat critique" des mécanismes beaucoup plus fins sont proposés. La TEI ne prescrit pas une stratégie plutôt qu'une autre, ou même l'usage d'une balise plutôt qu'une autre : In many situations more than one view of a text is needed. No absolute recommendation to embody one specific view of text can apply to all texts and all approaches to them. The syntaxes of SGML and XML ensure that some encodings can be ignored for some purposes. To enable encoding multiple views, these Guidelines not only treat a variety of text features, but sometimes provide several alternative encodings for what appear to be identical textual phenomena. These Guidelines therefore offer the possibility of encoding many different views of the text, simultaneously if necessary. (http://www.tei-c.org/P4X/AB.html)
En opérant une sélection de modules on peut composer une DTD adaptée à un besoin : une stratégie d'encodage et les noms de balises sont déjà plus précisément définis, et la DTD accompagnant le document (auto-)définit le jeu utilisé.
Si la DTD définit les relations syntaxique entre balises (qui définissent leur "sémantique") il reste à préciser au niveau d'un corpus (c'est le rôle du Header) les choix et stratégies d'encodage. Par exemple, entre <corr sic='ancienne valeur'>nouvelle valeur</corr> et <sic corr='nouvelle valeur'>ancienne valeur</sic> il importe de choisir et respecter tout au long de l'encodage une seule méthode. Au niveau de l'usage de la balise, on pourra indiquer dans le header les règles appliquées pour décider ce qui devait être corrigé, selon quelle méthode d'identification, etc. The Guidelines provide a means of documenting the encoding in such a way that a user of the text can know the reasoning behind that encoding, and the general interpretive decisions on which it is based. It is strongly recommended that the TEI header be used to give an account of these aspects of the encoding. (http://www.tei-c.org/P4X/AB.html)

[ < ]

[ ^ ]

[ > ]

[ << ]

[ sommaire ]

[ >> ]

L'organisation modulaire de la TEI

Les modules de la TEI -- Proposer une seule DTD serait beaucoup trop inadapté à la diversité des pratiques. Le vocabulaire de la TEI est donc plus général et peut donner lieu à différentes DTD. Cependant les Recommandations restent proches d'une définition de DTD, pour toujours définir formellement les tags. Pour cela une organisation générale en modules combinables est utilisée : les Recommandations décrivent successivement des modules qui peuvent être combinés pour composer une DTD, et à l'intérieur desquels les tags peuvent être définis formellement avec les notations des DTD. Un mécanisme (Pizza Chief) est proposé en ligne pour composer une DTD sur mesure à partir de choix entre ces modules. Cf. 1. les modules de la TEI. NOTE : Le niveau des Recommandations TEI ne définit donc pas une DTD mais un "scheme". La TEI est parfois appelé abusivement dans les Recommandations la "TEI DTD", pour désigner l'ensemble du système de modules. Sur l'organisation modulaire de TEI : http://www.tei-c.org/Papers/J31/
L'organisation des balises en trois niveaux -- Une balise se définit par les relations syntaxiques qu'elle entretient avec les autres balises : la balise <p> par exemple ne peut se trouver qu'en dessous de balises <div>, et aucune balise marquant des propriétés physiques de caractère ou des structures syntaxiques ne peut la contenir. Afin de préserver la lisibilité des définitions d'éléments les uns par rapport aux autres à travers les Recommandations et de faciliter la combinaison des modules, tous les tags sont répartis entre trois groupes d'inclusion progressifs : les niveaux chunk, interlevel et phrase.

1. Les modules de la TEI

Les modules de la TEI sont organisés en trois niveaux :

une partie commune à toute DTD issue de la TEI : le "core tag set". Elle est censée contenir les tags nécessaires dans tous les cas de figure, et sur lesquels la plus grande homogénéité peut être atteinte. Il s'agit notamment des moyens de marquer la structure du texte jusqu'au paragraphe, du header, du marquage de la mise en valeur ("Highlighting" en général), citations, nombre / date / nom / abréviation, notes, etc...
Chaque DTD inclut ensuite un et un seul jeu de base ("base tag set") à choisir parmi huit possibilités ("Prose", "Verse", "Drama", "Speech", "Dictionaries", "Terminology", "General base", "Mixed"). Les deux derniers permettent d'avoir des combinaisons des 6 premiers.
Enfin on peut ajouter des modules additionnels librement combinables (corpora, critical apparatus, alignement, marquage de table et formules, encodage morphosyntaxique notamment)

Pour une présentation des mécanismes internes permettant cette modularité, cf. 3 Structure of the TEI Document Type Definition

2. L'organisation des balises en trois niveaux

Pour prévoir la diversité de DTD, tous les éléments documentés dans la TEI sont répartis entre trois grands niveaux d'inclusion qui traversent les DTD : les niveaux chunk, interlevel et phrase.

Chunks elements : Eléments comme le paragraphe et du niveau du paragraphe : peuvent apparaÃ®tre directement dans l'élément <text> ou dans des subdivisions du texte (<div>, etc.), mais pas dans d'autres éléments de niveau chunk ni du niveau phrase-level.
Phrase-level elements : Eléments tels que les passage mis en valeur, les références, noms propres, date, corrections editoriales, etc. qui peuvent apparaÃ®tre uniquement dans un élément de niveau chunk (un paragraphe ou un élément de niveau paragraphe), mais pas entre ces éléments (et pas directement dans un élément <div> ou <text>).
Inter-level elements : Eléments comme les listes, notes, prises de parole, etc. qui peuvent apparaÃ®tre soit dans des éléments de niveau chunk, soit entre eux.

On peut ajouter :

Text components : Réunion des niveaux Chunk et Inter-level, qui peuvent apparaÃ®tre directement dans des divisions du texte (<div>) ou ou au niveau du texte (<text>). Appelés également components ou component-level elements.
Certains éléments n'appartiennent à aucune de ces classes ; des éléments de niveau élevé de la structure comme <TEI.2> et <group> ou des éléments spécialisés de certaines structures (<analytic>, <monographic>, ou <series>, pour noter les références bibliographiques).

Certains composants (e.g. <p> ou <note>) sont communs à tous les base tag sets, tandis que d'autres sont spécifiques. Cependant tous les tag set respectent cette structure en niveau qui leur permet de se combiner sans conflit.

En consultant les Recommandations ou l'index des éléments (35 Elements), on peut ainsi savoir la position d'un élément par rapport aux autres.

[ < ]

[ ^ ]

[ > ]

[ << ]

[ sommaire ]

[ >> ]

Plan des Recommandations

Le plan des 39 chapitres des Recommandations suit l'organisation hiérarchique et modulaire. On peut décrire huit parties (http://www.tei-c.org/P4X/AB.html#ABSTRUNC) :

Première partie -- Considérations sur le contexte technique (XML) et présentation de la structure modulaire des TEI Recommandations

Partie II -- Le core tag set, commun à toutes les DTD

4 Languages and Character Sets
5 The TEI Header
6 Elements Available in All TEI Documents [moyens de marquer noms propre, citation, date, nombre, abréviation, note, etc.]
7 Default Text Structure [organisation des 'div']

Partie III -- Les base tag sets dont l'un (ou une sélection de plusieurs) doit être sélectionné pour toute DTD.

Partie IV -- Le niveau des additional tag sets, optionnels et librement combinables dans une DTD.

Partie V -- DTD auxiliaires spécialisées : DTD pour un TEI header utilisé comme un document distinct, pour décrire un TEI Writing System Declaration (traitement des langues et des alphabets), pour décrire un Feature System declaration (structure de traits descriptifs) et pour décrire un Tag Set Documentation (décrire un jeu de tags, notamment pour étendre la TEI).

Partie VI -- Points techniques, notamment les mécanismes d'extension de la TEI et son utilisation, ainsi qu'une discussion de la question des chevauchements de tags. (31)

28 Conformance
29 Modifying and Customizing the TEI DTD
30 Rules for Interchange
31 Multiple Hierarchies [Différents moyens de noter des ensembles qui se chevauchent.]
32 Algorithm for Recognizing Canonical References

Partie VII -- Références et index.

Partie VIII.

Appendix.

[ < ]

[ ^ ]

[ > ]

[ << ]

[ sommaire ]

[ >> ]

La structure du header

Un et un seul Header est obligatoire pour tout document. Son importance tient principalement à son rôle d'identifiant du document, de lieu de la caractérisation globale de son contenu, de mémoire électronique de ses variations, et de documentation fine de la stratégie d'encodage qui a été appliquée au texte. Le header est donc nécessaire à la réutilisation et à la maintenance du corpus.

Ces quatre fonctions se retrouvent dans les quatre composantes du Header :

<FileDesc> : Identification du texte, en tant que document électronique (titre, auteur, responsable, éditeur, conditions juridique de distribution, etc.) et en tant que réplique (capture) d'une source à documenter bibliographiquement.
<EncodingDesc> Documentation des stratégies d'encodage adoptées, de l'usage fait des balises et du traitement par exemple des césures de mot en fin de ligne, etc. Documentation également, dans le Header d'un corpus, des systèmes typologiques employés pour caractériser les différents textes (dans leur header respectif).
<ProfileDesc> : caractérisation d'un texte par rapport à un classement existant ou un classement ad hoc (documenté dans la section EncodingDesc d'un corpus header). Le tag set "corpora" permet d'étendre ces classements à de nombreuses variables notamment sociologiques.
<RevisionDesc> : Mémoire du document, où sont consignées les différentes révisions.

Le header fait l'objet d'un chapitre entier : http://www.tei-c.org/P4X/HD.html, et d'extension dans le tag set "Corpora". Dans un corpus, le document peut avoir un "corpus header" en plus du header de chaque texte. Dans ce cas les deux headers n'ont pas la même fonction : le corpus header permet de noter ce qui s'applique à tous les textes, le header de chaque texte ne notant que ses spécificités ou des exceptions par rapport à ce qui est défini pour tous.

Une part extrêmement minime est absolument requise : le header minimal selon la TEI contient seulement le nom du texte électronique et de son auteur (cf. http://www.tei-c.org/P4X/HD.html#HD7).

Cf. la Fabrique

[ < ]

[ ^ ]

[ > ]

[ << ]

[ sommaire ]

[ >> ]

Liens

TEI Guidelines : http://www.tei-c.org/P4X/
TEI Lite : http://www.tei-c.org/Lite/
TEI Lite en franÃ§ais : http://www.gutenberg.eu.org/article50.html
Introduction to TEI and Guide to Document Preparation : http://etext.lib.virginia.edu/tei/uvatei.html
Matériel pédagogique disponible sur le site de la TEI : http://www.tei-c.org/Talks/ et http://www.tei-c.org/Tutorials/index.html
Pizza Chief : http://www.tei-c.org/pizza.html
Baking your own pizza : http://www.tei-c.org/Talks/pizza-exercise.html
Text Encoding for Information Interchange -- An Introduction to the Text Encoding Initiative : http://www.tei-c.org.uk/Vault/SC/J31/
Le site de la TEI recense des projets utilisant la TEI, et proposant souvent une documentation détaillée de leur corpus : http://www.tei-c.org/Applications/index.html