Sous-sections :
Proximité TEI / XML : Sperberg McQueen est un des auteurs des deux recommandations. Certains mécanismes XML (XPointer e.g.) viennent de la TEI.
Cette proximité historique TEI / XML montre l'importance initiale dans la définition d'XML de son usage pour ce qu'on appelle les "documents narratifs" (narrative documents), par opposition aux documents où XML est utilisé comme moyen de sérialisation ou comme base de données (record-oriented documents). La possibilité d'appliquer à des "documents narratifs" la puissance des langages de requêtes structurés des bases de données, comme la possibilité d'utiliser pour définir des formats de stockage ou de sérialisation la flexibilité des formats de description de documents narratifs est précisément l'intérêt de XML ; Il permet, pour traiter le texte à travers des données, de respecter la textualité de ces données.
La TEI a commencé ses travaux en 1987, en se basant sur SGML ; La dernière version des Recommandations, TEI P4, se veut entièrement XML-conforme.
L'objectif du consortium TEI est de définir un format d'échange, de création, et de stockage de textes annotés, ce qui implique à la fois de définir un jeu de balises standardisées et de rendre ce schéma indépendant des matériels, spécificités de réseaux, diversité des jeux de caractères, etc., ce que permet XML. Par exemple la TEI reprend la distinction entre fichier (unité physique) et document (unité logique) : The term computer file here is to be understood as referring to the whole entity or document described by the header, even when this is stored in several distinct operating system files. (http://www.tei-c.org/P4X/HD.html)
La TEI est à la fois une recension de tous les traits à encoder et une normalisation des balises pour les encoder. The goals of the TEI project initially had a dual focus: being concerned with both what textual features should be encoded (i.e. made explicit) in an electronic text, and how that encoding should be represented for loss-free, platform-independent, interchange. (http://www.tei-c.org.uk/Vault/SC/J31/WHAT.htm)
Ainsi l'annotation est entendue comme normalisation de faits déjà donnés ("explicit markers for implicit textual features" http://www.tei-c.org/P4X/AB.html), l'équivalent de la désambiguïsation pour l'analyse morpho-syntaxique, plus que comme un ajout (ou une interprétation) donnée au texte.
Le but est de fournir des versions "computer-readable" des textes : l'encodage TEI est une solution peu économique si ce n'est pas pour utiliser des parseurs pour exploiter l'encodage.
Dans les Recommandations, l'encodage n'est pas une "interprétation" mais une "représentation" du texte : In these Guidelines, no hard and fast distinction is drawn between `objective' and `subjective' information or between `representation' and `interpretation'. These distinctions, though widely made and often useful in narrow, well-defined contexts, are perhaps best interpreted as distinctions between issues on which there is a scholarly consensus and issues where no such consensus exists. Such consensus has been, and no doubt will be, subject to change. The TEI Guidelines do not make suggestions or restrictions as to which of these features should be encoded. The use of the terms descriptive and interpretive about different types of encoding in the Guidelines is not intended to support any particular view on these theoretical issues, but reflects a purely practical division of responsibility between the two committees called Committee on Text Representation and Committee on Text Interpretation and Analysis. (http://www.tei-c.org/P4X/AB.html#ABDPIU)
La limitation au point de vue de la "représentation" du texte dans les Recommandations est donc censé garantir également l'absence de normativité et la disponibilité pour le plus grand nombre de besoins. [...] the TEI Guidelines make (with relatively rare exceptions) no suggestions or restrictions as to the relative importance of textual features. The philosophy of the Guidelines is Â?if you want to encode this feature, do it this wayÂ? Â? but very few features are mandatory. (http://www.tei-c.org/P4X/AB.html)
Universalisme des données traitées : "The Guidelines apply to texts in any natural language, of any date, in any literary genre or text type, without restriction on form or content." (http://www.tei-c.org/P4X/AB.html) ; pour tous les usages possibles ; "interdisciplinary standard that helps libraries, museums, publishers, and individual scholars" (http://www.tei-c.org/)
Pour l'encodage d'un texte dans la perspective de la TEI trois niveaux successifs de normativité s'appliquent sur le texte encodé, et chacun doit être explicité dans une documentation.
<corr sic='ancienne
valeur'>nouvelle valeur</corr>
), mais dans le
module "apparat critique" des mécanismes beaucoup plus fins sont
proposés. La TEI ne prescrit pas une stratégie plutôt qu'une
autre, ou même l'usage d'une balise plutôt qu'une autre : In
many situations more than one view of a text is needed. No
absolute recommendation to embody one specific view of text can
apply to all texts and all approaches to them. The syntaxes of
SGML and XML ensure that some encodings can be ignored for some
purposes. To enable encoding multiple views, these Guidelines not
only treat a variety of text features, but sometimes provide
several alternative encodings for what appear to be identical
textual phenomena. These Guidelines therefore offer the
possibility of encoding many different views of the text,
simultaneously if necessary. (http://www.tei-c.org/P4X/AB.html)
<corr sic='ancienne
valeur'>nouvelle valeur</corr>
et <sic
corr='nouvelle valeur'>ancienne valeur</sic>
il
importe de choisir et respecter tout au long de l'encodage une
seule méthode. Au niveau de l'usage de la balise, on pourra
indiquer dans le header les règles appliquées pour décider ce qui
devait être corrigé, selon quelle méthode d'identification,
etc. The Guidelines provide a means of documenting the
encoding in such a way that a user of the text can know the
reasoning behind that encoding, and the general interpretive
decisions on which it is based. It is strongly recommended that
the TEI header be used to give an account of these aspects of the
encoding. (http://www.tei-c.org/P4X/AB.html)
<p>
par exemple ne peut se trouver qu'en dessous de balises <div>
, et aucune balise marquant des propriétés physiques de caractère ou des structures syntaxiques ne peut la contenir. Afin
de préserver la lisibilité des définitions d'éléments les uns par rapport aux autres à travers les Recommandations et de faciliter
la combinaison des modules, tous les tags sont répartis entre trois groupes d'inclusion progressifs : les niveaux chunk, interlevel et phrase.
Les modules de la TEI sont organisés en trois niveaux :
Pour une présentation des mécanismes internes permettant cette modularité, cf. 3 Structure of the TEI Document Type Definition
2. L'organisation des balises en trois niveauxPour prévoir la diversité de DTD, tous les éléments documentés dans la TEI sont répartis entre trois grands niveaux d'inclusion qui traversent les DTD : les niveaux chunk, interlevel et phrase.
<text>
ou dans des subdivisions du texte (<div>, etc.
), mais pas dans d'autres éléments de niveau chunk ni du niveau phrase-level.
<div>
ou <text>
).
On peut ajouter :
<div>
) ou ou au niveau du texte (<text>
). Appelés également components ou component-level elements.
<TEI.2>
et <group>
ou des éléments spécialisés de certaines structures (<analytic>
, <monographic>
, ou <series>
, pour noter les références bibliographiques).
Certains composants (e.g. <p>
ou <note>
) sont communs à tous les base tag sets, tandis que d'autres sont spécifiques. Cependant tous les tag set respectent cette
structure en niveau qui leur permet de se combiner sans conflit.
En consultant les Recommandations ou l'index des éléments (35 Elements), on peut ainsi savoir la position d'un élément par rapport aux autres.
Le plan des 39 chapitres des Recommandations suit l'organisation hiérarchique et modulaire. On peut décrire huit parties (http://www.tei-c.org/P4X/AB.html#ABSTRUNC) :
Un et un seul Header est obligatoire pour tout document. Son importance tient principalement à son rôle d'identifiant du document, de lieu de la caractérisation globale de son contenu, de mémoire électronique de ses variations, et de documentation fine de la stratégie d'encodage qui a été appliquée au texte. Le header est donc nécessaire à la réutilisation et à la maintenance du corpus.
Ces quatre fonctions se retrouvent dans les quatre composantes du Header :
<FileDesc>
: Identification du texte, en tant que document électronique (titre, auteur, responsable, éditeur, conditions juridique de
distribution, etc.) et en tant que réplique (capture) d'une source à documenter bibliographiquement.
<EncodingDesc>
Documentation des stratégies d'encodage adoptées, de l'usage fait des balises et du traitement par exemple des césures de
mot en fin de ligne, etc. Documentation également, dans le Header d'un corpus, des systèmes typologiques employés pour caractériser
les différents textes (dans leur header respectif).
<ProfileDesc>
: caractérisation d'un texte par rapport à un classement existant ou un classement ad hoc (documenté dans la section EncodingDesc
d'un corpus header). Le tag set "corpora" permet d'étendre ces classements à de nombreuses variables notamment sociologiques.
<RevisionDesc>
: Mémoire du document, où sont consignées les différentes révisions.
Le header fait l'objet d'un chapitre entier : http://www.tei-c.org/P4X/HD.html, et d'extension dans le tag set "Corpora". Dans un corpus, le document peut avoir un "corpus header" en plus du header de chaque texte. Dans ce cas les deux headers n'ont pas la même fonction : le corpus header permet de noter ce qui s'applique à tous les textes, le header de chaque texte ne notant que ses spécificités ou des exceptions par rapport à ce qui est défini pour tous.
Une part extrêmement minime est absolument requise : le header minimal selon la TEI contient seulement le nom du texte électronique et de son auteur (cf. http://www.tei-c.org/P4X/HD.html#HD7).