Tacitus On Line, édition et analyse des commentaires néo-latins à Tacite
Laurie Petrikova-Goffi, étudiante en Master 2 Humanités Numériques, présente son stage (mars-juillet 2024) au sein du projet Tacitus On Line, sous le tutorat de Louis Autin, maître de conférences en langue et littérature latines à Sorbonne Université.
Le projet Tacitus On Line, lancé à Grenoble en 2015 par Isabelle Cogitore (PR langue et littérature latines, UGA), bénéficiant de l’expertise du groupe d’ingénieurs des ELAN depuis 2019, et porté à Sorbonne Université par Louis Autin à partir de septembre 2024, avec le soutien du CERES vise à éditer et analyser les commentaires aux Annales de Tacite, de 1517 (premier commentaire, dû à André Alciat) à 1607 (date du dernier commentaire, posthume, de Juste Lipse). Le corpus interrogé comprend nombre d’humanistes de premier plan (Lipse, Muret, Ferretti…) et/ou de précurseurs du tacitisme (avec Carlo Pasquali par exemple). L’édition électronique, en cours, propose, en regard du texte des Annales de Tacite, fourni par Les Belles Lettres, les commentaires numérisés, encodés en XML/TEI, et classés selon différents critères. Nous proposons ici de faire un bilan des enjeux du stage, financé par l’Initiative Sciences de l’Antiquité, et des missions diverses qu’il comprend.
En mars 2024 commence le stage, avec pour mission principale l’encodage du commentaire de Carlo Pasquali au livre I des Annales de Tacite. Ce commentaire est intéressant à plusieurs titres : publié sous le titre d’Observationes et 1581, et souvent analysé comme le premier commentaire réellement politique à Tacite (les quatre premiers livres des Annales sont commentés), il est réédité à la fin d’une anthologie parue en 1608, sous le titre de Gnomae, seu Axiomata Politica e Taciti Annalibus excerpta (Sentences, ou axiomes politiques tirés des Annales de Tacite). D’abord retranscrits dans un fichier Word par M. Autin, ces commentaires doivent ensuite être ajoutés dans un fichier XML à l’aide du logiciel Oxygen, en suivant les directives d’encodage du projet, puis mis en ligne.
Au plan technique, le travail suit plusieurs étapes. Pour prendre un exemple, les commentaires de Juste Lipse apparaissent ainsi dans l’édition de 1608 qui sert de base au projet, avec d’abord le texte des Annales puis les commentaires de Juste Lipse en bas de page (image 1).
Image 1 : début du commentaire de Lipse au livre I des Annales dans l’édition Pierre Chevalier de 1608
On recopie le texte en identifiant à quel chapitre et quel paragraphe le commentaire fait référence dans l’édition des Annales dans la CUF (ex. le commentaire « CAII CORNELII TACITI. » ci-dessus fait référence au livre 1, chapitre 1, paragraphe 1 : Ann. 1.1.1). Ensuite on l’encode en XML dans le logiciel Oxygen (image 2).
Image 2 : encodage XML-TEI du premier commentaire de Lipse
Tout d’abord on crée une première <div> qui indique à quel livre des Annales de Tacite font référence les commentaires et l’auteur desdits commentaires (xml:id="liberI_LIPS"), avec quels membres de l’équipe de Tacitus On Line s’occupent de l’encodage (resp="#dcristache #ccharlois", des identifiants qui font références à la liste des membres du projet renseignée dans un autre fichier).
Ensuite, on crée une <div> pour le commentaire qu’on est en train d’encoder. Chaque commentaire dispose d’un identifiant unique, rappelant à quel tome il porte, l’auteur et le numéro du commentaire (xml:id="LIPS_1.1", soit le premier commentaire de Juste Lipse au livre I des Annales). On retrouve d’autres attributs accompagnant l’identifiant du commentaire, comme ana (qui contient une référence au sujet sur lequel porte le commentaire, ana="#POL" s’il est politique, ana="#HIST" s’il est historique, etc.) et resp (qui fait référence à l’auteur du commentaire, ici Juste Lipse, ou #LIPS).
Les citations sont également encodées dans les balises <q> avec leur propre identifiant (xml:id="LIPS_1.1_q1", pour la première citation du premier commentaire de Juste Lipse, xml:id="LIPS_1.1_q2" pour la deuxième et ainsi de suite), si elles sont en grec (xml:lang="GR") et quel auteur elles citent (who="#SID", en l’occurrence l’identifiant pour Sidoine Apollinaire). L’intérêt d’identifier les citations dans le XML est de pouvoir travailler sur les réseaux citationnels mobilisés par les humanistes dans leurs textes (cf. https://tacitus.elan-numerique.fr/index.php?page=dataviz_cit).
Une fois les commentaires de l’auteur encodés, ils sont ajoutés dans l’édition numérique aux passages qu’ils concernent. Pour cela les lemmes des commentaires sont encodés comme suit :
Avec l’élément <ref target="#n.1.1.1"> qui indique le livre, le chapitre et la ligne du chapitre à laquelle le commentaire faire référence, en l’occurrence le premier paragraphe du premier chapitre du premier livre des Annales de Tacite.
Les commentaires apparaissent ainsi sur le site internet, avec les citations surlignées en jaune et la possibilité de dérouler ou de réduire les commentaires en cliquant sur le lemme (image 3).
Image 3 : restitution du premier commentaire de Lipse dans l’édition électronique en ligne
Le stage s’accompagne de missions secondaires, telles que l’indexation des pages de l’anthologie de 1608 regroupant la quasi-totalité des commentateurs de la Renaissance, et dont le site propose un sommaire ordonné. Cette indexation passe aussi par un fichier XML (image 4).
Image 4 : indexation de la numérisation pdf de l’anthologie de 1608
À gauche, l’index des pages de l’édition de 1608 qui peut ainsi être feuilletée ; à droite, un aperçu de l’encodage XML de ces pages, les éléments <msItem> délimitant les sections et sous-sections de l’index, les éléments <title> leurs titres et les éléments <locus> répartissant les pages dans l’index.
Une troisième mission du stage consiste à créer une page pour la bibliographie du projet, avec des entrées exportées de Zotero au format XML (image 5).
Image 5 : encodage XML d’un élément bibliographique
Chaque élément <biblStruct> représente une entrée bibliographique issue de Zotero, avec un attribut ana indiquant sur quels sujets elle porte. Ces entrées bibliographiques sont ensuite affichées de manière différente par le XSLT, en fonction de leur attribut type (image 6).
Image 6 : restitution XSLT de la bibliographie XML
Par exemple ici on peut voir dans quel ordre les éléments d’un livre sont affichés : d’abord on sélectionne la valeur du prénom et du nom de l’auteur pour l’afficher, puis le titre du livre en italique, puis son lieu de publication, puis son éditeur et son année de publication.
Les entrées bibliographiques sont affichées par ordre alphabétique selon les auteurs puis selon la date de publication.
Une fois la transformation XSLT effectuée, on obtient un premier résultat HTML (image 7), que la suite du stage visera à affiner et à améliorer, en vue de son intégration sur le site du projet.
Image 7 : affichage en xHTML de la bibliographie test
Une quatrième mission du stage vise à effectuer des recherches et des tests sur l’OCRisation (reconnaissance automatique de caractères) des éditions numérisées sur lesquelles nous travaillons, dans le but d’accélérer la retranscription manuelle (actuellement très chronophage) des commentaires. Pour cela, après une revue de littérature, plusieurs OCRs et modèles ont été testés avec l’aide de l’équipe du CERES de Sorbonne Université, avec une évaluation chiffrée grâce à différentes métriques (CER, WER, braycurtis, cosine, dice et jaccard : pour CER et WER, les meilleures valeurs sont les plus petites ; pour braycurtis, cosine, dice et jaccard, les meilleures valeurs sont celles qui s’approchent de 1).
Pour chaque OCR (Rescribe, Kraken, Tesseract) et chaque modèle testé (lat, fra, htr-manicule-beta, htr-medieval-lat-fra-extended, modèles actuellement disponibles et entraînés dans le cadre de projets d’OCR/HTR récents), on se retrouve avec des moyennes chiffrées. Par exemple, pour le test des modèles latin et français de Tesseract, on se retrouve avec ces moyennes, pour un corpus de 50 commentaires de tailles différentes (image 8).
Image 8 : évaluation des modèles lat et fra de Tesseract sur un corpus test
Ensuite on compare ces moyennes pour déterminer l’OCR et le modèle avec le meilleur résultat, pour ensuite ajuster et potentiellement entraîner la meilleure combinaison afin d’obtenir une OCRisation qui permettra de réduire drastiquement le temps passé à retranscrire les commentaires édités. Si les premiers tests sont encourageants, il reste à affiner l’étude pour déterminer s’il est intéressant de poursuivre dans cette voie, voire de réentraîner un modèle à l’aide des données déjà saisies dans le cadre du projet.
Le stage se finira avec une dernière mission, prévue pour la fin du mois de juin : l’assistance au portage du site internet de Grenoble (Université Grenoble Alpes) vers Paris (Sorbonne Université), et de l’équipe des ELAN vers le CERES. Ce stage joue ainsi autant un rôle de support, avec la mission principale de continuer l’encodage des commentaires dans la continuité des actions déjà menées dans le projet depuis 2019, que de transition, en faisant le lien entre les équipes de Grenoble et de Paris.