Harmoniser le corpus « ConDÉ ». De l'image à la ressource linguistique

##plugins.themes.bootstrap3.article.main##

Morgane L. Pica

Résumé

Le corpus du projet RIN ConDÉ comporte douze sources de référence du droit coutumier normand, du 13e au 19e siècle. Bien qu'homogène dans son sujet, ce corpus présente une grande hétérogénéité dans le format et donc la structure des données textuelles. Le traitement des données, fondé majoritairement sur un HTR par Transkribus, des transformations informatiques en langages Python et XSLT, une lemmatisation par AnaLog et le modèle d'encodage TEI, a donc dû comporter une phase de réflexion sur la structure permettant de restituer les structures et systèmes de référence des différents témoins, ainsi que concilier six cents ans d'évolution linguistique sous un seul jeu d'étiquettes de lemmes et catégories morpho-syntaxiques. Le choix a été d'élaborer une structure sur trois niveaux (partie > chapitre > section), et a nécessité quelques prises de parti ponctuelles afin de rendre les témoins véritablement comparables.

##plugins.themes.bootstrap3.article.details##

Rubrique
Article