Harmoniser le corpus « ConDÉ ». De l'image à la ressource linguistique

Morgane L. Pica

N. 8 (2022), Articolo

N. 8 (2022)

Harmoniser le corpus « ConDÉ ». De l'image à la ressource linguistique

Articolo

Pubblicato 07-10-2022

Morgane L. Pica⁺⁻

Morgane L. Pica

École normale supérieure de Lyon (Lyon, France)

PDF (Français (France))

HTML (Français (France))

Parole chiave

humanités numériques
linguistique de corpus
encodage
diachronie
TEI
Python
Transkribus
AnaLog

Abstract

Le corpus du projet RIN ConDÉ comporte douze sources de référence du droit coutumier normand, du 13e au 19e siècle. Bien qu'homogène dans son sujet, ce corpus présente une grande hétérogénéité dans le format et donc la structure des données textuelles. Le traitement des données, fondé majoritairement sur un HTR par Transkribus, des transformations informatiques en langages Python et XSLT, une lemmatisation par AnaLog et le modèle d'encodage TEI, a donc dû comporter une phase de réflexion sur la structure permettant de restituer les structures et systèmes de référence des différents témoins, ainsi que concilier six cents ans d'évolution linguistique sous un seul jeu d'étiquettes de lemmes et catégories morpho-syntaxiques. Le choix a été d'élaborer une structure sur trois niveaux (partie > chapitre > section), et a nécessité quelques prises de parti ponctuelles afin de rendre les témoins véritablement comparables.

PDF (Français (France))

HTML (Français (France))