lectaurep-mariages-et-divorces

Contexte de production

Le projet LECTAUREP (LECTure Automatique de REPertoires), qui a débuté en 2018, est une initiative conjointe du Minutier central des notaires de Paris des Archives Nationales, de l’équipe ALMAnaCH (Automatic Language Modeling and Analysis & Computational Humanities) à Inria et de l’EPHE (Ecole Pratique des Hautes Etudes), en partenariat avec le Ministère de la Culture.

Le projet vise à repenser l’utilisation actuellement faite des registres des actes notariés, l’une des sources historiques les plus consultées aux Archives nationales, par les chercheurs et les utilisateurs des fonds d’archives notariales. Pour ce faire, le projet a instaurer un workflow de traitement de ces manuscrits à l’aide de la reconnaissance automatique des documents manuscrits (HTR) et d'extraction d’information (NER) en adoptant notamment l'application eScriptorium pour produire la vérité de terrain, entraîner des modèles de reconnaissance et corriger les transcriptions résultants.

Les corpus lectaurep-mariages-et-divorces rassemblent 104 numérisations double-pages issues principalement des enregistrements des Contrats de Mariage de commerçant par tenus par la Chambre des Notaires de Paris depuis 1803.

Une petite partie de ce corpus correspond également aux enregistrements des jugements de séparation de corps ou de biens et divorces, toujours par la Chambre des Notaires de Paris, cette fois depuis 1892.

➡️ voir la fiche détaillée des enregistrements des contrats de mariage de commerçant à Paris

➡️ voir la fiche détaillée des enregistrements des jugements de séparation de corps ou de biens et divorces à Paris

Détail des lots

Nom	Importance matérielle	Dates extremes	Particularité	CM ou SD*	Identifiant db
lectaurep-cm1	30 doubles-pages	04/1829 - 10/1829	1 seule main	CM/1	#152
lectaurep-cm3	30 doubles-pages	03-1836 - 08-1836	1 seule main	CM/3	#267
lectaurep-cm-sd	44 doubles-pages	1829, 1832, 1836, 1838, 1839, 1841, 1844, 1846, 1850, 1852, 1854, 1855, 1862, 1864, 1866, 1868, 1870, 1872, 1875, 1877, 1879, 1881, 1883, 1885, 1887, 1889, 1891, 1892, 1893, 1895, 1896, 1897, 1898, 1899, 1900, 1903, 1909, 1927, 1928	échantillonnages par carottage	CM + SD	#603

*CM=Contrat de mariage; SD=Séparation et Divorces

Règles de transcription

la segmentation suit globalement la structure tabulaire, à l'exception des "Noms" et "Prénoms" qui sont systématiquement segmentés comme appartenant à la même colonne. Une série de ..... ou ----, quand elle est présente sur l'image, signale la séparation entre "nom" et "prénom".

le texte suscrit a été signalé par un ^ liminaire. Le phénomène "dud^t" (dudit) est donc transcrit par "dud^t".

l'emploi des minuscules et majuscule a été respecté.

les signatures sont systématiquement transcrites par un ¥. Tous les segments contenant des signatures et des paraphes (en général ils ne contiennent rien d'autre) ont été associés au type "DefaultLine:Signature".

les portions de texte pré-imprimées, notamment les en-têtes des tableaux et les préambules ont été transcrits. Les segments concernés ont été associés au type "DefaultLine:Print".

SegmOnto

L'ontologie SegmOnto a été appliquée de manière simplifée:

MainZone est utilisé pour le texte libre en en-tête de la page.
NumberingZone signale la zone de pagination manuscrite (souvent tracée au crayon)
TableZone signale la zone principale, présentée sous la forme d'un tableau. En revanche, le détail des en-têtes et colonne n'est pas annoté.
MarginTextZone est parfois utilisé pour les annotations en marge des tableaux.

Pour les lignes de texte, comme indiqué ci-dessus, trois types de lignes sont recensés:

DefaultLine:Handwritten pour les inscriptions manuscrites
DefaultLine:Signature pour les paraphes et les signatures, ce qui permet de les ignorer si besoin.
DefaultLine:Print pour les en-têtes du tableau et les lignes imprimées, ce qui permet de les ignorer si besoin.

Les autres dépôts LECTAUREP

➡️ Lectaurep-repertoires

➡️ Lectaurep-bronod

Inria	Archives nationales

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
.github/workflows		.github/workflows
badges		badges
data		data
static/img		static/img
CITATION.cff		CITATION.cff
LICENSE		LICENSE
README.md		README.md
htr-united.yml		htr-united.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

lectaurep-mariages-et-divorces

Contexte de production

Détail des lots

Règles de transcription

SegmOnto

Les autres dépôts LECTAUREP

About

Releases 2

Packages

Contributors 3

License

HTR-United/lectaurep-mariages-et-divorces

Folders and files

Latest commit

History

Repository files navigation

lectaurep-mariages-et-divorces

Contexte de production

Détail des lots

Règles de transcription

SegmOnto

Les autres dépôts LECTAUREP

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 2

Packages 0

Contributors 3

Packages