top of page

OCR & production de fichiers XML-ALTO des documents numérisés pour le Département de la Vendée

Le Département de la Vendée a lancé divers programmes concourant à la constitution d'une bibliothèque numérique à partir des collections imprimées des Archives départementales et d'institutions partenaires. ADOC Solutions réalise l'OCR et la production de fichiers XML-ALTO des documents numérisés pour le Département de la Vendée.



Ces programmes s'appuient notamment sur des marchés de dématérialisation des collections de presse et de périodiques principalement, des Archives départementales.

En plus de la numérisation proprement dite des documents, un certain nombre d'autres prestations de dématérialisation sont demandées, dont la reconnaissance et la conversion des contenus textuels des documents numérisés.


La mise en place de ce procédé implique la conversion en mode texte de l'intégralité du contenu des pages afin de permettre la recherche plein texte, puis l'affichage des images du document correspondant, avec possibilité d'accéder aux données en mode texte pour faire des sélections, des copies, des impressions.


Cette conversion en mode texte s'appuie principalement sur des techniques de reconnaissance optique de caractères (OCR, Optical Character Recognition).


Les fichiers ainsi produits doivent être compatibles avec les outils de diffusion des Archives départementales (site internet) et, pour cela, respectent les spécifications du format XML ALTO.


Un fichier Alto XML est un format de fichier utilisé principalement dans le domaine de la numérisation et de la transcription de documents textuels, en particulier dans le domaine de la bibliothéconomie et de la gestion des archives.



Alto (Analyzed Layout and Text Object) est un format XML normalisé par la Library of Congress (LoC) et la Bibliothèque nationale d'Allemagne pour représenter les données extraites à partir de documents numérisés. Il est conçu pour représenter de manière structurée les informations sur la mise en page et le contenu textuel des documents, ce qui facilite la recherche, la manipulation et l'analyse automatisée de ces documents.


Un fichier Alto XML contient des balises qui décrivent la disposition spatiale du texte sur une page, y compris des informations sur les blocs de texte, les lignes, les mots et les caractères. Il peut également inclure des métadonnées sur le document, telles que le titre, l'auteur, la date de publication, etc. Ce format est largement utilisé dans les projets de numérisation de bibliothèques et d'archives pour stocker et échanger des données textuelles numérisées de manière normalisée et interopérable.


ADOC Solutions remercie le Département de la Vendée pour sa confiance, dans le traitement de ses données.


117 vues0 commentaire

Posts récents

Voir tout

Comments


bottom of page