top of page

Fichiers de données et Documents après vos numérisation.

Une fois la numérisation opérée, il est possible d'extraire et de transformer vos documents & données dans les formats les plus adaptés. 

Pour les documents : 

JPEG (Joint Photographic Experts Group) : Ce format utilise une compression avec perte, ce qui signifie qu'il peut réduire considérablement la taille du fichier en sacrifiant une certaine qualité d'image. Il est souvent utilisé pour les photographies et les images couleur à haute résolution.

JPEG2000 : le format JPEG 2000 est une norme de compression d'image introduite par le Joint Photographic Experts Group (JPEG), le même groupe qui a créé le format JPEG original. Contrairement au format JPEG traditionnel, JPEG 2000 offre plusieurs améliorations significatives en termes de qualité d'image et de compression.  Compression avec perte et sans perte : Comme le JPEG original, JPEG 2000 prend en charge à la fois la compression avec perte et sans perte. Cela signifie qu'il peut être utilisé pour comprimer les images de manière à réduire la taille du fichier avec une perte minimale de qualité, ou pour préserver complètement la qualité de l'image sans aucune perte de données. Qualité d'image améliorée : JPEG 2000 utilise une technologie de compression plus avancée que le JPEG traditionnel, ce qui permet généralement d'obtenir une meilleure qualité d'image pour une même taille de fichier. Il offre une meilleure gestion des artefacts de compression tels que les blocs et les artéfacts de contour, ce qui conduit à des images plus nettes et plus précises, en particulier à des niveaux de compression élevés. Capacité de compression progressive : JPEG 2000 prend en charge la compression progressive, ce qui signifie que les images peuvent être affichées à différentes résolutions et qualités pendant le processus de transmission. Cela permet une visualisation rapide de l'image à une résolution plus basse, suivie d'une amélioration progressive de la qualité à mesure que davantage de données sont reçues. Support pour les images à plusieurs composantes : Contrairement au format JPEG original qui prend en charge uniquement les images RVB (rouge, vert, bleu), JPEG 2000 peut également gérer des images à plusieurs composantes telles que les images en niveaux de gris, les images à trois bandes (par exemple, RVB), ainsi que les images hyperspectrales et à couleurs multiples.

TIFF (Tagged Image File Format) : Ce format est largement utilisé pour la numérisation de documents en raison de sa capacité à stocker des images de haute qualité sans perte de données. Il prend en charge diverses options de compression, y compris la compression sans perte, ce qui en fait un choix populaire pour les applications de numérisation professionnelle.

PDF (Portable Document Format) : Bien que le PDF soit principalement utilisé pour stocker des documents textuels, il peut également inclure des images. Il offre des options pour incorporer des images compressées dans un fichier PDF, ce qui en fait un format polyvalent pour la numérisation de documents mixtes contenant à la fois du texte et des images. L'accessibilité du texte grâce à l'OCR permet de rendre le format totalement exploitable (modification, recherche...).

PNG (Portable Network Graphics) : Ce format est souvent utilisé pour les images en ligne en raison de sa compression sans perte et de sa prise en charge de la transparence. Bien qu'il ne soit pas aussi couramment utilisé que le JPEG ou le TIFF pour la numérisation de documents, il peut être utilisé dans certaines applications spécifiques.

BMP (Bitmap) : Ce format est simple et largement pris en charge, mais il génère généralement des fichiers plus volumineux par rapport à d'autres formats. Il est moins couramment utilisé pour la numérisation de documents en raison de sa taille de fichier plus importante.

Format HTML5 :  HTML5 (HyperText Markup Language version 5) est la dernière révision majeure du langage de balisage HTML utilisé pour structurer le contenu et les éléments d'une page web. Il représente une évolution significative par rapport aux versions précédentes (comme HTML 4.01) en introduisant de nouvelles fonctionnalités et améliorations pour le développement web moderne. Voici quelques-unes des caractéristiques principales de HTML5 :

Support multimédia amélioré : HTML5 intègre nativement la prise en charge de l'audio et de la vidéo, ce qui permet d'inclure des fichiers audio et vidéo directement dans les pages web sans avoir besoin de plugins tiers comme Flash.

Canvas et WebGL : HTML5 introduit l'élément canvas, qui permet de dessiner des graphiques, des animations et des jeux directement dans la page web en utilisant des scripts JavaScript. De plus, WebGL, une API basée sur OpenGL, permet d'afficher des graphiques 3D interactifs dans les navigateurs web compatibles.

Sémantique renforcée : HTML5 introduit de nouvelles balises sémantiques comme <header>, <footer>, <nav>, <article>, <section>, <aside>, etc., ce qui facilite la structuration et l'organisation du contenu de la page web. Cela améliore également l'accessibilité et le référencement des pages web pour les moteurs de recherche.

Formulaires améliorés : HTML5 propose de nouveaux types d'éléments de formulaire, tels que <input type="date">, <input type="email">, <input type="url">, <input type="number">, etc., ainsi que de nouvelles fonctionnalités comme la validation de formulaire côté client, qui simplifient la création de formulaires interactifs et améliorent l'expérience utilisateur.

Stockage local : HTML5 introduit des API de stockage local, notamment localStorage et sessionStorage, qui permettent aux applications web de stocker des données localement sur l'appareil de l'utilisateur, ce qui améliore les performances et la réactivité des applications web.

Support pour les technologies mobiles : HTML5 offre une meilleure prise en charge des appareils mobiles, notamment à travers des fonctionnalités telles que le support de géolocalisation, la prise en charge des événements tactiles, et des fonctionnalités d'optimisation pour les appareils mobiles.

Format Epub : Le format EPUB (Electronic Publication) est un format de fichier standard pour les livres électroniques, largement utilisé dans l'industrie de l'édition numérique. Voici quelques caractéristiques clés du format EPUB :

Format ouvert et standardisé : Le format EPUB est un format ouvert et standardisé par l'International Digital Publishing Forum (IDPF), maintenant fusionné avec le World Wide Web Consortium (W3C). Cela signifie qu'il est largement pris en charge par différents lecteurs et appareils de lecture de livres électroniques.

Basé sur HTML et CSS : Les fichiers EPUB sont essentiellement des archives ZIP contenant des fichiers HTML, CSS, images et autres ressources nécessaires à la mise en page et à la présentation du livre. Cela permet une mise en forme flexible et des mises en page dynamiques, similaires à celles d'une page web.

Adaptabilité à différents appareils : Les livres EPUB sont conçus pour être adaptables à différents appareils de lecture, tels que les liseuses électroniques, les tablettes, les smartphones et les ordinateurs. Les utilisateurs peuvent ajuster la taille de la police, les marges et d'autres paramètres de lecture en fonction de leurs préférences et de leurs appareils.

Prise en charge de fonctionnalités avancées : Le format EPUB prend en charge diverses fonctionnalités avancées telles que les annotations, les signets, les hyperliens, les images, les tableaux, les notes de bas de page, les formules mathématiques, les vidéos (dans les versions plus récentes), et d'autres éléments interactifs.

DRM (Digital Rights Management) : Bien que le format EPUB lui-même soit ouvert, il prend en charge la gestion des droits numériques (DRM) pour protéger les droits d'auteur et restreindre la redistribution non autorisée des livres électroniques.

Conversion depuis d'autres formats : Il est possible de convertir des livres électroniques à partir d'autres formats (comme PDF) en EPUB à l'aide de logiciels de conversion disponibles en ligne ou en tant qu'applications de bureau.

Pour les données : 

Alto XML : Un fichier Alto XML est un format de fichier utilisé principalement dans le domaine de la numérisation et de la transcription de documents textuels, en particulier dans le domaine de la bibliothéconomie et de la gestion des archives. Alto (Analyzed Layout and Text Object) est un format XML normalisé par la Library of Congress (LoC) et la Bibliothèque nationale d'Allemagne pour représenter les données extraites à partir de documents numérisés. Il est conçu pour représenter de manière structurée les informations sur la mise en page et le contenu textuel des documents, ce qui facilite la recherche, la manipulation et l'analyse automatisée de ces documents. Un fichier Alto XML contient des balises qui décrivent la disposition spatiale du texte sur une page, y compris des informations sur les blocs de texte, les lignes, les mots et les caractères. Il peut également inclure des métadonnées sur le document, telles que le titre, l'auteur, la date de publication, etc. Ce format est largement utilisé dans les projets de numérisation de bibliothèques et d'archives pour stocker et échanger des données textuelles numérisées de manière normalisée et interopérable.

Format CSV & XLSX :  Les formats CSV (Comma-Separated Values) et XLSX (Excel Open XML Spreadsheet) sont deux formats de fichiers couramment utilisés pour stocker des données tabulaires, mais ils présentent des différences significatives :

Structure du fichier :

CSV : Un fichier CSV est un fichier texte brut où les données sont organisées sous forme de tableau, avec les valeurs séparées par des virgules (ou d'autres délimiteurs, comme des points-virgules ou des tabulations). Il ne prend pas en charge la mise en forme, les formules ou les feuilles de calcul multiples.
XLSX : Un fichier XLSX est un fichier binaire basé sur XML utilisé par Microsoft Excel. Il peut contenir plusieurs feuilles de calcul, des formules, des graphiques, des mises en forme de cellules avancées, des images, etc. Il conserve la structure des données, ainsi que des métadonnées supplémentaires telles que les formats de cellules et les macros.


Compatibilité logicielle :

CSV : Étant un format de texte brut universel, les fichiers CSV peuvent être ouverts et lus par une grande variété de logiciels, y compris les éditeurs de texte simples et les applications de feuilles de calcul.
XLSX : Les fichiers XLSX sont spécifiquement conçus pour être utilisés avec Microsoft Excel et nécessitent généralement un logiciel compatible, tel que Microsoft Excel, LibreOffice Calc, Google Sheets, etc.


Taille du fichier :

CSV : Les fichiers CSV tendent à être plus compacts que les fichiers XLSX, car ils sont stockés sous forme de texte brut et ne contiennent généralement pas d'informations de mise en forme supplémentaires.
XLSX : Les fichiers XLSX peuvent être plus volumineux que les fichiers CSV en raison de leur structure binaire et de la possibilité d'inclure des fonctionnalités avancées telles que des formules, des graphiques et des images.


Traitement des données :

CSV : Les fichiers CSV sont plus simples à traiter et à manipuler programmation car ils sont basés sur du texte brut et ne nécessitent aucun logiciel spécialisé pour les lire.
XLSX : Les fichiers XLSX peuvent être plus complexes à manipuler en programmation en raison de leur structure binaire et de la nécessité d'utiliser des bibliothèques ou des API spécifiques pour lire et écrire des données.

Format XML : XML, ou eXtensible Markup Language, est un langage de balisage utilisé pour stocker et échanger des données de manière lisible par les humains et les machines. Il a été conçu pour être extensible et adaptable à une grande variété de besoins de représentation de données. Voici quelques caractéristiques clés du format XML :

Structuration des données : XML permet de structurer les données en utilisant des balises définies par l'utilisateur. Les balises sont utilisées pour marquer les éléments et les attributs des données, ce qui permet de les organiser de manière hiérarchique.

Lisibilité humaine : Les documents XML sont généralement écrits dans un format lisible par les humains, ce qui facilite la compréhension et la modification manuelle des données sans avoir besoin d'outils spécialisés.

Extensibilité : XML est extensible, ce qui signifie que les utilisateurs peuvent définir leurs propres balises et structures de données pour répondre à leurs besoins spécifiques. Cela le rend adapté à une grande variété d'applications et de domaines d'utilisation.

Interopérabilité : XML est largement utilisé dans les systèmes informatiques pour échanger des données entre différentes applications et plateformes. Sa structure simple et son format texte le rendent facilement lisible et interprétable par les systèmes informatiques, ce qui favorise l'interopérabilité des données.

Support pour les métadonnées : XML est souvent utilisé pour stocker des métadonnées associées à des documents ou des éléments de données. Les balises peuvent être utilisées pour décrire des informations telles que le titre, l'auteur, la date, etc.

Traitement avec des langages spécifiques : XML est souvent utilisé en conjonction avec d'autres langages de programmation, tels que XPath, XSLT, et XML Schema, qui fournissent des fonctionnalités pour rechercher, transformer et valider des documents XML.

bottom of page