Numériser OUI mais Comment ?

Clément MORICEAU
17 mai 2023
5 min de lecture

La résolution appropriée pour numériser dépend du type de document ou d'image que vous souhaitez numériser et de l'utilisation prévue des fichiers numérisés.

Voici quelques résolutions couramment utilisées pour différents types de numérisations :

Documents texte : Pour numériser des documents texte standards tels que des lettres, des contrats ou des pages de livres, une résolution de 300 DPI (points par pouce) est généralement suffisante. Cela garantit une bonne qualité de numérisation tout en conservant une taille de fichier relativement petite. Si vous souhaitez réaliser un OCR (reconnaissance des caractères) sur les contenus numérisés, il est important de privilégier cette résolution de 300 DPI.

Photographies : Si vous souhaitez numériser des photographies, une résolution plus élevée est recommandée pour capturer les détails et les nuances de l'image. Une résolution de 600 DPI ou plus peut être utilisée pour obtenir des résultats de haute qualité. Cependant, une résolution plus élevée implique également des fichiers plus volumineux.

Illustrations ou graphiques : Les illustrations ou graphiques comportant des lignes fines ou des détails complexes peuvent nécessiter une résolution supérieure. Une résolution de 600 DPI à 1200 DPI peut être utilisée pour conserver les détails et les contours précis.

Il est important de noter que des résolutions plus élevées entraînent des fichiers plus volumineux, ce qui peut occuper davantage d'espace de stockage.

S'il est recommandé de choisir une résolution adaptée à vos besoins de numérisation il est important de comprendre qu'il peut y avoir plusieurs étapes dans les phases de numérisation.

La numérisation pour l'extraction des données. Il est possible de numériser à 300 DPI pour améliorer les phases de reconnaissance (Capture LAD - RAD / OCR). Pour obtenir de bons résultats avec la reconnaissance optique de caractères (OCR), il est préférable de numériser les documents avec une qualité d'image élevée. Voici quelques recommandations pour la qualité des images lors de la numérisation pour l'OCR :

Résolution : Utilisez une résolution de numérisation suffisamment élevée pour capturer tous les détails du texte. Une résolution de 300 DPI (points par pouce) est généralement considérée comme appropriée pour l'OCR. Cela garantit que les caractères sont suffisamment nets et distincts pour être correctement reconnus.

Contraste : Assurez-vous que le contraste entre le texte et l'arrière-plan de l'image est élevé. Un bon contraste facilite la distinction des caractères et améliore la précision de l'OCR. Évitez les images où le texte est pâle ou flou, car cela peut entraîner des erreurs de reconnaissance.

Formats d'image : Les formats d'image couramment utilisés pour l'OCR sont TIFF et JPEG. Assurez-vous de choisir un format d'image qui préserve la qualité et la netteté du texte. Évitez les formats compressés tels que le JPEG avec une compression excessive, car cela peut entraîner une perte de qualité et des artefacts qui affectent la précision de l'OCR.

Élimination des distorsions : Si le document est plié ou présente des distorsions, essayez de le redresser ou d'appliquer des corrections d'image pour améliorer sa lisibilité. Les distorsions peuvent affecter la reconnaissance des caractères et entraîner des erreurs.

Néanmoins, après cette étape, il est possible de réduire la taille du fichier selon les besoins (partage email, cloud...).

En changeant la résolution de sortie - il est possible après l'OCR d'exporter un document d'une résolution plus faible que la version exploitée pour les étapes de reconnaissance.
En réalisant de la compression sur les formats de type PDF.

Pour le stockage dans une GED - ECM (Gestion électronique de documents) en local ou en cloud, la résolution recommandée peut varier en fonction de différents facteurs, tels que le type de document, l'espace de stockage disponible et les besoins spécifiques de votre organisation. Voici quelques considérations générales :

Documents texte : Pour les documents principalement composés de texte, une résolution de 200 à 300 DPI (points par pouce) est généralement suffisante pour garantir une bonne lisibilité tout en optimisant l'utilisation de l'espace de stockage. Cela vous permettra de conserver des copies électroniques claires et facilement consultables.

Images et illustrations : Si vous stockez des images ou des illustrations de haute qualité, telles que des graphiques, des photographies ou des illustrations détaillées, vous pouvez opter pour une résolution plus élevée, généralement entre 300 et 600 DPI, pour préserver les détails et la qualité visuelle. Cependant, gardez à l'esprit que des résolutions plus élevées entraînent des fichiers plus volumineux, ce qui peut nécessiter plus d'espace de stockage.

Il est également essentiel de prendre en compte les paramètres de compression des images. Utiliser des techniques de compression efficaces, telles que la compression sans perte ou la compression basée sur des algorithmes comme JPEG 2000 ou TIFF, peut réduire la taille des fichiers tout en préservant une bonne qualité visuelle.

Pour conserver des fichiers scannés dans une solution de Gestion Documentaire (GED-ECM), il existe plusieurs formats adaptés. Voici quelques-uns des formats couramment utilisés pour la conservation des fichiers numérisés :

PDF (Portable Document Format) : Le format PDF est largement utilisé pour conserver des documents scannés. Il préserve la mise en page, les polices, les images et les graphiques de manière cohérente, indépendamment du logiciel ou du matériel utilisé pour visualiser le fichier. De plus, le format PDF prend en charge la compression des fichiers, ce qui permet de réduire leur taille tout en conservant une bonne qualité visuelle. Ce format permet de réaliser des recherche en plein texte.

TIFF (Tagged Image File Format) : Le format TIFF est un format d'image largement utilisé pour la conservation des fichiers scannés. Il offre une grande flexibilité en termes de compatibilité avec différents logiciels et systèmes. Le format TIFF prend en charge la compression sans perte, ce qui permet de préserver la qualité des images tout en réduisant l'espace de stockage.

JPEG (Joint Photographic Experts Group) : Le format JPEG est couramment utilisé pour compresser les images, notamment les photographies. Cependant, il est important de noter que le JPEG est un format de compression avec perte, ce qui signifie que des détails peuvent être perdus lors de la compression. Par conséquent, si vous choisissez le format JPEG pour conserver des fichiers scannés, veillez à utiliser une compression minimale pour préserver la qualité visuelle.

Le format PDF est souvent recommandé en raison de sa compatibilité, de sa capacité à préserver la mise en page et de son support pour la compression des fichiers.

Numérisation binaire ou niveaux de gris ?

Le choix entre numériser en niveaux de gris ou en noir et blanc dépend du type de document que vous souhaitez scanner et de l'utilisation prévue des fichiers numérisés. Voici quelques conseils pour vous aider à prendre une décision :

Niveaux de gris : Si vous numérisez des documents qui contiennent des nuances de gris, tels que des photographies, des illustrations ou des documents avec des graphiques, il est préférable d'utiliser le mode niveaux de gris. Le mode niveaux de gris permet de préserver les détails et les nuances de l'image, offrant une meilleure qualité visuelle. Cela est particulièrement important si vous avez besoin de reproduire fidèlement les tons de gris dans le document.

Noir et blanc : Pour les documents composés principalement de texte, tels que des lettres, des contrats ou des factures, le mode noir et blanc est généralement préférable. Le mode noir et blanc produit des images en noir et blanc sans nuances de gris, ce qui permet d'obtenir des fichiers de petite taille tout en conservant une bonne lisibilité du texte. Il est également plus rapide de numériser en noir et blanc par rapport aux niveaux de gris.

Il est important de noter que la numérisation en noir et blanc peut être plus adaptée pour la reconnaissance optique de caractères (OCR), car le texte en noir et blanc est plus clair et plus facilement reconnaissable par les logiciels OCR.

En résumé, utilisez le mode niveaux de gris pour les documents avec des nuances de gris et le mode noir et blanc pour les documents principalement textuels. Si vous êtes indécis retenez qu'il est possible de binariser un document en niveaux de gris mais que l'inverse est plus compliqué.

Numériser OUI mais Comment ?

Posts récents

Commentaires