Tips & Tricks

Comment rendre un PDF consultable

Un PDF consultable est un fichier dans lequel le texte est stocké sous forme de caractères réels dans le fichier plutôt que sous forme d'image. Lorsque vous appuyez sur Ctrl+F et tapez un mot, le spectateur peut le trouver. Lorsque vous sélectionnez du texte et que vous le copiez, les vrais caractères sont copiés. Pour les PDF créés numériquement, cela est automatique. Pour les PDF numérisés, vous avez besoin de l'OCR pour ajouter le calque de texte.

How to Make a PDF Searchable

Comment savoir si un PDF est déjà consultable

Ouvrez le PDF et essayez de sélectionner un mot en cliquant et en faisant glisser. Si des mots individuels sont mis en surbrillance et que vous pouvez les copier, le PDF possède déjà un calque de texte — il est consultable. Si un clic dessine une sélection rectangulaire sur toute la zone plutôt que de sélectionner des mots spécifiques, la page est stockée sous forme d'image sans calque de texte. C'est à ce moment-là que vous avez besoin d'OCR.

WukongPDF

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →

Exécution de l'OCR pour ajouter un calque de texte

L'outil OCR PDF de WukongPDF traite les PDF numérisés dans le navigateur et renvoie une version dans laquelle le texte est reconnu et intégré à côté de l'image numérisée d'origine. La page semble identique – même apparence visuelle, même qualité de numérisation – mais Ctrl+F trouve désormais les mots et le texte peut être sélectionné et copié. Téléchargez le PDF numérisé, exécutez l'OCR et téléchargez la version consultable.

Adobe Acrobat Pro dispose également d'un moteur OCR robuste sous Outils → Numériser et amp; OCR → Reconnaître le texte. Sa précision sur les numérisations difficiles (texte estompé, polices inhabituelles, écritures non latines) est généralement meilleure que celle des outils de navigation, bien que pour le texte imprimé standard, la différence soit faible. Si vous traitez de gros volumes de documents pour lesquels la précision est importante, l'OCR d'Acrobat vaut l'investissement.

Précision OCR et prise en charge linguistique

La précision de l'OCR dépend fortement de la qualité de la numérisation. Une numérisation nette et contrastée d'un document imprimé professionnellement à 200 DPI ou plus est généralement convertie avec une précision des caractères de 98 à 99 %, essentiellement sans erreur à des fins pratiques. Une photocopie décolorée, une numérisation prise sous un angle ou un document comportant des annotations manuscrites comporteront davantage d'erreurs nécessitant une correction manuelle.

La plupart des outils OCR détectent automatiquement la langue du document et utilisent des modèles spécifiques à la langue pour améliorer la précision. Si un document ne reconnaît systématiquement pas certains caractères, vérifiez si la langue est détectée correctement : forcer la langue correcte dans les paramètres OCR fait souvent une différence notable, en particulier pour les documents comportant des caractères accentués ou des écritures non latines.

Rendre un PDF consultable pour un archivage à long terme

Les organisations qui numérisent leurs archives papier font souvent de la possibilité de recherche leur objectif principal : la possibilité de retrouver un document ou une clause spécifique dans des milliers de fichiers des années plus tard. Pour ce cas d'utilisation, la sortie OCR doit être enregistrée dans un format conçu pour une conservation à long terme. PDF/A-3 prend en charge les calques de texte intégrés à côté de l'image de la page et constitue la norme d'archivage spécialement conçue pour les archives de documents consultables. L'exécution de l'OCR, puis la conversion en PDF. La compression avec les paramètres d'archivage garantit à la fois la possibilité de recherche et la stabilité du format à long terme.

Même une OCR imparfaite est bien meilleure que l’absence d’OCR à des fins d’archivage. Un document avec une précision de caractère de 95 % peut toujours être recherché : une recherche de « facture » ​​est toujours possible. retrouvera la plupart des factures même si quelques caractères de certains mots ont été mal lus. Une OCR parfaite est idéale ; L'OCR fonctionnel est toujours bien plus utile qu'une numérisation sans aucune couche de texte.

WukongPDF

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →