L'OCR ou Reconnaissance Optique de Caractères est le processus qui consiste à identifier le texte et les autres caractères d'un fichier image et à le convertir en une forme qui soit modifiable par machine ou consultable électroniquement. Également connue sous le nom de reconnaissance de texte, l'OCR est un outil commercial très précieux. Les entreprises l'utilisent pour numériser et archiver des documents importants ; les écoles l'utilisent pour convertir des contenus physiques en contenus numériques ; même les particuliers peuvent utiliser l'OCR pour convertir leurs reçus, factures et autres documents en formats électroniques à des fins diverses telles que la déclaration d'impôts en ligne, etc.
- 1ère Partie. Présentation de l'OCR
- 2èrme Partie. Comment Convertir un PDF Image en PDF Consultable ?
- 3èrme Partie. Comment Savoir si un PDF n'est pas Accessible ( Modifiable ou Consultable) ?
- 4èrme Partie. Quels sont les Avantages de Disposer de PDFs Accessibles ?
- 5èrme Partie. Pourquoi Utiliser PDFelement Pro pour réaliser l'OCR des PDF ?
1ère Partie. Présentation de l'OCR
La Polyvalence de l'OCR
- L'OCR est disponible en plusieurs langues. Par exemple, Wondershare PDFelement Pro prend désormais en charge plus de 20 langues différentes et peut même convertir du texte bilingue ou multilingue en fichiers PDF modifiables et consultables.
- Vous pouvez également choisir la plage de pages que vous souhaitez convertir au cas où vous ne voudriez pas que le document entier soit converti par OCR.
- En outre, vous avez le choix de définir vous-même la langue ou de laisser le logiciel l'identifier (au cas où le texte comporterait plus d'une langue).
Comment Améliorer les Résultats de l'OCR ?
L'OCR n'étant pas toujours précise à 100 % dans toutes les conditions, il est préférable de suivre certaines pratiques générales avant d'effectuer l'OCR d'un fichier PDF qui a été numérisé ou d'un fichier image contenant du texte :
Doit être lisible à l'œil nu - Si vous pouvez lire le document clairement, vous obtiendrez de bien meilleurs résultats d'OCR. Les documents numérisés à partir de papier froissé ou d'images floues donnent de mauvais résultats.
Doit être de moyenne ou haute résolution - Poor resolution text leads to poor OCR results, so make sure the images you use have the right resolution. Vous pouvez utiliser un outil d'extrapolation d'image pour augmenter la résolution ou le dpi afin d'avoir de meilleures chances d'obtenir des résultats d'OCR précis.
Débruiter le document - Si le texte est accompagné d'autres caractères sans signification, il sera plus difficile pour le mécanisme d'OCR de distinguer les caractères réels des formes aléatoires. Utilisez un débruiteur pour réduire le bruit de l'image et augmenter le contraste du texte seul et vous obtiendrez des conversions plus précises.
Un texte horizontal est préférable à un texte incliné - Les mécanismes d'OCR fonctionnent en analysant le document de manière horizontale, de haut en bas. Si le texte est incliné ou penché, il sera plus difficile à convertir. Par conséquent, veillez à redresser le texte avant de le soumettre à l'OCR.
L'OCR avancée ne se limite pas aux caractères.
Les programmes d'OCR simples sont conçus pour fonctionner avec des contenus de texte simples. Cependant, les plus avancés, comme le plugin OCR utilisé dans PDFelement Pro, peuvent identifier les caractères spéciaux, les opérations mathématiques, les formules chimiques et divers autres caractères. La fonctionnalité langue est un excellent exemple de sa souplesse et de sa puissance. Si vous avez un document contenant un mélange de texte, de caractères spéciaux, de formules et d'autres éléments d'information bizarres qui peuvent être convertis en fichiers PDF modifiables ou consultables, PDFelement Pro est la meilleure option pour l'OCR de ce PDF.
2èrme Partie. Comment Convertir un PDF Image en PDF Consultable ?
L'exécution de l'OCR sur un document dans PDFelement est un processus très simple grâce au code intelligent qui sous-tend l'interface utilisateur intuitive du logiciel. Lorsque vous ouvrez un fichier PDF qui a été numérisé à partir d'un document physique ou une image avec du texte qui a été converti en PDF, le logiciel le reconnaît automatiquement et vous demande si vous voulez d'abord télécharger et installer le plugin de l'OCR. Il vous invite ensuite à installer ce plugin et à effectuer l'action d'OCR. Voyons comment procéder, étape par étape :
1. Pour installer manuellement le plugin, accédez à Outils → Reconnaissance de Texte par OCR ou accédez à PDFelement → Préférences → Plugin → Installer.
2. Lorsque vous ouvrez un fichier PDF qui n'est pas modifiable, vous verrez une barre de notification et une invite indiquant "Effectuer l'OCR" au-dessus de l'affichage du document. Cliquez là-dessus.
3. Dans la petite fenêtre pop-up, choisissez la plage de pages à convertir. Les options sont Tout, Pages Impaires, Pages Paires, et Personnaliser, ce qui vous donne la possibilité de choisir exactement ce que vous voulez. Cliquez sur Ok pour continuer.
4. Dans la fenêtre Paramètres de l'OCR, choisissez la langue, la résolution de sous-échantillonnage et indiquez si vous souhaitez que le texte converti soit modifiable ou uniquement consultable.
5. Cliquez sur Effectuer l'OCR et le fichier sera converti et affiché dans le logiciel. Vous pouvez maintenant modifier le fichier ou le consulter, selon l'option choisie à l'étape précédente.
Si vous devez effectuer l'OCR sur plusieurs documents, vous pouvez utiliser le processus d'OCR par lot.
1. Accédez à Outil → Traitement par Lots.
2. Dans la fenêtre Traitement par Lots, choisissez l'onglet OCR dans le panneau latéral gauche.
3. Faites maintenant glisser et déposez vos fichiers ou utilisez le bouton Ajouter des Fichiers en bas pour importer plusieurs documents numérisés.
4. Dans le panneau latéral droit, choisissez les paramètres d'OCR comme décrit précédemment.
5. Cliquez sur Appliquer pour effectuer l'OCR sur tous ces documents.
Une fois que votre ou vos documents ont été convertis, vous pouvez les enregistrer sous un nom de fichier différent pour indiquer s'ils sont modifiables ou consultables. Les fichiers originaux resteront tels quels.
3èrme Partie. Comment Savoir si un PDF n'est pas Accessible ( Modifiable ou Consultable) ?
Lorsque vous ouvrez un fichier PDF dans PDFelement, celui-ci numérise automatiquement le document et le prépare pour l'édition et d'autres tâches. Lorsque cela se produit, il reconnaît généralement le texte numérisé et vous avertit par la notification susmentionnée. Au cas où vous manqueriez cela, vous pouvez facilement savoir si le document est accessible ou non.
1. Essayez de modifier un morceau de texte en cliquant sur Texte dans le panneau latéral gauche et en sélectionnant n'importe quel texte du document. Si vous ne parvenez pas à le sélectionner, cela signifie que le texte n'est pas modifiable.
2. Ensuite, essayez de rechercher du contenu texte que vous pouvez voir dans le document en utilisant la commande Cmd+F.
3. Ensuite, essayez d'utiliser la fonction d'édition d'image en cliquant sur Image à gauche et en sélectionnant une image.
Si vous n'êtes pas en mesure d'effectuer l'une des actions ci-dessus, cela signifie que le fichier PDF n'est pas lisible, modifiable ou consultable.
4èrme Partie. Quels sont les Avantages de Disposer de PDFs Accessibles ?
Nous savons tous que l'OCR est important. Mais pourquoi est-ce le cas ? Pourquoi ne pouvons-nous pas laisser les PDF contenant des images et les PDF scannés tels quels ? Pour plusieurs raisons :
- Ces fichiers ne sont pas faciles à consulter pour trouver un contenu spécifique, ce qui devient un problème lorsque les fichiers sont très volumineux.
- Ils ne peuvent pas être convertis dans d'autres formats modifiables tels que Word, Excel, etc.
- Il est évident qu'ils ne peuvent être modifiés d'aucune manière, de sorte que si les informations qu'ils contiennent deviennent obsolètes et non pertinentes, le fichier lui-même devient inutile, à moins qu'il n'existe un moyen de mettre à jour les informations.
- Les images ne peuvent pas être extraites individuellement d'un tel fichier, à moins que vous n'utilisiez une solution de contournement comme les captures d'écran. Si vous êtes un concepteur, vous savez que ce n'est pas la façon idéale de travailler.
De même, il existe plusieurs autres raisons pour lesquelles l'OCR est un élément essentiel des processus de traitement des documents. Les PDF accessibles sont plus faciles à archiver, à consulter, à modifier, à convertir et à manier pour effectuer diverses autres tâches liées aux PDF qui ne peuvent être réalisées sur un fichier non lisible.
5èrme Partie. Pourquoi Utiliser PDFelement Pro pour réaliser l'OCR des PDF ?
PDFelement Pro utilise le puissant et précis ABBYY® FineReader® Engine 11 pour convertir des fichiers image en PDF modifiables. Ce programme d'OCR est l'une des applications les mieux notées de cette catégorie et est réputé pour sa précision, sa rapidité et sa capacité à traiter de grandes quantités de données (traitement par lots) en peu de temps.
En outre, PDFelement lui-même offre une interface supérieure permettant d'interagir avec ces fichiers avant et après la conversion. Avant de les convertir avec l'OCR, ils peuvent être organisés en supprimant ou en ajoutant des pages, en fusionnant des fichiers, en supprimant les filigranes, etc. Une fois qu'ils sont convertis avec l'OCR, PDFelement vous permet d'effectuer une foule d'autres opérations telles que la conversion, la protection, le remplissage de formulaires, la signature électronique, l'optimisation de la taille des fichiers et plusieurs autres tâches importantes comme celles-ci.
Par-dessus tout, PDFelement Pro est l'une des solutions PDF les plus abordables du marché avec une gamme aussi impressionnante de riches fonctionnalités, une interface utilisateur intuitive, une navigation pratique, des processus utiles et une courbe d'apprentissage pratiquement nulle.
Foire Aux Questions (FAQ)
L'OCR peut-elle convertir du texte manuscrit ?
Oui, tant que l'écriture est lisible et claire (non altérée) et que le papier n'est pas froissé ou plissé avant d'être numérisé, l'OCR peut lire du texte manuscrit assez bien. Bien sûr, ce ne sera pas aussi précis que d'effectuer une OCR sur un texte imprimé, mais c'est tout à fait possible dans une certaine mesure.
Puis-je créer un PDF éditable directement à partir d'un scanner ?
Oui, PDFelement dispose d'une option Fichier → Nouveau → PDF à partir du scanner dans le menu que vous pouvez utiliser pour cette fonction. Il vous suffit de brancher votre scanner sur le même ordinateur que celui qui exécute PDFelement Pro, d'utiliser cet élément de menu pour déclencher le processus et de suivre les étapes indiquées. Vous pouvez rendre le document numérisé modifiable ou consultable.
L'OCR est-elle payante avec PDFelement Pro ?
Non, le plugin OCR est inclus dans PDFelement Pro. Cependant, il doit être téléchargé et installé séparément comme indiqué ci-dessus. Cela est dû au fait que sa taille est très importante, ce qui affecterai le temps de téléchargement et d'installation de PDFelement lui-même s'il était inclus dans le fichier d'installation.
Clara Durand
chief Éditeur