L'OCR ou reconnaissance optique de caractères est un processus informatique qui convertit les caractères d'une image en texte éditable ou consultable. Il est généralement utilisé pour les fichiers PDF qui ont été générés par un scanner, ou même pour les fichiers image contenant du texte. L'OCR est très utile pour convertir des documents physiques ou des fichiers numériques non éditables en PDF que vous pouvez utiliser à l'aide d'un éditeur ou d'un lecteur de PDF. Quelques cas d'utilisation typiques de l'OCR :
- Conversion des factures papier au format numérique
- Numérisation et conversion de formulaires remplis à la main
- Transformer le contenu d'un état non interactif à un état interactif, comme la conversion d'un livre en livre électronique
Quel que soit le scénario, n'oublions pas que l'aspect le plus important du choix d'un outil d'OCR est le niveau de précision. Pour cela, nous recommandons PDFelement, qui est disponible pour les systèmes Windows et Mac et affiche l'un des taux de précision d'OCR les plus élevés du secteur. En outre, il vous permet de convertir du texte basé sur des images dans un format consultable ou modifiable, selon l'objectif de la conversion.
Partie 1. Comment effectuer la reconnaissance optique de caractères d'un document ou d'une image dans PDFelement
Exécuter l'OCR sur un document est littéralement un jeu d'enfant car PDFelement vous indique exactement ce qu'il faut faire. Dès que vous ouvrez un fichier PDF non éditable ou que vous utilisez la fonction Créer un PDF pour convertir une image en PDF, il le reconnaît et vous invite à installer le plugin OCR et à effectuer l'OCR. Voici ce que vous verrez sur votre écran :
1. Pour les fichiers image, utilisez le bouton Créer PDF sur la page d'accueil pour ajouter vos JPG, PNG, etc., et cliquez sur Créer pour les convertir en PDF et les ouvrir dans PDFelement. Pour les PDF non éditables, il suffit d'utiliser l'option Ouvrir les fichiers pour récupérer le fichier à partir de son emplacement dans le dossier.
2. Dès que le fichier est ouvert, vous verrez apparaître dans la barre de notification, au-dessus du document, une invite intitulée Exécuter l'OCR. En cliquant sur ce bouton, vous serez invité à télécharger et à installer le plugin OCR. Faites-le maintenant.
3. Après l'installation, vous êtes prêt à OCR le fichier PDF. Cliquez sur le bouton de notification pour effectuer l'OCR. Cette fois, vous verrez une autre fenêtre avec deux sections d'options - dans la section Options de numérisation, choisissez entre éditable et consultable ; dans la section Plage de pages, sélectionnez Tout, Actuel ou spécifiez la plage de numéros de pages à convertir. Enfin, sélectionnez la langue source et cliquez sur Appliquer.
4. Votre fichier va maintenant être converti en fonction de vos paramètres.
Partie 2. Comment exporter le document converti par OCR
Maintenant que le fichier est lisible ou consultable, vous pouvez le modifier, extraire du texte et effectuer plusieurs autres actions. Mais comment l'exporter ? C'est ce dont il est question dans cette section.
1. Puisqu'il s'agit maintenant d'un fichier PDF, il n'est pas nécessaire de procéder à une autre conversion. Vous pouvez exporter le fichier en allant dans Fichier → Enregistrer sous. Nous utilisons cette option afin de conserver le PDF original basé sur l'image et d'utiliser un autre nom pour le fichier converti.
2. Si vous devez le partager directement par e-mail ou le télécharger sur un service de stockage en nuage, vous pouvez utiliser l'icône Partager en haut ou utiliser Fichier → Partager pour accéder à la fonctionnalité. Cela déclenchera votre client de messagerie par défaut ou votre navigateur. Vous pouvez remplir le reste des champs de l'e-mail ou vous connecter à votre compte de service de stockage en cloud et y stocker le fichier PDF.
3. Une autre façon d'exporter un PDF OCR est de l'imprimer. Utilisez l'option Fichier → Imprimer pour cela.
Vous pouvez maintenant suivre ces deux processus pour tout fichier PDF ou fichier image contenant du texte. Mais comment traiter plusieurs fichiers à la fois ? PDFelement Pro vous permet également de le faire, comme expliqué dans la section suivante.
Partie 3. Comment faire l'OCR de plusieurs documents en masse
PDFelement Pro offre également une fonction de traitement par lots pour l'OCR et de nombreuses autres fonctions. Pour utiliser cette fonction, suivez les étapes indiquées ici.
1. Dans l'onglet Outil, vous verrez que l'option Traitement par lots figure dans la barre d'outils du ruban. Cliquez sur ce bouton pour ouvrir la fenêtre de dialogue Traitement par lots.
2. Sur la gauche, vous verrez différentes options comme Convertir, Créer et Optimiser. Cliquez sur OCR dans le panneau latéral.
3. Vous pouvez glisser et déposer les fichiers dans cette fenêtre ou utiliser le bouton Ajouter des fichiers en haut à droite.
4. Une fois vos fichiers importés, vous pouvez choisir la langue, la plage de pages et d'autres paramètres comme la possibilité de recherche ou d'édition. Cliquez sur Appliquer lorsque vous avez terminé et tous les fichiers seront convertis selon les paramètres que vous avez spécifiés.
Grâce à ce processus, vous pouvez convertir des centaines de fichiers avec l'OCR en un rien de temps, ce qui vous permet de numériser rapidement vos flux de travail documentaires.
Partie 4. Comment modifier des documents numérisés avec l'OCR
Une fois que l'OCR a été effectuée et que le fichier est éditable, vous pouvez le modifier comme n'importe quel autre fichier PDF lisible par machine. Cela signifie que vous pouvez contrôler chaque élément du fichier, qu'il s'agisse de texte, d'images, de liens hypertextes, d'objets intégrés, de filigranes, d'en-têtes et de pieds de page, etc. Voici la procédure à suivre pour modifier un document numérisé après l'OCR.
1. En supposant que vous avez déjà effectué l'OCR, vous pouvez maintenant cliquer sur l'onglet Modifier en haut.
2. Cela affichera les différents outils d'édition pour les divers composants. Par exemple, si vous voulez modifier un morceau de texte, cliquez sur l'icône Texte. Vous pouvez également éditer le texte en mode ligne ou paragraphe.
3. Une fois que vous êtes en mode d'édition de texte, vous pouvez sélectionner n'importe quel mot, expression, phrase ou paragraphe du document et le supprimer, le compléter ou le modifier.
4. Pour modifier les images, il suffit de cliquer sur l'icône de l'image et de la sélectionner. Vous aurez la possibilité de remplacer, de faire pivoter, de repositionner, etc.
5. De même, il est possible d'ajouter ou de modifier des liens, des filigranes, des arrière-plans, et bien plus encore.
Pourquoi PDFelement ?
Pour conclure, essayons de répondre à cette question très importante. La raison en est que vous utilisez peut-être un autre éditeur de PDF doté d'une fonctionnalité d'OCR, mais celle-ci n'est peut-être pas précise ou est hors de votre budget. Voici quelques-unes des raisons d'envisager de passer à PDFelement :
- Précision - OCR de haute précision dans plus de 20 langues, avec prise en charge de l'OCR multilingue.
- Rapide - Les vitesses de conversion sont parmi les meilleures du secteur.
- Intuitif - PDFelement ne présente aucune courbe d'apprentissage pour les nouveaux utilisateurs, ce qui facilite le passage d'un système à l'autre.
- Complet - Presque toutes les fonctionnalités des éditeurs de PDF les plus célèbres au monde se trouvent dans PDFelement.
- Mise à jour - PDFelement fait l'objet de mises à jour constantes, mineures et majeures, qui lui permettent d'atteindre de nouveaux critères de performance et d'expérience utilisateur.
Enfin, nous allons essayer de répondre à certaines questions que vous vous posez peut-être sur l'OCR et les sujets connexes.
Foire aux questions
L'OCR est-il précis à 100% ?
Aucun outil d'OCR n'est précis à 100% avec tous les types de contenu textuel. Par exemple, si le texte est écrit à la main de façon à peine lisible, il est très difficile de le lire avec les yeux, sans parler de l'OCR. Cependant, avec un texte imprimé, l'OCR est aussi précis que possible. En tant que tel, il est extrêmement utile pour convertir des fichiers numérisés contenant du texte imprimé ou dactylographié et d'autres caractères.
Puis-je utiliser l'OCR pour les notes manuscrites ?
Comme nous l'avons mentionné, l'écriture doit être clairement lisible pour que l'OCR puisse fonctionner correctement. L'écriture cursive est la plus difficile à convertir, mais le niveau de précision est beaucoup plus élevé si l'écriture est en caractères d'imprimerie. N'oubliez pas que plus l'écriture est claire et lisible à l'œil nu, plus l'OCR sera précis.
Puis-je numériser directement un document pour en faire un PDF éditable ?
Oui, PDFelement offre cette fonctionnalité. Pour l'utiliser, vous pouvez cliquer sur Fichier → Créer → À partir du scanner. Cela ouvre la boîte de dialogue des paramètres de numérisation où vous verrez un bouton Numériser. Cliquez sur ce bouton et le scanner numérisera le document, après quoi PDFelement l'importera et le convertira à l'aide du plugin OCR.
Clara Durand
chief Éditeur