La conversion d'un PDF en texte brut est généralement nécessaire lorsque vous souhaitez en modifier le contenu à l'aide d'un éditeur de texte comme Notepad ou Apple Notes. Ainsi, le formatage est supprimé et le contenu n'est qu'un simple texte. Ce texte simple, également connu sous le nom de texte brut, est un type de format de fichier léger qui n'autorise pas les éléments de style tels que les types de police, les couleurs, etc. Cet article présente trois méthodes pour convertir des PDF en documents de texte brut.
Outil n°1 - Comment convertir un PDF en texte brut avec PDFelement
PDFelement est un outil de gestion PDF polyvalent doté de fonctions de conversion puissantes, rapides et précises. Vous pouvez choisir le format HTML comme fichier de sortie, ainsi que les fichiers Office, et plusieurs autres formats. L'option "En texte" permet également d'extraire toutes les données textuelles d'un PDF ou d'effectuer une reconnaissance optique de caractères si les documents ont été scannés ou photographiés. La version Pro propose un plugin OCR que vous pouvez activer pour convertir les PDF numérisés en texte consultable, lisible et modifiable.
En outre, vous pouvez utiliser PDFelement pour éditer des PDF, les annoter, les sécuriser avec un cryptage par mot de passe, les signer électroniquement, créer des formulaires PDF, les éditer et les remplir, et même convertir des formulaires non interactifs en formulaires entièrement remplissables et interactifs.
Voici comment convertir un PDF en HTML :
- Étape 1. Vous pouvez glisser-déposer un document PDF directement sur l'icône de PDFelement ou sur l'interface s'il est ouvert. Vous pouvez également utiliser l'option "Ouvrir des fichiers" de la page d'accueil ou le chemin "Fichier → Ouvrir" à partir du logiciel.
- Étape 2. Cliquez sur l'onglet "Convertir" en haut et sur le bouton "En Text" dans la barre d'outils. Vous verrez également une option "Convertir PDF" sur la page d'accueil, qui est là pour des raisons de praticité. L'une ou l'autre de ces options ouvrira une boîte de dialogue pour les paramètres de conversion. Si les données ne sont pas éditables, le logiciel vous invitera à "Exécuter l'OCR" avant de pouvoir extraire le texte. À ce stade, vous pouvez également choisir de convertir le PDF en HTML ou dans tout autre format de votre choix.
- Étape 3. Confirmez les paramètres et attendez que votre fichier de sortie soit généré. Comme avec Nitro, PDFelement n'affecte en aucune façon le fichier PDF d'origine.
PDFelement est connu pour être plus rapide et plus fiable pour convertir des types de fichiers disparates de PDF en leurs formats d'origine. Il permet également de définir plusieurs paramètres spécifiques avant la conversion, ce qui vous donne plus de liberté par rapport à la plupart des autres éditeurs de PDF.
Outil n°2 - Comment convertir un PDF en texte brut avec Nitro Pro
Nitro Pro est l'une des applications Windows les plus populaires pour la gestion des PDF. Il inclut des outils pour éditer, annoter, convertir et effectuer d'autres tâches sur les documents PDF. Il vous permettra d'extraire facilement les données textuelles d'un fichier PDF et de les restituer en texte brut. Voici les étapes que vous devez suivre pour ce faire :
- 1. Importez le fichier PDF dans Nitro Pro à l'aide du menu "Fichier → Ouvrir".
- 2. Regardez dans le panneau "Convertir" de l'onglet Accueil et sélectionnez "Texte brut" sous "En autre".
- 3. Comme votre PDF est déjà ouvert, le moteur de conversion le gardera prêt à être converti dans la boîte de dialogue sur votre écran ; vous pouvez changer le fichier et choisir d'autres PDF avec le bouton "Ajouter des fichiers".
- 4. Toujours dans la boîte de dialogue, allez à la page "Options" de la section "Sortie", où vous pourrez modifier plusieurs attributs et appliquer certaines règles d'extraction.
- 5. Cliquez sur le bouton "Convertir" lorsque vous êtes prêt et attendez que les fichiers soient enregistrés dans leur dossier cible. Vous verrez que vos PDF d'origine sont exactement comme ils étaient avant, mais qu'il y a maintenant un ensemble de fichiers de texte brut contenant uniquement le contenu textuel des PDF.
Note : Si le PDF contient du texte basé sur des images, comme une brochure photographiée, il activera la fonction OCR, qui convertira le texte photographié ou scanné en texte lisible et modifiable dans la sortie finale.
Outil n°3 - Comment convertir gratuitement des PDF en texte brut en ligne
Une option gratuite pour convertir vos PDF en fichiers de texte brut est d'utiliser un éditeur de PDF en ligne tel que hipdf. Le service est gratuit, et si vous disposez d'une connexion avec un accès Internet à haut débit, cela peut être une meilleure option que de télécharger une application pour convertir vos fichiers PDF. C'est notamment intéressant si vous n'effectuez pas ce genre de tâches très souvent. Voici les étapes à suivre :
- 1. Allez sur la page d'accueil de hipdf et cliquez sur "Tous les outils" dans l'en-tête et choisissez "PDF vers HTML" ou une autre option selon votre préférence.
- 2. Vous pouvez désormais ouvrir vos fichiers à partir d'un compte Drive ou Dropbox, utiliser le bouton "Choisir un fichier" ou faites glisser les fichiers dans la zone délimitée de l'onglet du navigateur.
- 3. Cliquez sur le bouton "Convertir", attendez que la barre de progression atteigne 100 %, puis cliquez sur le bouton "Télécharger", sur l'icône de téléchargement située à côté du nom du fichier, ou sur l'un des services de stockage en nuage auxquels vous êtes déjà connecté sur cet appareil. Enregistrez le fichier et le tour est joué.
Avec hipdf, la conversion est nette et tous les éléments de texte sont extraits proprement dans le fichier .txt. Si vous êtes préoccupé par le vol de données en ligne, il est préférable d'utiliser une application téléchargeable comme PDFelement. Contrairement à Nitro Pro, elle est disponible en téléchargement non seulement sur Windows et Mac, mais aussi sur iOS et Android. En fonction de votre abonnement, vous pouvez avoir accès aux fonctionnalités standard et professionnelles sur tous vos appareils.
Qu'est-ce que le texte brut ?
Imaginez un programme dépourvu de tout élément graphique ou de tout autre objet autre que des lettres, des chiffres, des espaces, des sauts de ligne, des signes de ponctuation et tout autre contenu de base lisible par l'homme. Il n'y a pas d'options pour formater le texte, mais il prend en charge certains codes de caractères spéciaux. La meilleure façon de comprendre le texte brut est de regarder du texte enrichi, qui est essentiellement du texte brut avec toutes les informations d'accompagnement ou métadonnées qui contiennent les informations de style pour la police, la couleur, les liens, etc.
Quelle est la différence entre le texte brut et le HTML ?
De la même manière que le texte enrichi ajoute tous les attributs et éléments de style au texte brut, le HTML va plus loin en vous permettant d'inclure des images, des dessins, des vidéos, des thèmes et d'autres éléments graphiques avancés. Toutefois, le texte brut est plus fiable car il ne dépend pas de l'appareil utilisé. Si vous envoyez un message HTML, par exemple, et que l'application de messagerie du destinataire ne peut pas l'ouvrir, il passera par défaut en mode texte brut.
Voyons ensuite quelques outils (en ligne et hors ligne) que vous pouvez utiliser pour convertir un PDF en texte brut. C'est extrêmement utile lorsque vous souhaitez examiner un document sans les images ou autres "distractions" graphiques d'un élément PDF typique. Il extrait uniquement le texte et vous le restitue dans un format lisible, à savoir un fichier texte brut avec une extension .txt.
Clara Durand
chief Éditeur