Recommandé, 2020

Choix De L'Éditeur

OCR Convertir des feuilles numérisées et des PDF en textes modifiables

OCR est l'acronyme de " Reconnaissance Optique de Caractères " (reconnaissance optique de caractères). Èd est une technologie logicielle, "intelligente" qui sert à convertir des images et des PDF contenant des textes écrits dans des documents pouvant être modifiés avec des programmes de traitement de texte classiques tels que, Microsoft Word.

Sans entrer dans les détails techniques, un logiciel OCR vous permet de prendre un papier écrit et de le convertir en un document dont les mots peuvent être changés.

En général, nous nous référons à l'utilisation du scanner et à la reconnaissance des textes écrits sur une feuille afin de permettre la modification des mots.

Pour trouver des champs d’application typiques de la vie quotidienne, nous pouvons penser au moment où vous souhaitez utiliser le texte écrit sur un livre ou un journal pour le signaler sur votre propre document Word ou sur un papier, le modifier et le faire ou même réécrire un fax reçu. .

Dans cet article, nous voyons quelques programmes et sites Internet, gratuits, utiles pour éditer des fax, des images scannées et des pdf au format texte.

Dernièrement, la technologie OCR a fait de grands progrès et les résultats sont surprenants.

1) Écrire du texte sur des photos avec Google Keep est le moyen le plus simple, même si cela ne fonctionne pas avec les PDF.

2) Avec Microsoft Onenote pour Windows 8, vous pouvez utiliser la fonction OCR des feuilles numérisées pour rendre les documents papier modifiables.

Le programme est facile à utiliser et gratuit et est discuté dans un autre article.

3) Même avec Google Docs, vous pouvez extraire du texte d’un fichier PDF ou d’une image, ce qui est une autre solution très pratique et pratique.

4) Cognitive OpenOCR (Cuneiform) est un programme open source permettant de faire de la reconnaissance optique de caractères (OCR), puis de transformer des fichiers PDF et des images en des documents texte pouvant être modifiés avec Word ou d’autres programmes.

Cuneiform prend en charge 23 langues, dont l' italien, et dispose d'algorithmes spéciaux pour la reconnaissance de texte à partir d'une imprimante, d'une télécopie et d'une photocopie.

Reconnaît automatiquement les blocs de texte, les tableaux et les images sans difficulté et maintient la mise en page dans un ordre parfait.

5) JOCR est un programme spécialisé dans la reconnaissance des caractères présents dans les images prises à partir du bureau de l’ordinateur.

Ce programme fonctionne avec Office 2003 et requiert le composant Microsoft Office Document Imaging pour fonctionner correctement.

La bonne chose est que JOCR est un programme portable qui ne nécessite pas d'installation et que l'interface est plutôt simple, très similaire à ces programmes qui capturent tout ce qui apparaît sur le bureau (par exemple le bouton "tampon")

Vous pouvez choisir de capturer le bureau entier, une région de la même ou une fenêtre spécifique.

le programme JOCR vous permettra ensuite d’imprimer, de copier ou, selon la fonction principale, de "reconnaître" ce que vous voyez et ce qui a été capturé afin que vous puissiez le modifier.

L’image est en fait analysée et tous les caractères et mots doivent être reconnus puis affichés sur le bloc-notes Windows sous forme de fichier txt.

JOCR est compatible avec les scripts écrits dans de nombreuses langues, dont l'anglais, le français, l'allemand, l'espagnol et l'italien.

6) GOCR est un programme Opensource pour Windows et pour Linux et constitue le principal projet de développement expérimental de ce type de logiciel. pour les experts Linux Gnu.

7) OnlineOCR.net est un site Web sur lequel il vous suffit de télécharger l'image numérisée ou le fichier PDF pour obtenir le fichier modifiable et modifiable avec Word.

8) Ce n'est pas un programme mais un service OCR en ligne est disponible sur le site Web d' OCRTerminal .

À partir de ce site, vous pouvez convertir une image en fichier texte ou en fichier PDF au format Word, toujours modifiable.

Cette dernière fonction, la conversion de fichiers .pdf en .doc, peut également être réalisée avec un autre logiciel spécifique permettant d’éditer des fichiers pdf.

Lorsque nous parlons d’une image convertie en fichier texte, nous entendons ici une page numérisée et enregistrée par le programme d’un scanner normal, dans un fichier jpeg, gif, bmp ou tiff.

Pour utiliser le site, vous devez vous enregistrer et reconnaître la conversion des fichiers écrits dans toutes les langues, y compris l'italien .

9) OCR TO Word est un programme simple et puissant capable d’extraire du texte d’un fichier PDF ou d’un document acquis avec le scanner.

Le texte extrait peut ensuite être modifié sur Word.

10) OCR Online est un site gratuit qui vous permet de convertir 100 images par jour, même en italien, directement en ligne, sans téléchargement de programme.

11) gImageReader est un programme open source basé sur le projet Tesseract développé par HP Labs il y a plusieurs années, alors qu'il appartient aujourd'hui à Google.

Cette puissante application vous permet d'extraire du texte à partir d'images, de fichiers PDF, XPS, BMP, ICO et de nombreux autres fichiers image.

Vous pouvez spécifier différentes parties du texte à extraire et les enregistrer directement dans un fichier texte modifiable.

12) Free OCR est un programme qui permet de convertir facilement des images et des fichiers PDF en documents, grâce à une interface très simple à utiliser.

Je ne sais pas si c'est le meilleur mais la dernière version date de janvier 2015, donc le projet est vivant et constamment mis à jour pour être perfectionné

Le moteur Free OCR s'appelle Tesseract et fonctionne bien. Il reconnaît également la langue italienne.

Les performances de ces programmes dépendent beaucoup de la qualité de l’image que vous souhaitez reconnaître et de la sensibilité du scanner utilisé.
Nous passons de textes reproduits de la même manière à des cas dans lesquels même un mot n'est pas reconnu.

Top