Qu'est-ce que l'OCR ? Explication des logiciels de reconnaissance optique de caractères (OCR)
L'omniprésence et la croissance exponentielle de l'information (données) et des technologies de la communication (TIC) font de la numérisation un pilier essentiel de notre époque. Au fil du temps, diverses techniques d'interaction, de stockage et de récupération des données ont évolué. Les méthodes antérieures, telles que la saisie manuelle des données ou le microfilmage, prenaient beaucoup de temps, nécessitaient beaucoup de main-d'œuvre ou étaient moins précises.
Le fait de doter les ordinateurs et les machines de prouesses optiques, connues sous le nom de reconnaissance optique de caractères (OCR), a révolutionné la numérisation. Elle les a dotés de capacités visuelles semblables à celles de l'homme. Cette capacité leur a permis de saisir, d'accéder, de transférer, de consommer ou de traiter des données plus rapidement et plus efficacement, rendant la numérisation des données transparente. La numérisation a dépassé l'idée banale de scanner et de convertir un document physique en format texte.
Cet article propose une étude approfondie de l'OCR, de sa définition et de son histoire aux technologies sous-jacentes et aux applications les plus courantes (et les plus utiles).
Qu'est-ce que l'OCR et pourquoi est-elle importante ?
La reconnaissance optique de caractères (OCR), comme son nom l'indique, reconnaît les caractères optiquement. Cette technologie permet aux ordinateurs de lire du texte à partir de formats de fichiers d'images numériques tels que les fichiers d'images d'appareils photo, les fichiers PDF d'images seules, les documents papier numérisés, les documents imprimés, les captures d'écran, les textes manuscrits, etc. en identifiant et en reconnaissant chaque caractère dans le fichier d'images numériques. Il numérise, extrait et convertit les caractères des fichiers d'images numériques en code lisible par une machine.
Les systèmes d'OCR rationalisent les flux de travail et stimulent la productivité en créant une interface reliant les mondes physique et numérique. Ils éliminent la nécessité pour les humains de s'interfacer manuellement avec les données. Cette interface automatique permet aux ordinateurs d'automatiser la saisie, l'extraction, le stockage, l'analyse ou le traitement des données. Les avantages de l'automatisation de l'OCR pour les opérations et les processus liés à l'utilisation de texte à partir de fichiers d'images numériques sont les suivants :
- Diminution des erreurs opérationnelles
- Réduire les coûts d'exploitation
- Augmentation de l'efficacité
- Minimise l'effort humain
- Accélère le temps d'exécution
Comment cela fonctionne-t-il ?
Les systèmes OCR comprennent les informations visuelles en augmentant les principes de fonctionnement des yeux et du cerveau humains. Les systèmes optiques sont fondamentalement conçus pour manipuler la lumière par réflexion ou réfraction. Comme l'œil, les systèmes d'OCR adoptent le concept de réflexion de la lumière pour former une image. Pensez à l'ombre qui se forme lorsque vous projetez de la lumière sur un objet. Une ombre est techniquement un reflet de l'image de l'objet original en 2D (dimensions inférieures).
L'œil code cette image 2D sous forme de signaux électriques et les envoie au cerveau pour qu'il les interprète. Le cerveau décode les signaux pour déterminer l'objet à partir de la forme de son ombre.
La technologie de l'OCR
La technologie permettant de traduire le texte des images en signaux électroniques que les machines peuvent comprendre et utiliser est vaste. C'est pourquoi il y a eu de nombreuses mises en œuvre différentes de l'OCR au fil des ans. Toutefois, les logiciels d'OCR comprennent généralement un processus en trois étapes : prétraitement de l'image, classification (détection et reconnaissance du texte) et post-traitement. Ils utilisent des algorithmes allant du traitement d'image traditionnel aux techniques d'apprentissage automatique ou d'apprentissage profond.
Couche de prétraitement
En bref, cette étape met en œuvre une technique de compression sur l'image qui améliore la qualité de l'image pour que la machine puisse comprendre et reconnaître le texte (caractères). Les logiciels d'OCR utilisent des fichiers d'images 2D en entrée. Indépendamment de l'ensemble des techniques de prétraitement utilisées, il commence par numériser et copier le contenu de l'image. Le composant de traitement de l'image réajuste l'orientation et l'alignement de l'image numérisée pour l'adapter aux dimensions et à la résolution de la numérisation à l'aide d'une méthode de désalignement.
Les valeurs des pixels (densité de l'image) étant généralement comprises entre 0 et 255 et définissant la résolution de l'image, leur binarisation en valeurs de pixels de 0 et de 1 rend l'image numérisée très contrastée pour former une image bitmap. Une image bitmap est généralement une représentation en basse dimension de l'image originale en 2D. À ce stade, la profondeur (couleur) de l'image a disparu, ne laissant que des pixels noirs et blancs. C'est comme une ombre de l'image originale. Les zones blanches marquées d'un 1 représentent l'arrière-plan, tandis que les zones noires marquées d'un 0 représentent les caractères.

La binarisation permet également de nettoyer et de filtrer les zones de l'image présentant un bruit perceptible, tout en laissant intactes les régions complexes. Le couplage d'une technique de réduction du bruit avec la binarisation donne de meilleurs résultats.
La dernière étape consiste à segmenter les pixels noirs de l'image bitmap qui forment des composants uniques à analyser et à traiter séparément. Ces pixels sont généralement les caractères.

Classification
Cette étape fait passer les pixels à connexion unique dans un classificateur qui utilise un algorithme de reconnaissance des formes ou d'extraction des caractéristiques pour l'identification des caractères. Le niveau d'efficacité de la reconnaissance des caractères dépend de l'algorithme utilisé par le système.
La reconnaissance des formes identifie les caractères en analysant un seul pixel noir connecté à la fois. Elle s'appuie sur de nombreux exemples de caractères dans différentes polices et différents formats pour identifier les caractères avec précision. Les caractères qui n'ont pas d'exemple exact dans sa base de données risquent de passer inaperçus.

L'extraction de caractéristiques permet d'identifier les caractères en analysant les lignes, les bords, les courbes, les boucles et les traits formés par un seul pixel noir connecté. Cet algorithme développe une compréhension plus approfondie des caractères, ce qui lui permet de traiter de nouveaux exemples d'un caractère sans avoir besoin d'un exemple exact.

Post-traitement
En aval, l'ordinateur fait correspondre le caractère identifié à son code ASCII (American Standard Code for Information Interchange). Ce code produit en sortie un texte numérique du caractère, qu'une personne ou un autre ordinateur peut éditer ou rechercher numériquement.
Les premiers OCR utilisaient des algorithmes heuristiques pour la reconnaissance des formes et l'extraction des caractéristiques, ce qui nécessitait un guidage et une correction manuels. Parfois, ils n'étaient que légèrement plus rapides que la dactylographie humaine. La reconnaissance avancée, telle que la reconnaissance multilingue ou la reconnaissance du style d'écriture, est désormais possible grâce à des algorithmes sophistiqués qui exploitent la vision artificielle (CV) et le traitement du langage naturel (NLP). Ils peuvent utiliser des normes grammaticales pour affiner la reconnaissance en analysant des modèles verbaux plus larges et des indices contextuels. Ce type d'OCR basé sur l'intelligence artificielle (IA) est appelé reconnaissance intelligente des caractères (ICR).
L'histoire de l'OCR
Edmund Fournier d'Albe a créé l'optophone, l'un des premiers appareils électriques de reconnaissance optique de caractères, en 1914. En scannant les mots d'une page, l'optophone fait la distinction entre l'encre foncée du texte et les espaces vides plus clairs, en générant des tonalités correspondant aux différentes lettres, ce qui permet aux aveugles de lire avec un peu d'entraînement.
Quelques années plus tard, vers la fin des années 1920 et le début des années 1930, Goldberg a mis au point une machine capable de convertir un texte imprimé en code télégraphique. C'était l'une des premières technologies à convertir des caractères imprimés en impulsions électriques plutôt qu'en sons. Il l'a fait breveter en 1931.
Toutefois, ce n'est qu'en 1974 que l'OCR a commencé à prendre une forme plus moderne, avec Ray Kurzweil, qui a fondé Kurzweil Computer Products, Inc. Il a créé un OCR omni-fontes capable de lire des textes dans pratiquement n'importe quelle police.
Kurzweil a ensuite décidé que la meilleure utilisation de sa technologie était de permettre aux ordinateurs de lire des textes à haute voix pour les malvoyants. Le produit utilisait un synthétiseur texte-parole et un scanner CCD à plat. Kurzweil a présenté le produit fini lors d'une conférence de presse le 13 janvier 1976. Kurzweil Computer Products a créé le premier logiciel d'OCR disponible dans le commerce et mis à la disposition du public en 1978. Kurzweil a ensuite vendu sa société à Xerox en 1980.
Cependant, la technologie de l'OCR a gagné en popularité au début des années 1990. Dans les années 2000, l'OCR est devenue accessible via le web, le cloud et les appareils mobiles. Aujourd'hui, l'OCR dispose de capacités plus polyvalentes, allant de la saisie automatisée de données à partir d'images textuelles à la traduction linguistique.
Cas d'utilisation de l'OCR dans tous les secteurs d'activité
L'OCR alimente divers domaines de technologies bien connues avec lesquelles vous êtes en contact quotidiennement. Voici quelques exemples de cas d'utilisation de l'OCR par les industries :
Médecine légale
L'analyse de l'écriture manuscrite est un domaine de la criminalistique qui examine l'écriture manuscrite afin d'en déterminer l'authenticité ou d'en retracer l'auteur. Les analystes de l'écriture manuscrite tirent un avantage de la reconnaissance optique des caractères (OCR), qui convertit le texte manuscrit en texte lisible par la machine, qui peut alors l'examiner automatiquement. Les analystes de l'écriture manuscrite peuvent utiliser la ROC pour comparer des échantillons d'écriture et repérer des modèles d'écriture de manière rapide et fiable. L'analyse de notes de rançon, de signatures, de papiers falsifiés, l'identification de l'écriture, l'authentification de documents et l'étude de dossiers médicaux sont quelques-unes des nombreuses utilisations de la reconnaissance optique de caractères (OCR) dans le domaine de la criminalistique manuscrite.
Santé et biotechnologie
L'exactitude et les soins aux patients sont délicats et fondamentaux dans le secteur de la santé. L'OCR permet de gérer et d'analyser efficacement les informations relatives aux patients afin de leur fournir les meilleurs soins possibles. Grâce à l'OCR, la numérisation des dossiers des patients, tels que les dossiers médicaux, les rapports de laboratoire et les résultats d'imagerie, est précise, efficace et sûre. L'OCR contribue également à accélérer la recherche et le développement dans le secteur de la santé. Pour mieux comprendre les maladies et les affections, et pour produire des médicaments, des vaccins et des traitements nouveaux ou améliorés, les chercheurs peuvent facilement récupérer des données de qualité à partir d'un ensemble spécifique de patients ou de revues scientifiques et techniques.
Logistique
L'OCR est utilisée dans le secteur de la logistique pour automatiser le traitement de documents tels que les connaissements, les étiquettes d'expédition et les déclarations de douane. Elle permet de traiter les documents en peu de temps, augmentant ainsi la précision et la productivité et réduisant les coûts pour les entreprises. D'autres applications importantes de l'OCR dans le domaine de la logistique comprennent la gestion des entrepôts, la gestion du transport et le service à la clientèle.
Services publics et infrastructures :
L'OCR lit les données des compteurs dans le secteur des services publics afin d'automatiser la facturation et de surveiller la consommation d'énergie et d'eau. Il peut également déchiffrer les dessins de construction tels que les plans. D'autres applications des OCR dans les secteurs des infrastructures et des services publics sont l'automatisation du service à la clientèle et la collecte de données à des fins d'analyse.
Fabrication
L'automatisation des tâches monotones critiques grâce à l'OCR rend les entreprises manufacturières plus efficaces, plus rentables et plus durables. Le contrôle de la qualité est une tâche manufacturière essentielle pour vérifier la conformité des produits et les normes de qualité. L'OCR effectue des inspections automatisées sur les produits manufacturés pour rechercher des informations telles que les numéros de série, les étiquettes, les codes-barres, les numéros d'identification du véhicule, etc. Les autres tâches gérées par OCR dans l'industrie manufacturière comprennent la gestion des stocks, la maintenance prédictive, l'expédition et la réception.
Défense et aérospatiale
Dans les secteurs de la défense et de l'aérospatiale, de nombreuses opérations dépendent de la sécurité et de la cybersécurité. Pour la sécurité et la protection des données, l'OCR permet le traitement automatique des visas, des passeports et des demandes de voyage. Elle élimine les erreurs d'authentification manuelle, améliore le traitement des informations et réduit la fraude aux frontières et sur les sites militaires. L'industrie de la défense peut également extraire du texte à partir de sources de renseignements, telles que des photos satellites et des photographies aériennes, afin de suivre les mouvements de l'ennemi, d'identifier les dangers potentiels et d'organiser les opérations militaires. D'autres applications aérospatiales incluent l'automatisation du traitement de documents logistiques tels que les manifestes d'expédition et les données d'inventaire.
Automobile
L'OCR est cruciale pour les véhicules autonomes car elle améliore leur capacité à percevoir et à comprendre leur environnement comme le font les humains. Elle est essentielle pour une navigation optimale. L'une des principales applications de l'OCR dans les voitures autonomes est la reconnaissance des panneaux de signalisation tels que les panneaux d'arrêt, les panneaux de céder le passage, les panneaux de limitation de vitesse, etc. Pour identifier les différents types de panneaux de signalisation, il faut notamment lire les informations qui y sont affichées, telles que la limitation de vitesse ou la direction à prendre. L'OCR peut également reconnaître les panneaux de signalisation et d'autres éléments de la route.
Conclusion
Après des débuts modestes, l'OCR est devenu un outil essentiel dans le paysage numérique. Elle a révolutionné la façon dont nous interagissons avec les données, nous permettant de libérer efficacement l'immense valeur des données physiques et numériques.
Les systèmes d'OCR deviennent plus précis et plus adaptables à mesure que les algorithmes d'IA/ML s'améliorent et que les données de qualité deviennent plus largement disponibles. Nous nous attendons à de nouvelles avancées dans de nombreux domaines au fur et à mesure que la technologie de l'OCR évolue.