Cebit 2007 : un moteur d'OCR en Open Source

« Habituellement, les moteurs d'OCR en Open Source affichent des taux d'erreur de 6 à 10%. Nous avons pour notre part avec Ocropus un taux d'erreur de 3%. » Fort de ce résultat, Christian Kofler, ingénieur au centre de recherches allemand sur l'intelligence artificielle, qui expose sur le pavillon « Future Parc » du Cebit, s'apprête à lancer son projet dans une version finalisée à la fin du mois. L'OCR (Optical character recognition, reconnaissance optique de caractères), tel que pratiqué par les logiciels commerciaux, affiche un taux d'erreur qui ne dépasse pas 1%. « Nous espérons réduire le fossé d'ici un an », complète Christian Kofler. L'autre projet présenté par cet ingénieur prolifique est une création originale de l'Université d'Aachen. Le projet Fire est un outil de recherche d'image par similarité. Le logiciel analyse une image donnée en exemple, puis recherche des caractéristiques similaires dans les images contenues dans son système de fichiers. Problème : il faut trouver l'image qui doit servir d'exemple. Fire propose pour ce faire diverses images tirées aléatoirement de Flickr. « Le but, explique Christian Kofler, est de fournir une technologie de base, en Open Source, qui pourra être utilisée dans des applications pour utilisateurs finaux. »