L'API Cloud Vision de Google reconnaît et classe les images

Google vient de présenter une API permettant aux développeurs de comprendre le contenu d'une image en encapsulant des modèles d'apprentissage machine dans une API Rest. Cloud Vision est pour l'instant disponible dans un mode bêta limité.

« Vous êtes-vous jamais demandé comment Google Photos vous aidait à retrouver vos images préférées ? », interroge Ram Ramanathan, responsable produit sur la plateforme cloud de Google, dans un billet qui présente l'API Cloud Vision que la firme de Mountain View vient d'annoncer. Les avancées dans le domaine du machine learning, mis en oeuvre à travers des plateformes comme TensorFlow, ont permet de réaliser des modèles qui peuvent apprendre et prédire le contenu d’une image, explique-t-il. Ainsi, Cloud Vision peut rapidement classer les images en des milliers de catégories (bateaux, monuments particuliers, types d’animaux, etc.). Elle détecte les visages en distinguant les émotions qui leur sont associées et reconnaît les mots imprimés dans différentes langues.

L’API permet de créer des métadonnées sur un catalogue d’images. Elle peut aussi repérer les contenus malvenus et être utilisée pour créer des scénarios marketing tenant compte de l’analyse de sentiments réalisée à partir de l’image, détaille Ram Ramanathan dans son billet. Le responsable produit de Google énumère les différentes fonctionnalités apportées. Label/Entity Detection permet de distinguer l’élément dominant d’une image. Optical Character Recognition reconnaît le texte associé à une photo et la langue utilisée. Safe Search Detection identifie les contenus inappropriés. Facial Detection repère les visages, tandis que Landmark Detection saura reconnaître les grands paysages du monde et les structures construites par l’homme, en association avec l’endroit (latitude/longitude) où ils se trouvent. Enfin, Logo Detection se charge des logos de produits dans les images.

Un petit robot de démonstration basé sur un Raspberry Pi

On appelle l’API en intégrant une image dans la requête, précise encore Ram Ramanathan. Lors des prochaines étapes, Google lui ajoutera le support de son service Cloud Storage. A titre de démonstration, l'équipe de développement a réalisé un petit robot basé sur l’un de ces ordinateurs miniatures qui se sont répandus un peu partout. A l’aide d’un Raspberry Pi et de quelques centaines de lignes de code Python appelant l’API Vision, le robot peut identifier des objets et des visages satisfaits, fendus d’un large sourire. L’API Cloud Vision est pour l’instant disponible en mode restreint dans une préversion.