Le développement et le déploiement d'applications de vision artificielle sont complexes et coûteux. Les entreprises ont besoin de data scientists et d'ingénieurs en machine learning (ML) pour construire des pipelines d'entrainement et d'inférence basés sur des données non structurées telles que des images et des vidéos. Avec la pénurie aiguë d'ingénieurs qualifiés en ML, la construction et l'intégration d'applications intelligentes d'IA de vision sont devenues onéreuses pour les entreprises.
D'un autre côté, des sociétés telles que Google, Intel, Meta, Microsoft, Nvidia et OpenAI mettent des modèles pré-entraînés à la disposition des clients. Ces modèles qui traitent de sujets comme la détection de visages, d'émotions, de poses et de véhicules sont disponibles en open source pour les développeurs afin de créer des applications intelligentes basées sur la vision. De nombreuses entreprises ont investi dans des caméras CCTV, de surveillance et IP pour assurer leur sécurité. Bien qu'elles puissent être connectées aux modèles pré-entraînés existants, la plomberie nécessaire pour relier les points est beaucoup trop complexe.
Construction de pipelines d'inférence d'IA de vision
La mise en place d'un pipeline d'inférence d'IA de vision pour tirer des enseignements des images captées par les caméras existantes et des modèles pré-entraînés ou personnalisés implique le traitement, l'encodage et la normalisation des flux vidéo alignés sur le modèle cible. Une fois tout cela en place, le résultat de l'inférence doit être capturé avec les métadonnées pour fournir des informations par le biais de tableaux de bord visuels et d'analyses.
Pour les fournisseurs de plateformes, le pipeline d'inférence de l'IA de vision permet de créer des outils et des environnements de développement pour relier les sources vidéo, les modèles et le moteur d'analyse. Si l'environnement de développement offre une approche no code ou low code, le processus s'en trouve encore accéléré et simplifié.
Création d'un pipeline d'inférence d'IA de vision avec Vertex AI Vision. (Crédit : G Cloud)
Quelques détails sur Vertex AI Vision
Avec Vertex AI Vision, lancé par Google en version bêta en octobre dernier, les entreprises intègrent de manière transparente l'intelligence artificielle de la vision par ordinateur dans les applications, sans plomberie ni travaux lourds. Cet environnement intégré combine des sources vidéo, des modèles d'apprentissage automatique et des entrepôts de données pour fournir des informations et des analyses riches. Les clients peuvent soit utiliser des modèles pré-entraînés disponibles dans l'environnement, soit apporter des modèles personnalisés construits dans la plateforme Vertex AI.
Il est possible d'utiliser des modèles pré-formés ou des modèles personnalisés formés dans la plateforme Vertex AI. (Crédit : G Cloud)
Une application Vertex AI Vision commence par un canevas vierge, utilisé pour construire un pipeline d'inférence de vision artificielle en faisant glisser et en déposant des composants à partir d'une palette visuelle.
Construction d'un pipeline avec des composants glisser-déposer. (Crédit : G Cloud)
La palette contient divers connecteurs, notamment les flux vidéos issus de caméras ou non, une collection de modèles pré-entraînés, des modèles spécialisés ciblant des secteurs verticaux spécifiques, des modèles personnalisés construits à l'aide d'AutoML ou de Vertex AI, et des data stores sous la forme de BigQuery et AI Vision Warehouse.
Plusieurs fonctions liées à la solution
Vertex AI Vision apporte différents services et applications. Tout d’abord Streams, un service endpoint pour ingérer des flux vidéo et des images sur un réseau géographiquement distribué. L’utilisateur connecte n'importe quelle caméra ou n'importe quel appareil de n'importe où et laisse Google gérer le pasage à l'échelle et l'ingestion. Vertex AI Vision propose également la création d’une application pour combiner des composants tels que des flux vidéo, des modèles de ML pour l'analyse et des entrepôts pour le stockage de données, en quelques minutes seulement, à l'aide d’une fonction de type glisser-déposer sur son interface.
Des modèles de vision préconstruits pour les tâches d'analyse courantes, notamment le comptage des occupants, le floutage des visages et la reconnaissance des produits de détail sont également mis à disposition. En outre, les utilisateurs peuvent construire et déployer leurs propres modèles conçus avec la plateforme Vertex AI. Autre point intéressant, le datawarehouse. Ce système intégré de stockage de médias riches serverless combine la recherche Google et le stockage vidéo géré. Des pétaoctets de données vidéo peuvent être ingérés, stockés et recherchés dans l'entrepôt. Le pipeline ci-dessous ingère par exemple la vidéo d'une source unique, la transmet au compteur de personnes et de véhicules et stocke les métadonnées d'entrée et de sortie (inférence) dans AI Vision Warehouse pour exécuter des requêtes simples. Il peut être remplacé par BigQuery pour s'intégrer aux applications existantes ou exécuter des requêtes complexes basées sur SQL.
Exemple de pipeline construit avec Vertex AI Vision. (Crédit : G Cloud)
Déploiement d'un pipeline Vision
Une fois le pipeline construit visuellement, il peut être déployé pour commencer à effectuer des inférences. Les coches vertes dans la capture d'écran ci-dessous indiquent un déploiement réussi.
Les coches vertes indiquent que le pipeline a été déployé. (Crédit : G Cloud)
L'étape suivante consiste à commencer à ingérer le flux vidéo pour déclencher l'inférence. Google fournit un outil en ligne de commande appelé vaictl pour récupérer le flux vidéo d'une source et le transmettre au point de terminaison Vertex AI Vision. Il prend en charge les fichiers vidéo statiques et les flux RTSP basés sur le codage H.264.
Une fois le pipeline déclenché, les flux d'entrée et de sortie peuvent être surveillés à partir de la console, comme illustré.
Surveillance des flux d'entrée et de sortie depuis la console. (Crédit : G Cloud)
Le résultat de l'inférence étant stocké dans l'entrepôt AI Vision, il peut être interrogé sur la base d'un critère de recherche. Par exemple, la capture d'écran suivante montre les images contenant au moins cinq personnes ou véhicules.
Exemple de requête pour la sortie d'inférence. (Crédit : G Cloud)
Google fournit un kit de développement logiciel (SDK) pour communiquer de manière programmée avec l'entrepôt. Les développeurs BigQuery peuvent utiliser les bibliothèques existantes pour exécuter des requêtes avancées basées sur ANSI SQL.
Intégrations et prise en charge de la solution
Vision est étroitement intégré à Vertex AI, le PaaS d'apprentissage automatique géré de Google. Les clients peuvent construire des modèles soit par AutoML, soit par une formation personnalisée. Pour ajouter un traitement personnalisé de la sortie, Google a intégré Cloud Functions, qui peut manipuler la sortie pour ajouter des annotations ou des métadonnées supplémentaires. Le véritable potentiel de la plateforme Vision réside dans son approche no code et dans sa capacité à s'intégrer à d'autres services Google Cloud tels que BigQuery, Cloud Functions et Vertex AI.
Bien que Vertex AI Vision soit une excellente étape vers la simplification de l'IA de vision, un soutien supplémentaire est nécessaire pour déployer des applications à la périphérie. Les secteurs verticaux tels que la santé, l'assurance et l'automobile préfèrent exécuter les pipelines d'IA de vision à la périphérie pour éviter la latence et respecter la conformité. L'ajout de la prise en charge de la périphérie deviendra un facteur clé pour Vertex AI Vision.
Paiement à l'usage ou mensuel au choix
Enfin, Google a lancé un modèle de tarification mensuelle pour les utilisateurs, en plus d'un modèle de paiement à l’usage (PAYG) standard. Jusqu’à la fin de la phase de lancement en version bêta, soit du 11 octobre 2022 au 7 décembre 2022, tous les modèles pré-entraînés à l'exception des modèles Visual Inspection AI (VIAI) étaient disponibles gratuitement. A compter de ce jour, les utilisateurs ayant choisi le paiement mensuel profiteront toujours de tous les modèles pré-entraînés, à l'exception des modèles Visual Inspection AI (VIAI), disponibles gratuitement jusqu’au 1er juin 2023 qui marquera la fin de la période d’essai.