La version de test de l'API de classification de texte ML.NET Text Classification dévoilée par Microsoft vise à faciliter l’entrainement de modèles de classification de texte personnalisés à l'aide du framework d'apprentissage machine open source ML.NET. Selon l’éditeur, l’API présentée le 14 juin utilise des techniques d'apprentissage profond « de pointe ». Grâce à ML.NET, les développeurs peuvent intégrer des modèles d'apprentissage machine personnalisés dans les applications .NET. Parmi les cas d’usage courants de la classification de texte, un terme qui désigne un processus d'application d'étiquettes ou de catégories au texte, on peut citer la catégorisation des courriels comme spam, l'analyse du sentiment positif ou négatif dans les commentaires des clients et l'application de tags aux tickets d'assistance.
L'API ML.NET Text Classification est alimentée par la bibliothèque TorchSharp .NET, laquelle donne accès à la bibliothèque libtorch, qui alimente elle-même le framework d'apprentissage machine PyTorch. TorchSharp possède des capacités de bas niveau pour entraîner les réseaux neuronaux à partir de zéro dans .NET. Pour ML.NET, une partie de la complexité de TorchSharp a été abstraite pour faciliter cet entraînement. En collaboration avec Microsoft Research, Microsoft a pris l'implémentation TorchSharp de NAS-BERT (Bidirectional Encoder Representations from Transformers), une variante de BERT obtenue avec la recherche automatique d'architecture neuronale (Neural architecture search), et l'a ajoutée à ML.NET. En partant d'une version pré-entraînée de ce modèle, l'API Text Classification utilise les données de l'utilisateur pour affiner le modèle existant plutôt que de reconstruire un nouveau modèle à partir de zéro.
L'API Text Classification fait partie des versions préliminaires 2.0.0 et 0.20.0 de ML.NET. Outre le package Microsoft.ML, l’API requiert Microsoft.ML.TorchSharp et TorchSharp-cpu avec un CPU ou TorchSharp-cuda-windows ou TorchSharp-cuda-linux avec un GPU. Les développeurs peuvent utiliser le gestionnaire de paquets NuGet dans Visual Studio ou le CLI de .NET pour installer les paquets. Des échantillons de code de l'API sont disponibles dans le Text Classification API Notebook. L’éditeur précise que l'API présente encore des limites, notamment l'impossibilité d'utiliser la méthode Evaluate pour calculer les paramètres d'évaluation. Des améliorations sont prévues ainsi que l'introduction d'autres API basées sur des scénarios.
Commentaire