Petit à petit, IBM étoffe sa boîte à outils pour entraîner et optimiser les modèles d’IA sur les mainframes. Big Blue vient en effet d’annoncer le module synthetic data sets. Ces jeux de données (générées par une IA) devraient être disponibles à la fin du mois de février ciblant des cas d'usages spécifiques. Ils concernent des informations sur les cartes de paiement, les opérations bancaires et le blanchiment d’argent, la garantie de propriété.

Sur le blanchiment d’argent, Tina Tarquinio, responsable produit des systèmes Z et LinuxOne et Elpida Tzortzatos, architecte Z expliquent dans un blog qu’ « il passe souvent inaperçu dans les données réelles, car les criminels tentent de déplacer des fonds illicites pour en dissimuler l'origine ». Ce genre d’opération « implique fréquemment le franchissement de frontières bancaires et nationales, avec des schémas de transaction complexes », ont-elles encore écrit. Le dataset synthétique utilisé (core banking and money laundering) couvrent l'ensemble de l'écosystème bancaire, incorporant des transactions mondiales, et incluant même des transactions en espèces qui ne sont généralement pas disponibles dans les données bancaires réelles. Son usage réduit le nombre de faux positifs et économise des heures de travail dans l'investigation des alertes.

Une intégration avec AI tookit

Les datasets « sont constitués de fichiers CSV et DDL téléchargeables avec les attributs qui conviennent à des cas d’usage spécifiques sur les systèmes Z et LinuxONE, ce qui les rend faciles à utiliser et compatibles avec tout, des bases de données aux feuilles de calcul en passant par les plateformes matérielles et les outils d’IA standard », a souligné les deux responsables.  Elles  expliquent que « si un client dispose d’un modèle ou d’un LLM existant, les données synthétiques fournissent des informations supplémentaires riches, étiquetées et diversifiées pour affiner le modèle d'IA. Si un client n'a pas de modèle, les jeux de données peuvent offrir de la matière pour un entraînement rapide et respectueux de la vie privée ».

Les deux expertes soulignent que les modules de données synthétiques sont déployables sur les mainframes IBM « avec AI toolkit, Cloud Pak for Data sur Z ou Machine Learning pour z/OS ». Ces outils ont été présentés en septembre dernier. Ainsi, AI toolkit est conçue pour aider à activer des applications métier critiques sur des frameworks open source comme la gamme Z Accelerated avec TensorFlow, SnapML et plus encore. Sur la partie OS, le réglage IA propose un apprentissage et des prédictions automatisés pour l'optimisation, la gestion et l'amélioration des performances des processus informatiques. Enfin pour Cloud Pak (plateforme privé d’IBM basé sur Openshift Container de Red Hat) intègre la fonction Auto AI. Elle offre aux utilisateurs de télécharger leurs données, de choisir le type de problème et de spécifier les contraintes, et d'exécuter une série d'expériences automatisées qui génèrent rapidement et facilement une gamme de pipelines très performants.