La collecte de données de sources diverses pour calculer des scores de probabilité de défaillance n'est en effet pas la seule activité de la société. Sa branche « solutions data » permet le ciblage d'entreprises à des fins, par exemple, de démarchage commercial ou d'enrichissement de fichiers clients.
Des sources de données structurées et non structurées
Les sources de données sont très diverses et proviennent souvent de producteurs d'informations sous contrat : la DILA (Direction de l'information légale et administrative), le département Journaux Officiels pour les données du BODACC (Bulletin officiel des annonces civiles et commerciales), les greffes de Tribunaux de Commerce, l'INSEE, etc. Les informations sont collectées avec une régularité variable selon la source (quotidienne, hebdomadaire...), filtrées et intégrées dans les bases de données de Coface Services. « Nous collectons autant du structuré que du non-structuré comme des analyses » précise Jean-Luc Brizard, DSI de Cofaces Services.
Plusieurs bases Oracle sont utilisées pour absorber les volumes concernés. Jean-Luc Brizard indique cependant : « dans notre activité, le volume brut n'est pas très significatif, il vaut mieux retenir que nous traitons 15 milliards de données élémentaires sur 15 millions d'établissements en provenance d'une vingtaine de sources. » La direction de la production conçoit alors des vues Oracle à partir de règles de gestion. Ces vues de telle(s) ou telle(s) entreprise(s) sont alors diffusées de diverses façons aux clients de Coface Services. Le décisionnel (à base de Qlikview et de SAP BusinessObjects) n'est utilisé que pour les analyses.
Limites importantes sur les requêtes complexes
Or les outils Oracle atteignent vite leurs limites quand il s'agit d'effectuer des requêtes complexes. « Les tris croisés se font avec une performance limitée et les problèmes s'accroissent vite avec la combinatoire et le nombre de critères », observe Jean-Luc Brizard. Pour l'offre « solutions data », les clients peuvent en effet, via une interface web, lancer des comptages multi-critères, par exemple pour savoir combien il existe d'entreprises de tel secteur d'activité dans telle zone géographique avec telle tranche d'effectif. Une fois un premier comptage effectué, le client peut affiner ses critères, pour resserrer ou étendre le fichier.
Une fois un nombre adéquat trouvé, le client pourra acheter le fichier des entreprises sélectionnées avec un tarif très variable selon la richesse de l'information demandée et le nombre d'entreprises incluses.
Une refonte nécessaire
Pour tenter de restreindre l'impact des limitations techniques, il existait deux outils différents selon que l'interrogation se faisait en interne ou par les clients externes. Or les données n'étaient pas toujours parfaitement synchronisées. Coface Services a donc décidé de changer ses outils en adoptant un outil unique plus performant.
Jean-Luc Brizard se souvient : « nous avons interrogé plusieurs sociétés et évalué les outils d'Oracle, d'Exalead et de ParStream au travers d'un proof-of-concept à partir d'un cahier des charges ». Plusieurs arguments techniques ont plaidé pour la technologie de ParStream finalement choisie. La complétude fonctionnelle et le fait que les volumes traités par Coface Services étaient nettement en dessous des capacités maximales de l'outil ont été les premiers critères.
[[page]]
La solution utilise le principe du Bit Vector, une manière de décomposer toutes les informations en 0 et 1 connue depuis plus de vingt ans, mais avec une variante utilisant un algorithme de compression spécifique qui permet de baisser les volumes à stocker et accroît la vitesse des traitements.
Les temps de traitements, justement, ont été jugés « impressionnants » même en cas de multi-requêtage simultané grâce, selon Jean-Luc Brizard, à « un multi-threading très bien géré ». De la même façon, l'outil traite autant les champs numériques que non-numériques. « Il est ainsi possible de chercher toutes les entreprises où boucherie sera présent dans l'activité, ce qui inclura les boucheries-charcuteries » spécifie le DSI. Il se réjouit : « en général, les outils du marché sont soit bons dans le non-structuré, soit bons dans le structuré mais pas dans les deux. ParStream, lui, est bon dans les deux. »
Des besoins matériels limités
Enfin, la solution ParStream est indépendante d'un constructeur de matériel. Il est donc possible de l'installer sur à peu près n'importe quel serveur Unix ou Linux.
Coface Services s'est doté de trois serveurs en parallèle, avec équilibrage de charge. Pour Jean-Luc Brizard, « la solution est économe en ressources et ce petit nombre de machines est donc suffisant. »
Le coût du projet est confidentiel.