Le diffuseur britannique Sky s'est tourné vers l'entrepôt de données Big Query et les algorithmes d'apprentissage automatique de Google Cloud pour enquêter sur le trafic web et fermer les sites piratés en temps réel. S'exprimant sur scène lors de Next 2018, à San Francisco, cette semaine, Mohamed Hammady, CTO de Sky UK a indiqué que l'entreprise investit « près de 8 milliards de dollars par an dans le contenu. Une partie majeure de cet investissement sert à acheter les droits de diffusion des matches. Et le joyau de la couronne, ce sont ceux des rencontres de la Premier League britannique. » Sky verse en effet 1,6 milliard de dollars par an pour les droits de ces 126 matches. Le piratage est donc une menace évidente pour cet investissement.
Après la décision historique de la Haute Cour en 2017, qui a été renforcée au début du mois pour arrêter les flux au niveau du serveur, les fournisseurs d'accès internet sont désormais responsables de la fermeture des sites illégaux. « Malheureusement, comme dans toute industrie, il y a des personnes malveillantes qui essaient de diffuser illégalement des matches de football » déclare, un peu naïvement, Mohamed Hammady, « cela peut nuire à l'industrie du sport et ne peut être toléré » …
500 milliards de données enregistrées par an
Malgré tout, cette ordonnance du tribunal n'a pas résolu le problème technologique d'identification et de ces sites en temps réel. Sky, qui est dans la double position de diffuseur sportif et fournisseur de services internet, a donc choisi Google Cloud pour résoudre cela.
L'équipe de Sky a rassemblé ses données de trafic sur NetFlow pour échantillonner le trafic sur le réseau central. Pendant un an, 500 milliards d'enregistrements de données ont été produits. Sky a donc eu besoin d'une solution de data warehouse fortement évolutive pour gérer cela. « En utilisant BigQuery et un algorithme interne – qui a coûté 10 000 $ à développer - nous sommes maintenant en mesure d'étudier en continu les modèles de trafic avec une liste toujours à jour des sites pirates suspects » détaille Mohamed Hammady. « Une fois qu'ils ont été confirmés comme illégaux, ils sont fermés. »
GCP choisit aussi pour construire un data lake
Le CTO de SKY continue : « Le temps d'exécution de la requête sur Google Cloud est de moins de 30 secondes et coûte 23 cents pour chaque utilisation. Ce sont les 23 cents de mes PnL [Profits and loss / Gains et pertes] dont je suis le plus fier de dépenser. Cela a conduit à une réduction phénoménale des sites pirates au Royaume-Uni. » Cette expérience a conduit Sky à se tourner vers Google Cloud pour ses besoins plus importants en termes de data warehouse. « Nous avons décidé de construire notre data lake sur Google Cloud Platform » ajoute Mohamed Hammady.
L'élément clé de cette stratégie de données internes consiste à apporter une meilleure personnalisation de ses services à ses clients en regroupant leurs données au même endroit. « Cela va de la recommandation de contenu à des appels de services, sur tous les canaux » conclut M. Hammady.