Pour faire parler des données, rien ne vaut une panoplie d'outils de visualisation graphique. Il en existe de nombreux, notamment destinés aux professionnels versés dans l'analyse statistique. Mais leur prix, généralement élevé, ne convient pas aux utilisateurs moins spécialisés qui n'ont besoin qu'occasionnellement d'afficher des données sous une forme graphique. Or, il existe, pour ceux dont le budget est limité, un nombre surprenant d'outils très intéressants pour la visualisation et l'analyse de données, accessibles gratuitement. Au printemps dernier, Sharon Machlis, de Computerworld, en a listé plus de vingt, qu'elle a répartis en neuf catégories : nettoyage de données, analyse statistique, outils et services de visualisation (1ère partie), outils de développement, SIG, analyse de données temporelles, nuages de mots, visualisation de données relationnelles (2ème partie publiée le 5 janvier). Ils permettent de manipuler les données et de les afficher à travers de multiples représentations graphiques. Particulièrement utiles pour faire apparaître des modèles ou des tendances. La plupart d'entre eux avaient été présentés lors de la conférence Computer-Assisted Reporting (la prochaine conférence CAR aura lieu du 23 au 26 février 2012, à Saint-Louis, Missouri).
- Nettoyage de données
Avant toute analyse ou visualisation, les données ont souvent besoin d'être nettoyées, afin de standardiser leur transcription ou de corriger des fautes. Dans une même base, les noms de ville ou de clients, par exemple, peuvent être avoir été saisis de différentes façons (Net York, New York City, NY..., Société Lambda, Lambda, Sté Lambda, Lambda Sarl...). On trouve deux outils destinés à cet usage : DataWrangler et Google Refine.
1 - DataWrangler : uniquement en ligne
Ce service web du groupe Visualization de l'Université de Stanford est conçu pour nettoyer et réarranger les données sous une forme pouvant être reconnues par d'autres logiciels : les tableurs, mais aussi un langage tel que « R », ou des logiciels commerciaux comme Tableau ou Open Source comme Protovis. En cliquant sur une ligne ou une colonne, cet outil va suggérer des modifications. Par exemple, il proposera de supprimer les lignes vides. Il conserve l'historique qui facilite un retour en arrière (undo), une fonctionnalité également disponible dans Google Refine).
Computerworld souligne que la correction des textes se fait simplement. En revanche, le service étant disponible en ligne (à partir de tout navigateur), cela implique que les données transitent vers un site externe, ce qui le rend inapproprié pour des informations internes sensibles. Une version « poste de travail » est prévue. Autre élément important, l'outil est toujours en cours de développement.
DataWrangler (cliquer ici pour agrandir l'image)
Niveau de compétences requis : débutant avancé.
Fonctionne sur tout navigateur web.
En savoir plus : http://vis.stanford.edu/wrangler/
2 - Google Refine : comme un tableur
Il ressemble à un tableur pour examiner à la fois les données numériques et alphanumériques, mais à l'inverse du tableur, il ne permet pas d'effectuer des calculs. Comme Excel, il peut importer et exporter dans différents formats, incluant les fichiers tabulés, textes, Excel, XML et JSON.
Refine intègre plusieurs algorithmes retrouvant les mots orthographiés différemment mais qui devraient en fait être regroupés. Il y a aussi des options pour passer rapidement en revue les données numériques. Ces fonctionnalités peuvent pointer des anomalies pouvant résulter d'erreurs de saisie, telles que 800 000 dollars à la place de 80 000 dollars pour un salaire par exemple, ou mettre à jour d'autres incohérences. Inconvénient, si le jeu de données est volumineux, son examen peut prendre un certain temps. A noter que Refine propose aussi des outils de tri et de filtre.
Google Refine (cliquer ici pour agrandir l'image)
Niveau de compétences requis : débutant avancé. La connaissance des concepts d'analyse de données est plus importante que la prouesse technique. Les utilisateurs avancés d'Excel qui ont l'habitude du nettoyage de données devraient être à l'aise avec cet outil.
Google Refine fonctionne sur Windows, Mac OS X et Linux.
En savoir plus : http://code.google.com/p/google-refine/
22 outils gratuits pour visualiser et analyser les données (1ère partie)
2
Réactions
Vous avez des données à explorer ? Voici quelques outils qui pourront vous être utiles pour les transformer en informations et en graphiques attrayants.
Newsletter LMI
Recevez notre newsletter comme plus de 50000 abonnés
Pour ceux interessés par le sujet, participez au séminaire donné par Kaiser Fung, expert en visualisation de données et auteur de Numbersense,le 11/02/16.
Signaler un abusInscription gratuite sur le site du logiciel JMP.
Ne vous contentez pas de statistiques, regardez l'écran de vos clients en direct ! Nirror est un nouvel outil qui permet de suivre les actions de vos utilisateurs en direct ou en replay !
Signaler un abus