Pour faire parler des données, rien ne vaut une panoplie d'outils de visualisation graphique. Il en existe de nombreux, notamment destinés aux professionnels versés dans l'analyse statistique. Mais leur prix, généralement élevé, ne convient pas aux utilisateurs moins spécialisés qui n'ont besoin qu'occasionnellement d'afficher des données sous une forme graphique. Or, il existe, pour ceux dont le budget est limité, un nombre surprenant d'outils très intéressants pour la visualisation et l'analyse de données, accessibles gratuitement. Au printemps dernier, Sharon Machlis, de Computerworld, en a listé plus de vingt, qu'elle a répartis en neuf catégories : nettoyage de données, analyse statistique, outils et services de visualisation (1ère partie), outils de développement, SIG, analyse de données temporelles, nuages de mots, visualisation de données relationnelles (2ème partie publiée le 5 janvier). Ils permettent de manipuler les données et de les afficher à travers de multiples représentations graphiques. Particulièrement utiles pour faire apparaître des modèles ou des tendances. La plupart d'entre eux avaient été présentés lors de la conférence Computer-Assisted Reporting (la prochaine conférence CAR aura lieu du 23 au 26 février 2012, à Saint-Louis, Missouri). 

-  Nettoyage de données

Avant toute analyse ou visualisation, les données ont souvent besoin d'être nettoyées, afin de standardiser leur transcription ou de corriger des fautes. Dans une même base, les noms de ville ou de clients, par exemple, peuvent être avoir été saisis de différentes façons (Net York, New York City, NY..., Société Lambda, Lambda, Sté Lambda, Lambda Sarl...). On trouve deux outils destinés à cet usage : DataWrangler et Google Refine. 

1 - DataWrangler : uniquement en ligne

Ce service web du groupe Visualization de l'Université de Stanford est conçu pour nettoyer et réarranger les données sous une forme pouvant être reconnues par d'autres logiciels : les tableurs, mais aussi un langage tel que « R », ou des logiciels commerciaux comme Tableau ou Open Source comme Protovis. En cliquant sur une ligne ou une colonne, cet outil va suggérer des modifications. Par exemple, il proposera de supprimer les lignes vides. Il conserve l'historique qui facilite un retour en arrière (undo), une fonctionnalité également disponible dans Google Refine). 

Computerworld souligne que la correction des textes se fait simplement. En revanche, le service étant disponible en ligne (à partir de tout navigateur), cela implique que les données transitent vers un site externe, ce qui le rend inapproprié pour des informations internes sensibles. Une version « poste de travail » est prévue. Autre élément important, l'outil est toujours en cours de développement.

DataWrangler
DataWrangler (cliquer ici pour agrandir l'image)

Niveau de compétences requis : débutant avancé.
Fonctionne sur tout navigateur web.
En savoir plus : http://vis.stanford.edu/wrangler/

2 - Google Refine
: comme un tableur

Il ressemble à un tableur pour examiner à la fois les données numériques et alphanumériques, mais à l'inverse du tableur, il ne permet pas d'effectuer des calculs. Comme Excel, il peut importer et exporter dans différents formats, incluant les fichiers tabulés, textes, Excel, XML et JSON.

Refine intègre plusieurs algorithmes retrouvant les mots orthographiés différemment mais qui devraient en fait être regroupés. Il y a aussi des options pour passer rapidement en revue les données numériques. Ces fonctionnalités peuvent pointer des anomalies pouvant résulter d'erreurs de saisie, telles que 800 000 dollars à la place de 80 000 dollars pour un salaire par exemple, ou mettre à jour d'autres incohérences. Inconvénient, si le jeu de données est volumineux, son examen peut prendre un certain temps. A noter que Refine propose aussi des outils de tri et de filtre.

Google Refine
Google Refine (cliquer ici pour agrandir l'image)

Niveau de compétences requis : débutant avancé. La connaissance des concepts d'analyse de données est plus importante que la prouesse technique. Les utilisateurs avancés d'Excel qui ont l'habitude du nettoyage de données devraient être à l'aise avec cet outil.
Google Refine fonctionne sur Windows, Mac OS X et Linux. 
En savoir plus : http://code.google.com/p/google-refine/