-  Analyse statistique

3 - Le projet R : un langage pour l'univers des statistiques

Projet GNU similaire au langage S, développé par les Laboratoires Bell (anciennement AT&T, désormais Lucent Technologies) par le statisticien John Chambers. Il peut être considéré comme une mise en oeuvre différente de S, même s'il y a d'importantes différences, une grande partie du code écrit pour S fonctionnant de la même façon sous R, explique-t-on sur le site du projet. Il compile et fonctionne sur de nombreuses plateformes Unix, ainsi que sous Windows et MacOS. S'il s'agit de déterminer des moyennes, des valeurs médianes, des écarts types ou des corrélations, R peut le faire et bien plus encore, en incluant les modèles linéaires, les modèles de régression non linéaires, l'analyse des séries chronologiques, les tests paramétriques et non paramétriques, les classifications, le lissage, indique encore le site web. « R » fournit aussi nombre de représentations graphiques, ainsi que des capacités d'analyse spatiale, et se complète de nombreux add-ons.

Inconvénient, l'environnement utilise des lignes de commandes, ce qui nécessite un minimum d'apprentissage pour connaître les commandes à mettre en oeuvre. Pour les utilisateurs qui souhaitent disposer d'une interface graphique, Peter Aldhous, du bureau de San Francisco du magazine New Scientist, suggère RExcel qui propose d'accéder au moteur de R à partir d'Excel. On peut rencontrer une autre limite avec les jeux de données trop importants. Pour la franchir, il existe une option commerciale de la plateforme, fournie par Revolution Analytics.

Projet R, langage pour l'analyse statistique
L'environnement R (cliquer ici pour agrandir l'image
Niveau de compétences : intermédiaire ou avancé. La connaissance des statistiques facilite la prise en main.
R fonctionne sur Linux, Mac OS X, Unix, Windows XP et ultérieurs.
En savoir plus : le projet R
Premiers pas avec R, de Peter Aldhous


- Outils et services de visualisation

Ces outils offrent différentes options de visualisation. Certains se cantonnent aux graphiques conventionnels (représentations sectorielles, histogrammes...), mais la plupart proposent un éventail de choix supplémentaires tels que les Treemap pour afficher les données hiérarchisées ou les nuages de mots. Quelques-uns disposent aussi de représentations géographiques. Dans ce domaine, il existe toutefois des logiciels gratuits spécifiques.

4 - Google Fusion Tables : simple à utiliser et personnalisable

C'est l'une des plus simples façons de transformer des données en graphiques. On met en ligne son fichier (dans différents formats) et on choisit comment l'afficher : sous forme de tableau, de carte, de bargraphe, de camembert, de « heat map », de diagramme de dispersion, d'historique, d'animation... C'est assez personnalisable. Il est notamment possible de changer les icônes des cartes et le style des fenêtres d'information. Fusion Tables comporte aussi des fonctions d'édition de données, quoi que cela devient vite fastidieux dès que l'on commence à devoir modifier au-delà que quelques cellules. On peut aussi faire des jointures de table (important quand les données à afficher se trouvent dans différentes tables), filtrer, trier, ajouter des colonnes et commenter les données.

Un exemple d'utilisation de Google Fusion Tables (source WNYC)
Un exemple d'utilisation de Fusion Tables (source WNYC)

Niveau de compétences : débutant.
S'utilise avec tout navigateur web.
En savoir plus : Google Fusion Tables

5 - Impure : un peu comme un Yahoo Pipes

Impure est une sorte de « Yahoo Pipes » adapté à la visualisation de données, conçu pour créer de nombreux types de représentations graphiques très peaufinées en utilisant un espace de travail de type « drag and drop ». Le service inclut une bibliothèque d'objets et de méthodes. Et, comme avec Yahoo Pipes, il permet de cliquer et déplacer pour connecter des modules de façon à ce que les « sorties » (output) de l'une deviennent les « entrées » (input) d'une autre. L'outil a été développé par la société d'analyse espagnole Bestiario.
Impure présente l'intérêt d'offrir une interface très visuelle pour préparer les représentations graphiques, ce qui n'est pas aussi fréquent qu'on pourrait s'y attendre. Il offre une interface élégante et de nombreux modules, dont quelques API (interfaces de programmation) destinées à extraire des données du Web.

On peut chercher par mots-clés (numeric, tables, nodes, geometry, map) ses nombreux types de visualisation. Et bien qu'il sauvegarde votre espace de travail sur le Web, il est possible de copier et conserver le code localement, afin de sauvegarder son travail et de mettre à jour ses propres bibliothèques de code.
Attention, les utilisateurs d'Impure devront faire un effort d'apprentissage malgré les fonctionnalités drag and drop. La documentation est quelquefois détaillée, mais pas toujours. Une fois que l'espace de travail est sauvegardé, il devient public sur le web, bien qu'il soit difficile de le retrouver sans l'URL.

Impure
Impure (cliquer ici pour agrandir l'image)

Niveau de compétences : intermédiaire.
Fonctionne sur tout navigateur.
En savoir plus : sur Impure