Big Data, corrélation et causalité

Le Big Data : superbe marmite magique qui avale sans distinction des données issues de formulaires, des réseaux sociaux, d’images, d’emails et dont émerge des corrélations insoupçonnées nous épargnant ainsi de laborieuses quêtes de causalités. Est-ce bien raisonnable ? N’y a-t-il pas risque d’erreurs ?

La marmite n’ayant que peu de panache, parlons plutôt du concept d’architecture Data Lake, de données structurées et non structurées et de Hadoop. Les données sont stockées sans idées préconçues quant à leur future utilisation. Elles sont ouvertes à tout traitement a posteriori. La souplesse est totale, il n’y a pas de hiérarchisation. Les requêtes sont examinées à la lecture et non pas prévues à l’écriture comme dans les bases de données « classiques ».

C’est par exemple la démarche suivie par la CIA pour engranger grâce à l’infrastructure Amazon Web Services tout type d’information. Le responsable du département technologique de la CIA, Gus  Hunt, est très précis : «We Try To Collect Everything And Hang On To It Forever ». On récupère tout et on stocke pour toujours. Pour quels traitements ? On verra plus tard, pas même besoin de les identifier aujourd’hui.

En pêchant a posteriori dans le grand lac des données ne risque-t-on pas de provoquer l’apparition de quelque artefact trompeur ? Peut-on réellement se passer de connaître la cause ? Faut-il accepter sans état d’âme les vérités sorties du lac ?  Une belle anecdote nous apprend qu’une future maman a été trahie par de petites variations de son mode de consommation. N’ayant pas réussi à remonter à la source, je ne peux en garantir l’authenticité, mais je participe à sa divulgation car l’histoire est mignonne ! Une autre nous apprend que des compagnies d’assurances décèlent de la sorte les sociétaires susceptibles de résilier leur contrat à brève échéance. L’individu est dénoncé, mais on ne maitrise pas les justifications. De même, l’application PredPol indique aux forces de l’ordre où les déploiements seraient judicieux, même si avec le recul la recommandation de placer une voiture de police à deux heures du matin en sortie de boite ne justifiait pas l’utilisation d’un logiciel spécifique. Nous sommes là au cœur d’un débat qui reste vif : corrélation ou causalité ? La machine nous sort une vérité que l’on ne sait pas vérifier ou l’humain trouve cette vérité par le raisonnement ? Scientifiquement, une expérience doit pouvoir être reconduite pour être validée, ce qui n’est plus le cas.

En pratique, piocher sans précaution dans un réservoir de données rend vulnérable à certains biais. En voici trois exemples : les biais de confusion, le paradoxe de Simpson et les corrélations fallacieuses.

Biais de confusion

Prenons la route pour ce premier cas et observons que la majorité des accidents survient sur des trajets de moins de trente kilomètres. Une raison avancée est que l’attention est moindre sur les trajets les plus courts. C’est effectivement la leçon que l’on pourrait tirer de l’extraction directe des données de notre réservoir, mais c’est faire peu de cas de la quantité de trajets de proximité que nous faisons.

Si il y a plus d’accidents sur les trajets de moins de trente kilomètres, c’est parce que la majorité de nos déplacements fait moins de trente kilomètres.

Nous avons là confusion entre deux relations : la première dit qu’un déplacement peut être le théâtre d’un accident et la deuxième que la majorité des déplacements sont courts. Mais en aucun cas ces relations impliquent que les trajets courts sont plus « accidentogènes ». 

Pour ne pas tomber dans ce biais, la bonne démarche consiste à calculer le taux d’accidents sur les grands trajets et celui sur les trajets courts, ce qui suppose connaître le nombre de grands trajets et celui de trajets courts. Il faut donc avoir a priori introduit ces données dans la base.

Paradoxe de Simpson

Rejoignons maintenant les laboratoires médicaux pour le paradoxe de Simpson. Simpson était un chercheur qui eut la surprise, alors qu’il faisait des évaluations entre deux traitements de calculs rénaux, de constater que les résultats obtenus avec le même jeu de données étaient contradictoires dès qu’il opérait une distinction sur la taille des calculs. À partir des mêmes hypothèses il arrivait à deux conclusions diamétralement opposées.

Nous pouvons imager ce type de phénomène à partir d’un nuage de points oblong dont on extrait une droite et ce même nuage de points scindé en deux laissant apparaître deux droites dont les pentes sont en désaccord avec la première.

Le paradoxe de Simpson nous enseigne que piocher mécaniquement des données dans un réservoir ne suffit pas, il faut en outre qu’un expert explicite l’usage qu’on en fait et la manière de scinder les données.

Corrélations fallacieuses

Place au sourire pour les corrélations fallacieuses, notre troisième point. Une promenade au gré de votre butineur préféré à partir des mots clés « corrélation fallacieuse » vous apprendra que le nombre de décès suite à une chute dans un escalier et la vente d’iPhone suivent des courbes similaires et que le lien entre ventes de margarine et taux de divorce dans le Maine ont un impressionnant coefficient de corrélation de 0,992558 !

Le problème est que toutes les corrélations ne sont pas aussi caricaturales et qu’il est très facile de se faire piéger. Circonstance aggravante : plus le Big Data sera « Big », plus la probabilité de trouver des corrélations sera élevée. Et si beaucoup de corrélations peuvent être intéressantes, comment les repérer parmi toutes celles qui seraient fallacieuses ?

Alors, corrélation ou causalité ?

Le Big Data est-il une boîte noire pleine de données nous sortant des réponses à des questions que l’on ne s’était pas forcément posées ?

Le modèle Big Data voudrait que l’on prenne ces (ses) conclusions comme argent comptant. La recherche de causalité n’aurait plus lieu d’être.

Je pencherais plutôt pour un Big Data qui proposerait des axes de recherches à partir desquels l’homme effectuerait des recherches de causalité.

Un Big Data qui n’apporte pas des réponses mais des questions.

 

 

 

 


< Revenir à la newsletter

Auteur: 
Jacques Baudron - jacques.baudron@ixtel.fr

Ajouter un commentaire

Full HTML

  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Vous pouvez utiliser du code PHP. Vous devrez inclure les tags <?php ?>.
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Filtered HTML

  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Tags HTML autorisés : <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.