Il y a de quoi aujourd’hui être impressionné par les performance de l’Intelligence Artificielle. Penchons-nous sur l’aspect Intelligence pour relever sa forte dépendance aux données qui sont en entrée.
Le socle de l’Intelligence Artificielle est le traitement statistique des données qui permet à un algorithme de traduire un nuage de points en une tendance, une courbe ou une forme. Les programmes informatiques ont cédé la place au savoir faire des sachants avec les systèmes experts puis à de l’apprentissage automatique utilisant des comparateurs à seuil flatteusement baptisés “neurones artificiels”. Le “Machine Learning” était né, et il a permis par exemple de modéliser nos habitudes d’utilisation de carte bancaires pour détecter des fraudes.
Sous le nom de “Deep Learning » son évolution n’a rien avoir avec un quelconque approfondissement de l’enseignement supérieur : c’est le fait d’empiler plusieurs couches de « machine Learning », chose rendue possible par les progrès de l’électronique et d’y appliquer une quantité « de dingue » de données en entrée, chose rendue possible par notre extrême générosité sur les réseaux sociaux. Mais toujours cette recherche d’un nuage de points pour en extraire une courbe.
Notons des variantes d’utilisation telle qu’AlphaGo, le tombeur du jeu de Go. Son succès doit beaucoup à un algorithme dit de Monte-Carlo qui est à l’opposé de la stratégie réfléchie à long terme. Le nombre de combinaisons est tel que par sondage on choisit une position au hasard et à l’aide de milliers de parties on conclut que statistiquement si c’est un coup recommandable ou pas. Le qualificatif « Intelligence » semble là incongru, nous relevons plus du domaine de la force brute.
Toutes ces considérations pour arriver à la constatation que la qualité des données en entrée est incontournable. Le nuage de points doit impérativement être fiable à défaut d’entacher d’erreurs les tendances qu’on en tire. En pratique le risque de fausses conclusions dépend bien plus de la forme du nuage de points que de l’algorithme qui en extrait la tendance. Ne comptez pas sur la quantité pour compenser une qualité non maîtrisée, vous risquez d’accentuer le phénomène. Les chiffres ne trompent pas : les data scientists consacrent 80 % de leurs temps, mise au point des algorithmes inclus, à nettoyer les données. Le temps de traque est bien moins coûteux que l’infection par des données non fiables. « The Citiscapes Dataset for semantic urban scene understanding” (https://www.cityscapes-
Ajoutons que traquer des mauvaises données ne peut être que l’œuvre de spécialistes du domaine. C’est en heures que se chiffre l’analyse des radiographies pour caractériser les tumeurs par des radiologues. Nous sommes bel et bien ancrés dans la mouvance des systèmes experts. Nourries par des praticiens nord américains, les applications médicales de Watson ont eu plus de succès en Corée du Sud au modèle de protection sociale proche qu’en Europe du Nord.
La duplication des données est à proscrire, mais elle n’est pas toujours facile à déceler. Elles peuvent ne se manifester que sous la forme de corrélations. On considère que 70 % des données sont périmées suite à un déménagement, changement d’adresse email. Une deuxième inscription renforçant une tendance est alors malaisée à traquer. L’utilisation de données incomplètes participe aux biais. On retrouve notamment cette situation lors de l’utilisation d’un jeu de données collecté pour un contexte autre. Ainsi la constatation “la majorité des accidents a lieu sur des trajets courts” n’a de signification que rapprochée d’une autre information qui est est la proportion de trajets courts effectués.
Il ne faut pas hésiter à remettre en cause ses données, un véritable risque existe à attribuer une confiance sans discernement dans des données non-fiables.
Bien plus que l’algorithme qui traduit un nuage de points en courbes, la constitution du nuage de points détermine l’efficacité d’une Intelligence Artificielle. “Garbage in, garbage out” nous rappelle l’adage.
Ajouter un commentaire