Le Master 1 IP/IT, c’est plus que du droit. Nous bénéficions en effet, au cours des deux semestres d’un cours de C2i Métiers du Droit. L’idée étant de former des juristes spécialistes du droit du numérique et de la propriété intellectuelle, tout en ayant les bases en informatique.
C’est pourquoi je vais vous faire découvrir aujourd’hui la profession de Data scientist. Je remercie Jean-Baptiste Piochaud et l’entreprise What A Nice Place (WANP) pour leur accueil.
https://www.whataniceplace.com/
Avant de vous présenter ce métier très mystérieux encore, il convient de revenir sur le contexte de sa création.
I – LE BIG DATA : DÉFINITIONS ET ENJEUX
1 – Définition
Le Big data, ce nouveau terme à la mode dont tout le monde parle. Mais que signifie-t-il réellement ? Big data peut se traduire littéralement par « grosses données » ou « données massives ».
Il « s’agit d’un ensemble très volumineux de données, structurées et non structurées, qu’aucun outil classique d’outils de bases de gestion de données ou de gestion de l’information ne peut traiter de façon efficace ». [1]
Les machines contribuent à l’augmentation de ce volume de données en étant de plus en plus connectées, objets connectés, réseaux sociaux, mais c’est également un phénomène de libéralisation de la donnée et notamment de la donnée publique.
Cette libéralisation de la donnée a commencé en droit français par la loi du 17 juillet 1978 relative aux droits d’accès aux documents administratifs avec la création de la CADA, la loi Macron 2015 du 7 août 2015, pour les horaires de transports, la loi NOTRe du 7 août 2015, créant pour les communes de plus de 3500 habitants l’obligation de rendre accessibles leurs informations publiques, la loi Vater du 28 décembre 2015 pour la gratuité de l’ouverture des données publiques et enfin, la Loi pour une République Numérique, par l’ajout de l’exception de text and data mining, et l’ouverture des décisions des données de décisions de justice. [2]
C’est l’open data qui est consacrée par la loi Lemaire avec l’ouverture de bases de données.
.
Les bases de données traditionnelles, relationnelles ne suffisent plus pour gérer les données du Big data. En effet, les bases de données traditionnelles sont qualifiées de « SQL », qui signifie « Structured Query Language », un langage permettant de communiquer avec une base de données.
Le problème des bases de données dites SQL, pour simplifier, est qu’elles sont capables de gérer des données uniquement de même nature (des noms, des dates), et elles sont liées entre elles par une clef (clef primaire). Ce modèle n’est pas adapté aux données du Big data. Il a alors été question de créer des nouvelles techniques dites « No SQL », cela permet de gérer tout un volume de données hétérogènes.
.
Les spécialistes d’IBM ont ainsi caractérisé le Big data par les 3 « V ».
- Le Volume: c’est un volume considérable de données à traiter.
- La Vélocité: c’est la rapidité du Big data (par exemple des données de géolocalisation en temps réel pour les utilisateurs des moyens de transports).
- La Variété: il rassemble des informations de sources très diverses et souvent non structurées, issues de divers domaines. Le traitement et le recoupement de données et de sources de format varié est le plus gros écueil à l’heure actuelle.
Cependant, la donnée brute n’est pas synonyme d’information et n’a, en tant que telle, aucune utilité. La donnée, uniquement quand cette dernière est traitée, est précieuse, car elle devient « information ».
2 – Enjeux
Cette information peut parfois heurter notre vie privée quand ces informations sont relatives à nos données personnelles, telles que définies à l’article 2 de la loi informatique et libertés[3]. Différents scandales et notamment l’affaire Snowden[4] a éveillé les consciences des internautes par rapport à la protection de leurs données.
Le Big data et l’Open data soulèvent ces inquiétudes, et notamment l’anonymisation des données, pour prendre exemple de l’ouverture des décisions de justice. D’une part l’ouverture est essentielle pour l’accès à la connaissance, mais d’autre part, le respect de la vie privée nécessite de protéger ces données à caractère personnel. C’est un subtil équilibre difficile à mettre en œuvre.
II – Découvrez le métier de Data scientist
1 – L’intelligence artificielle
L’intelligence artificielle a aujourd’hui connue également un essor fulgurant. L’intelligence artificielle Watson, d’IBM est l’une des plus connues.
Cette intelligence artificielle atteint un niveau très poussé ! Elle est utile dans tous les secteurs comme par exemple la médecine ou la justice. La plus grande peur du public c’est que l’intelligence remplace l’homme.
Mais comme l’assure, Rob High, qui dirige le projet Watson chez IBM[5].
« Ces limites peuvent restreindre notre processus créatif, notre compréhension du monde et notre capacité à prendre les bonnes décisions. Quand nous parlons d’IA, nous ne voyons pas ça comme une copie de l’intelligence humaine, mais comme de l’intelligence augmentée. »
.
L’intelligence suscite néanmoins beaucoup de craintes, chez Bill Gates[6] ou encore Stephen Howking énonçaient à ce propos[7] :
« Je suis de ceux qui s’inquiètent de la super-intelligence. Dans un premier temps, les machines accompliront de nombreuses tâches à notre place et ne seront pas super-intelligentes. Cela devrait être positif si nous gérons ça bien. Plusieurs décennies plus tard cependant, l’intelligence sera suffisamment puissante pour poser des problèmes. Je suis d’accord avec Elon Musk et d’autres, et je ne comprends pas pourquoi les gens ne sont pas inquiets », dit Bill Gates.
« Réussir à créer l’IA serait le plus grand événement de l’histoire humaine. Malheureusement, il pourrait également être le dernier, à moins que nous n’apprenions à éviter les risques. » Stephen Howking.
2 – L’intelligence artificielle, le data scientist et les entreprises
Maintenant, je vais vous présenter un nouveau métier, le métier de Data Scientist. C’est un métier récent, directement lié au Big data, il intervient pour en quelque sorte donner du sens aux données.
What A Nice place (WANP) est une entreprise dans le domaine de la décoration qui utilise l’intelligence artificielle. En effet, WANP utilise l’IA pour t’aider à trouver les meubles qui te correspondent le mieux grâce à un coach de déco virtuel !
WANP m’a accueillie en février dernier afin de réaliser cette interview sur le métier d’un salarié, Jean Baptiste Piochaud, qui exerce la profession de Data Scientist.
.
Qu’est-ce que WANP ?
WANP est une plateforme pour avoir accès à plein de produits de décoration et également un service de coach déco virtuel.
Il y a donc une base de données de produits qu’il faut alimenter pour essayer d’avoir de l’information sur ces produits. Ces données étaient alimentées à l’origine par des humains. En somme des petites mains qui rentraient manuellement les caractéristiques de chaque photo de produit dans la base de données. Ainsi, derrière chaque photo il fallait définir si la chaise était par exemple d’un style rustique, industrielle, moderne, rouge, ou bleue !
Cette 1ère étape s’appelle la qualification de la donnée (un peu comme nous en droit !) Le style était donc défini manuellement mais cette tâche était chronophage et gigantesque ! Il y a environ 300 000 produits dans la base de données ce qui correspond à environ 3 millions d’attributs.
L’humain ne peut plus suivre. L’entreprise arrivait à bout de souffle, la solution qui se présentait était soit d’embaucher 10 salariés pour ne faire que ça, ce qui représente un coût monstrueux pour les entreprises, soit trouver une solution pour automatiser le traitement de cette donnée.
.
L’apprentissage de la machine
L’option de l’automatisation du traitement de la donnée a été choisie et c’est là qu’intervient le rôle du Data scientist.
Le problème de qualification automatique est très complexe. En effet, en termes de photos, images, pour un même concept visuel il existe une infinie manière de la représentation. Il existe des multitudes de variations de point de vue, l’illumination ou encore d’échelles.
Exemple : un chat qui s’étire. Google image : petit test : tapez le mot chat, vous allez trouver des images insolites !Aucune image ne se ressemble. Cependant, dans le cadre du marketing, on retrouve certains codes ce qui rend la tâche moins difficile.
.
Il existe 3 approches pour la qualification :
Pour simplifier,
- Le template matching: « forme générique objet ». C’est une technique de traitement d’image numérique, permettant de trouver de petites parties d’une image qui correspond à une image modèle. Ce sont les premières approches, les moins performantes également.
- Le machine learning: ce sont des algorithmes statistiques. Des images sont transformées en vecteur et cela permet de déterminer de manière statistique les attributs. On fournit aux algorithmes des données, et on leur indique quelle est la bonne ou mauvaise réponse en fonction d’un modèle.
- Le deep learning: C’est ce que l’entreprise utilise. Ils apprennent les caractéristiques à cette machine. C’est la méthode la plus poussée d’intelligence artificielle. Ce sont des algorithmes génériques qui savent s’adapter et trouver des réponses même si les informations fournies sont erronées, incomplètes. Ils imitent le fonctionnement du cerveau humain.
.
Le rôle du data scientist
C’est donc d’extraire l’intelligence des données et de modéliser la donnée afin de répondre à une question opérationnelle.
Chez WANP, il a donc été question de qualification automatique d’image.
Il faut obtenir un processus automatisé, que l’image en passant par un modèle donne automatiquement la réponse opérationnelle.
Image puis réponse (sans intervention humaine).
.
Le Data scientist crée donc un modèle (modélisation de la donnée) et quand on fait transiter la nouvelle donnée à travers ce modèle, cela donne la réponse opérationnelle (le canapé est bleu).
La réponse opérationnelle répond à « la problématique métier ». Le métier, c’est le besoin de l’entreprise.
Entre la donnée et la modélisation, en amont, il faut faire des prétraitements de la donnée pour que l’opération se passe bien, c’est le preprocessing.
En aval, il faut que cette réponse soit juste. L’intérêt sera alors de quantifier la précision des modèles. Ce sont les KPI. Ces derniers peuvent être définis comme : « un ensemble d’indicateurs qui permettent de mesurer des données par rapport à une sorte d’étalon de la réussite d’une entreprise. Au final, ils aident cette dernière à évaluer sa progression vers des objectifs déclarés »[8].
C’est une itération avec le métier, de manière à raffiner le modèle, le rendre plus performant. Il faut que le score soit bon, par exemple, 80%. Si le score n’est pas bon, on adapte la modélisation afin de l’améliorer.
Quand une donnée que le modèle n’a jamais vue, elle transite dans ce modèle cela donne une réponse.
Le Data scientist normalise également les données pour les mettre sur la même échelle.
Ce schéma est donc applicable à toutes sortes d’hypothèses.
Exemple : Cela peut être pour un site web, le métier serait alors « le visiteur est-il nouveau ? » « A-t-il un profile d’acheteur ou non ? ». On peut ainsi faire du ciblage différent en fonction des stratégies. Le parcours client est un indice précieux afin de segmenter la pub en fonction de ce parcours client, afin de mieux rentabiliser la pub.
.
Dans la partie coach virtuel du site, si une image est donnée de mon intérieur, la machine doit dire quel type d’objet s’accorderait avec mon intérieur.
La réponse n’est pas toujours parfaite. C’est pourquoi il faut entraîner les réseaux de neurones, et créer le modèle.
.
Comment la donnée est-elle représentée ?
Ce sont des nuages de points.
Le machine learning sépare des nuages de points afin de répondre à une question opérationnelle : (un canapé rond, carré) le but est ainsi de créer une frontière de décision.
Cela s’opère toujours dans la problématique de répondre à une réponse opérationnelle. Un nuage de point répond à une question. Il faut alors trouver la meilleure frontière de décision.
.
Les difficultés juridiques de l’utilisation de photos pour alimenter l’IA ?
Pour le moment chez WANP, il n’y a pas d’accès aux parcours clients ni de données personnelles (telles que définies par la Loi informatique et libertés de 1978). Concernant les images des biens meubles qui alimentent la machine, il semble qu’il n’y ait pas, en l’état actuel des choses, un droit à l’image sur les meubles. Elles sont utilisées pour entraîner la machine, mais elles ne contiennent pas de données à caractère personnel.
En effet, un arrêt de la Cour de cassation rendu en assemblée plénière, le 7 mai 2004[9], jurisprudence Hôtel de Giracourt, énonce que « le propriétaire d’une chose ne dispose pas d’un droit exclusif sur l’image de celle-ci ; qu’il peut toutefois s’opposer à l’utilisation de cette image par un tiers lorsqu’elle lui cause un trouble anormal », semble autoriser l’utilisation de ces images pour alimenter une intelligence artificielle.
Cependant, il est légitime de se poser la question si les photos contiennent des visages de personnes, que ces dernières aient été floutées ou non. Car en effet, on remarque que désormais l’intelligence artificielle arrive quand même à identifier des visages au préalables floutés[10]. L’anonymisation des données n’est jamais acquise avec les progrès de la technique.
Mélanie Cras
1ère année Master IP/IT
Sources :
[1] Cours de Mme Capestan, janvier 2017.
[2] Loi n° 2016-1321 du 7 octobre 2016 pour une République numérique, article 17.
[3] Article 2 de la loi Informatique et libertés : « Constitue une donnée à caractère personnel toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres. Pour déterminer si une personne est identifiable, il convient de considérer l’ensemble des moyens en vue de permettre son identification dont dispose ou auxquels peut avoir accès le responsable du traitement ou toute autre personne ».
« La personne concernée par un traitement de données à caractère personnel est celle à laquelle se rapportent les données qui font l’objet du traitement »
[4] http://www.lemonde.fr/technologies/article/2014/05/13/l-affaire-snowden-racontee-par-celui-qui-l-a-revelee_4415920_651865.html
[5] http://www.lemonde.fr/pixels/article/2017/03/12/a-la-rencontre-de-watson-l-intelligence-artificielle-star-d-ibm_5093342_4408996.html
[6] http://www.agoravox.fr/tribune-libre/article/l-intelligence-artificielle-165130
[7] http://leplus.nouvelobs.com/contribution/1273408-l-intelligence-artificielle-peut-etre-dangereuse-il-faut-s-en-proteger-des-maintenant.html
[8] http://www.lemagit.fr/definition/Indicateur-cle-de-performance-KPI
[9] Cour de Cassation, Assemblée plénière, du 7 mai 2004, 02-10.450, Publié au bulletin
[10] https://linc.cnil.fr/fr/nous-voyons-des-pixels-lintelligence-artificielle-reconnait-des-visages