Accueil > 2013 > avril > Confie-moi tes données, je prédirai qui tu seras

Confie-moi tes données, je prédirai qui tu seras

Jonas Pulver | letemps.ch | samedi 20 avril 2013

samedi 20 avril 2013

letemps.ch

Confie-moi tes données, je prédirai qui tu seras
Jonas Pulver | letemps.ch | samedi 20 avril 2013

aaa

Achats, paiements, téléphonie, réseaux sociaux : de plus en plus de nos actes laissent des traces numériques. Une mine d’or pour les entreprises qui s’en servent pour anticiper nos comportements. Jusqu’à quel point ?

C’est l’histoire de l’adolescente, du papa et de la chaîne de supermarchés. Le père débarque dans l’une des enseignes, non loin de Minneapolis. Il demande à voir le manager. Furieux : « Ma fille a reçu ça par la poste ! Elle est encore à l’école et vous lui envoyez des coupons d’offres pour des habits de nourrisson et des berceaux ? Est-ce que vous essayez de l’encourager à tomber enceinte ? » Décontenancé, le manager est bien obligé de constater : le catalogue adressé à la fille contient de la publicité pour des articles de puériculture. Il s’excuse. Prend la peine de rappeler quelques jours plus tard pour s’excuser à nouveau. Mais, cette fois, l’attitude du père est fort différente. « J’ai eu une discussion avec ma fille. Il semblerait qu’il se soit produit chez moi des choses dont je n’étais pas tout à fait averti. Elle va accoucher en août… »

Une chaîne de supermarchés qui en sait plus sur une lycéenne que ses propres parents : l’histoire fait grand bruit aux Etats-Unis. Pas tant parce qu’elle bousculerait quelques mœurs puritaines, mais parce que l’envoi des coupons incriminés ne devait rien au hasard. Il témoigne de la puissance d’anticipation dont disposent désormais les pros du marketing. Big Data et analyse prédictive : voilà comment on appelle ces boules de cristal d’un genre nouveau.

Il s’agit d’utiliser les traces digitales que nous laissons tous, sans cesse, lorsque nous faisons des achats, surfons sur Internet ou utilisons un téléphone portable. Ces énormes masses de données (d’où leur affiliation au mot-valise Big Data), sont soigneusement stockées par les marques, les moteurs de recherche ou les opérateurs. Leur utilisation fait l’objet de plusieurs livres passionnants (en anglais) parus dernièrement.

Une mine de données, donc, dont il faut encore pouvoir extraire le minerai. Le tamis à informations, c’est l’analyse prédictive ; dans une certaine mesure, il s’agit bel et bien de prédire le futur. Ce procédé emploie divers outils probabilistiques, notamment les algorithmes, pour définir le modèle comportemental que tel ou tel individu est enclin à adopter. Eric Siegel, auteur du livre Predictive Analytics, résume les choses ainsi : « Une organisation qui ne met pas à profit ses data, à savoir les expériences de ses membres, c’est un peu comme une personne dotée d’une formidable mémoire photographique mais qui ne prend jamais la peine de réfléchir. »

En l’occurrence, la réflexion sert surtout à maximiser les ventes. Il ne s’agit plus seulement de savoir, par temps chaud, quelle proportion de la population est susceptible de manger une glace. Mais, parmi cette population, de désigner quelles sont exactement les personnes les plus susceptibles de manger une glace. Bon : les goûts et les gourmandises, sur un ticket de caisse Cumulus, ne doivent pas être bien sorciers à isoler. Mais une grossesse ?

Après avoir identifié des milliers de nouvelles mamans, Target (la chaîne de supermarchés) a minutieusement fouillé leurs habitudes d’achats durant les mois précédant le terme. Un soudain besoin accru de crème hydratante sans parfum, une forte consommation d’ouate, du calcium en complément alimentaire et les jeux sont faits, révèle Charles Duhigg, auteur de The Power of habit
. Mais Target ne s’arrête pas là. Le magasin s’emploie à connaître l’âge, la situation familiale et financière, le lieu de vie, le type de carte de crédit et les sites web visités par ses clients. Le discounter peut aussi acheter des données concernant l’origine ethnique, le niveau d’études, l’appartenance politique, le numéro de plaque ou les sujets de discussion en ligne de ses clients.

« A travers leurs programmes de fidélisation, les marques offrent depuis longtemps des avantages à leurs consommateurs en échange de leurs données. La récolte de ces informations est simplement devenue beaucoup plus facile par le biais d’Internet », note Chris Wiggins, professeur à l’Institute for Data Sciences de Columbia. « Avec Facebook, par exemple, les gens se focalisent sur ce qu’ils obtiennent immédiatement, à savoir une manière très satisfaisante d’agencer et de voir les informations de leurs amis. Certains ne se préoccupent pas de savoir comment le réseau social va utiliser ces informations pour aider les entreprises à proposer de la publicité toujours plus ciblée et vendre des produits. »

Google, au niveau de la géolocalisation ou de la reconnaissance de visages et d’objets, Amazon et Netflix pour les systèmes de recommandation de livres ou de films, ne sont pas en reste. L’étape suivante ? Etre en mesure de mettre en relation des silos de data hétérogènes pour obtenir des prédictions encore plus pointues. « Comment détecter qu’une entité dans un jeu de données est similaire à une autre entité dans un jeu de données tiers ? C’est l’un des grands défis de ce que l’on appelle le semantic web », explique Philippe Cudré-Mauroux, professeur à l’Université de Fribourg et ancien chercheur au MIT. Croiser recensement populaire, filtrage de mails et données aériennes : ce ne sera bientôt plus de la science-fiction. D’ailleurs, la CIA ne se cache pas de monitorer en temps réel les gazouillis de la Toile. Philippe Cudré-Mauroux : « Les progrès techniques sont rapides ; les questions sont plutôt d’ordre éthique et social. » Celles touchant à la protection des informations personnelles, par exemple. « Il est très difficile d’anonymiser des jeux de données. Si l’anonymat est réel, cela rend les données nettement moins riches, voire inutiles. »

En l’occurrence, la réflexion sert surtout à maximiser les ventes. Il ne s’agit plus seulement de savoir, par temps chaud, quelle proportion de la population est susceptible de manger une glace. Mais, parmi cette population, de désigner quelles sont exactement les personnes les plus susceptibles de manger une glace. Bon : les goûts et les gourmandises, sur un ticket de caisse Cumulus, ne doivent pas être bien sorciers à isoler. Mais une grossesse ?

Après avoir identifié des milliers de nouvelles mamans, Target (la chaîne de supermarchés) a minutieusement fouillé leurs habitudes d’achats durant les mois précédant le terme. Un soudain besoin accru de crème hydratante sans parfum, une forte consommation d’ouate, du calcium en complément alimentaire et les jeux sont faits, révèle Charles Duhigg, auteur de The Power of habit
. Mais Target ne s’arrête pas là. Le magasin s’emploie à connaître l’âge, la situation familiale et financière, le lieu de vie, le type de carte de crédit et les sites web visités par ses clients. Le discounter peut aussi acheter des données concernant l’origine ethnique, le niveau d’études, l’appartenance politique, le numéro de plaque ou les sujets de discussion en ligne de ses clients.

« A travers leurs programmes de fidélisation, les marques offrent depuis longtemps des avantages à leurs consommateurs en échange de leurs données. La récolte de ces informations est simplement devenue beaucoup plus facile par le biais d’Internet », note Chris Wiggins, professeur à l’Institute for Data Sciences de Columbia. « Avec Facebook, par exemple, les gens se focalisent sur ce qu’ils obtiennent immédiatement, à savoir une manière très satisfaisante d’agencer et de voir les informations de leurs amis. Certains ne se préoccupent pas de savoir comment le réseau social va utiliser ces informations pour aider les entreprises à proposer de la publicité toujours plus ciblée et vendre des produits. »

Google, au niveau de la géolocalisation ou de la reconnaissance de visages et d’objets, Amazon et Netflix pour les systèmes de recommandation de livres ou de films, ne sont pas en reste. L’étape suivante ? Etre en mesure de mettre en relation des silos de data hétérogènes pour obtenir des prédictions encore plus pointues. « Comment détecter qu’une entité dans un jeu de données est similaire à une autre entité dans un jeu de données tiers ? C’est l’un des grands défis de ce que l’on appelle le semantic web », explique Philippe Cudré-Mauroux, professeur à l’Université de Fribourg et ancien chercheur au MIT. Croiser recensement populaire, filtrage de mails et données aériennes : ce ne sera bientôt plus de la science-fiction. D’ailleurs, la CIA ne se cache pas de monitorer en temps réel les gazouillis de la Toile. Philippe Cudré-Mauroux : « Les progrès techniques sont rapides ; les questions sont plutôt d’ordre éthique et social. » Celles touchant à la protection des informations personnelles, par exemple. « Il est très difficile d’anonymiser des jeux de données. Si l’anonymat est réel, cela rend les données nettement moins riches, voire inutiles. »


Voir en ligne : Confie-moi tes données, je prédirai qui tu seras

Un message, un commentaire ?

Qui êtes-vous ?
Votre message

Pour créer des paragraphes, laissez simplement des lignes vides.