Parlons data

Parlons data

  1. Analyse
  2. 2018/08/17

Est-ce qu’on peut TOUJOURS se fier aux données pour prendre des décisions d’affaires?

Je suis ce qu’on pourrait appeler une data geek. Une des raisons pour laquelle j’aime le marketing numérique, c’est qu’on a accès à une tonne de données qui nous aident à améliorer la compréhension du monde qui nous entoure et, en tant que stratège, notre prise de décision.

Juste pour vous mettre en contexte, Excel, c’est mon meilleur ami au travail. J’ai un plaisir fou à rentrer des chiffres dans mes fichiers et à voir ce qui se passe. J’ai énormément de respect et d’admiration pour mes amis actuaires et statisticiens. Il y a une partie de moi qui est déçue d’avoir renié mon amour pour les chiffres grâce à un mauvais prof de math au secondaire qui m’a scrappé mon estime personnelle (et momentanément mon intérêt pour sa matière). Mais bon, c’est pas ça le point de cet article. Je digresse.

La data.

Je me suis demandé si on pouvait se fier aux données pour prendre des décisions d’affaires.

Il y a un article de blogue qui a circulé beaucoup cette semaine dans mon fil Facebook au sujet de la manipulation des données sur le changement climatique que je me permets de résumer pour vous.

Disclaimer : même si l’auteur de l’article, Grant Foster, est assez mystérieux et controversé, son point de vue est pertinent et mérite d’être partagé. Tous les graphiques présentés sont tirés de son blogue.

Voici la température moyenne des 48 états continentaux des États-Unis depuis que la NOAA (National Oceanic and Atmospheric Administration) collecte des données, en 1895.

data

N’importe qui peut constater qu’une tendance à la hausse se dégage. Les températures moyennes tendent à augmenter avec les années. C’est pas beau tout ça.

What if ces données-là ne faisaient pas mon affaire?

What if on aurait besoin de quelque chose qui servirait plus notre propos.

Qu’est-ce qu’on pourrait faire?

On pourrait ne plus utiliser les températures moyennes, mais plutôt juste les températures les plus froides enregistrées dans l’année? Peut-être qu’on pourrait faire dire autre chose au graphique de cette façon-là?

data

Nope. Même tendance alarmante.

Et les plus élevées?

data

Ishhh. Pas vraiment mieux.

Et les moyennes saisonnières, elles?

data

Toujours cette même tendance à la hausse.

Et si on éliminait les données qui sont les plus basses, celles situées entre 1895 et 1918?

data

Ah! Là on tient quelque chose. C’est moins alarmant de cette façon-là. Mais c’est pas encore exactement ce qu’on voudrait faire dire aux chiffres.

Les données proviennent de la NOAA. Elles sont collectées selon une méthodologie rigoureuse et traitées par leurs mathématiciens depuis plus d’un siècle. Attendez, quoi? Traitées? Mais qu’est-ce que ça veut dire?

Ça veut dire qu’entre 1985 et 2018, il y a des stations qui ont été déplacées, d’autres qui sont apparues et qu’il y a plus de stations légèrement au nord maintenant qu’il y a 50 ans. Si on veut faire une moyenne de température pour une région aussi vaste que les États-Unis, eh bien il faut pondérer les résultats pour que l’analyse ne soit pas faussée par une surreprésentation des stations du nord, donc plus froides.

Vous me voyez venir.

Si on cherche explicitement à faire dire quelque chose à des données, on pourrait se dire que la donnée traitée, pondérée, elle ne fait pas notre affaire. On pourrait se dire que la donnée brute serait plus efficace.

data

Ah ben oui. Ça marche. De cette façon-là, on a l’air de dire que les températures sont à la baisse. Mission accomplie!

Tricher à plus petite échelle

Cet exemple-là est assez flagrant. Ça parle de malhonnêteté intellectuelle qui sert à faire de la propagande anti-changement climatique.

J’aimerais rappeler qu’à partir du moment où on collecte et analyse des données, qu’elles proviennent de Facebook, de Google Analytics ou de la NOAA, surtout quand ces données servent à influencer des décisions, on a une responsabilité professionnelle. Pour faire simple : on ne bullshit pas. Même à petite échelle.

J’ai récemment eu un cas d’un client qui voyait dans les rapports d’analyse de performance de son ancien fournisseur des taux d’engagement mensuels sur Facebook oscillant entre 12% et 18%. Les habitués de la plateforme savent que c’est pratiquement impossible de conserver une moyenne aussi élevée sur plusieurs mois.

Ça m’a fait sourciller.

J’ai donc pris l’initiative de vérifier ses ratios par rétro-ingénierie avec les données sources. Et j’arrivais à des moyennes plutôt autour de 6% à 10%, ce qui me semblait plus probable. J’ai finalement compris que le fournisseur utilisait des données en doublon en calculant son ratio, ce qui faisait pratiquement doubler le résultat.

Bref

La prochaine fois qu’on vous montrera des beaux graphiques dans un PowerPoint pour influencer une de vos décisions, posez donc des questions sur la façon dont les données ont été récoltées et analysées.

Juste pour voir.

Bianka Bernier

Bianka est l’heureux résultat de l’union entre la stratégie, la communication numérique et l’interprétation rigoureuse des données. Fille de bois aguerrie, elle peut allumer n’importe quel feu, avec une seule allumette. Les scouts n’ont qu’à bien se tenir.

Infolettre Vio

Restez informé des plus récentes innovations du marketing numérique, des médias sociaux et des communications.