lundi 20 avril 2015

Analyse du livre "Big Data et Machine Learning" (vision Statisticien)

Introduction


Cet article est le second sur quatre prévus présentant un livre très récent dédié au Big Data, à la Data Science et notamment au Machine Learning.
Ce deuxième article donnera ma vision du livre d'un point de vue du statisticien (à mon niveau c'est à dire ayant l'équivalent d'un BAC+2 à BAC+3 en statistique).

Pourquoi 4 articles pour un même livre ?

Ce livre est, je le répète, une excellente introduction sur le sujet et permet à des néophytes à la fin du livre d'avoir à minima une compréhension à grosse maille des enjeux et des techniques de la "Data Science".

Ce qui me gêne dans la couverture c'est la phrase "Manuel du Data Scientist"... Sachant que le livre ne fait "que" 220 pages, difficile de tout aborder dans un livre aussi court.

Ce qui manque à un statisticien

Dans l'ouvrage, on parle de "Machine Learning" en vue de prévision. 

Quelques définitions

Nulle part dans l'ouvrage, nous avons droit ni en note de page, ni en glossaire à la fin du livre des définitions importantes comme :

  • On a une définition un peu simple de la notion d'intervalle de confiance mais suffisamment intuitive (p109).
  • La notion d'estimateur statistique. Celui est pourtant important dans toute modélisation statistique en vue d'inférence.
  • La notion précise du biais. Le mot est évoqué de temps en temps mais sans définition mathématique (encore une fois pour ne pas effrayer les personnes allergiques aux maths mais une note de bas de page aurait pu être utile pour les plus curieux).
  • Le fait que l'estimateur n'est jamais juste et on aura soit un problème de biais, soit un problème de variance, c'est le fameux dilemme biais-variance. Il y a cependant dans le livre en page 148, une explication non mathématique expliquant les écarts entre les données prévues et la dispersion du modèle.
  • Toujours en parlant d'estimateur, on ne retrouve pas la notion d'estimateur robuste (non basé sur la moyenne mais sur la médiane ou les centiles).
  • Quand on parle de prévision, on est sensé indiquer quel événement futur doit-on cherché à deviner. C'est la notion d'horizon.  Pour être plus clair, nous avons toutes nos données de Xt0 à Xtn (n étant la dernière données connues), l'horizon 1 cherche à trouver la valeur suivante c'est à dire Xtn+1, l'horizon 2 cherche la valeur suivante soit xtn+2, etc...
Et du côté des probas :

  • Nous avons une note de base de page en 119 sur les probabilités conditionnelles P(A|B)
  • Cependant, je n'ai pas trouvé dans le livre des références ou des notes de bas de page sur les notions de : 
  • Expérience aléatoire, univers, événement, tribu ou encore espace probabilisé
  • Variable aléatoire, Espérance mathématique, loi statistique, fréquence... 

Et les séries temporelles (pour l'économétrie ou autre) ?

Toujours sur la partie prévision, éclipser quasiment totalement les séries temporelles vu par les mathématiques (même cela concerne des transformations linéaires et souvent mono-variable) est quand même un grand oubli.

Pour rappel, une série temporelle est caractérisée par :

  • une tendance (malgré la variance, les valeurs de la série diminuent-elle ou augmentent-elle au fur et à mesure du temps ?).
  • une saisonnalité (variation sur l'année et répétitif d'une année sur l'autre)
  • un éventuel cycle (comme une saisonnalité mais une plus grande période)
  • un bruit blanc (celui-ci est définit dans le livre en page 109)

Et Box et Jenkins ?


La seule référence à Box & Jenkins est une citation de Box sur les modèles statistiques et leurs utilités.
Nulle part, on parle du processus ARMA de Box & Jenkins qui fut pourtant un modèle dans les années 1970.
Même si le processus n'est pas parfait, il existe des variantes : ARIMA et GARCH, VAR, VARIMA...
Mais effectivement, ce modèle AR[I]MA est linéaire et peut-être trop loin des outils traditionnels de Data Mining.

Et les tests statistiques ?

Le statisticien possède plusieurs outils pour construire son modèle statistique et les tests statistiques sont un moyen de construire et valider son modèle.
L'ouvrage présente de quoi faire des validations croisées entre algo de Machine Learning et selon leur paramétrage initiaux, mais le statisticien pourra également faire d'autres types de tests en préparation des données (l'ajout de feature, l'indépendance de certaines variables par rapport à d'autres, test de conformité à une loi statistique qu'un informaticien "normal" n'aura pas repéré)

Il y a Manuel et manuel...

Pour conclure, le livre présente en 220 pages une très bonne présentation du sujet, c'est clair et compréhensible.
Je mets, par contre, en garde un profil ne connaissant uniquement que l'informatique et qui après avoir lu le livre pourrait se sentir "Data Scientist". Un statisticien pourrait très vite refroidir l’enthousiasme de notre jeune informaticien en lui posant des colles sur des notions qui doivent être vu en dehors du livre.

Encore une fois, le slogan "Manuel du data scientist" est plus à prendre comme un pense-bête du Data Scientist pour ne pas oublier certaines étapes.
Ce métier de Data Scientist exige des connaissances en informatique mais également de vraies notions en statistiques qui ne s'acquièrent pas par hasard.

Ma bibliographie du statisticien :

  • La statistique sans formule mathématique (excellent livre présentant les stats & proba sans aucune formule de math) de Bernard PY
  • Mini manuel de probabilités et statistique (livre d'exercices et de résumés de cours mais accessibles sur les notions de base) de Françoise COUTY, Jean DEBORD et Daniel FREDON
  • Probabilites Analyse des Données et Statistique (à l'opposé, c'est une bible de 660pages mais le style est plus un recueil de formules que d'un ouvrage permettant une compréhension) de Gilbert SAPORTA
  • Statistique - Méthodes pour décrire, expliquer et prévoir - (ouvrage plus poussé que celui de Bernard PY mais plus compréhensible que celui de G . Saporta) de Michel Tenenhaus

Aucun commentaire:

Enregistrer un commentaire