Fiche de SEP0932

SEP0932 - Apprentissage statistique et data mining

Mention / Parcours / Parcours type	ECTS	Points
Mathématiques et Applications / Statistique pour l'Evaluation et la Prévision / SEP	3	30

Équipe pédagogique
- Responsables
- KEZIOU Amor (Responsable)
  
  Département : Mathématiques (UFR SEN)

Nature	CM	TD	Total
Durée	20h	30h	50h

Nature	Durée	1ère session	2ème session
Nature	IE		50%	0%
CR		50%	0%
EOT		0%	100%

Nature	Durée	1ère session	2ème session
Nature	CR		100%	0%
EOT		0%	100%

Objectifs
Allant de pair avec le développement des outils informatiques, les bases de données très volumineuses sont de plus en plus nombreuses. Il s?agit alors de chercher à en extraire de l'information pertinente pour aider à la décision. Le Data Mining se base sur une articulation spécifique de différentes techniques statistiques. Ce cours vise à construire les différentes techniques statistiques utilisées lors du processus de Data Mining, en apprentissage statistique, classification et scoring, en particulier, en grande dimension et dans le cadre de données massives. La mise en ?uvre des différentes techniques explorées, d?apprentissage statistique de classification et de scoring, se fera à l?aide du logiciel R et Python. Des exemples de scoring issus des secteurs : bancaire, assurance ou marketing, seront présentés, par le biais d?intervention de professionnels.
Compétences spécifiques visées
- Acquérir les différentes méthodes d?apprentissage statistique et de classification, notamment en grande dimension ;- Savoir mettre en ?uvre ces techniques, à l?aide du logiciel R ou Python, pour répondre aux multiples problèmes réels du domaine d?application du Data Mining ;- Savoir créer un score adéquat ;- Etre à même d?utiliser et d?interpréter de manière pertinente un score.

Connaissances requises
Statistique niveau Master 1 de mathématiques, économétrie ou informatique ; Connaissances de base de R/Python.

Programme
- Analyse discriminante linéaire, quadratique et K-plus proches voisins- Classification binaire par régression logistique- Classification multi-groupes par régression logistique multinomiale- Modèles de rapport de densités pour la classification binaire ou multi-groupe- Sélection de modèles pour la classification par critères AIC et BIC, et validation croisée (leave-one- out, k-fold cross-validation, bootstrap)- Les machines à vecteurs de support (SVM)- Apprentissage statistique et classification en grande dimension : Méthodes de réduction dedimension ; Méthodes de régularisation ; Modèles à noyau- Application : Scoring