SEP0932 - Apprentissage statistique et data mining

Retour au parcours Retour à la liste des EC
  • Équipe pédagogique

    • Responsables

    • KEZIOU Amor (Responsable)
      Département : Mathématiques (UFR SEN)
  • Volume horaire

  • Nature CMTD Total
    Durée 20h30h50h
  • Modalités de contrôle des connaissances (MCC)

  • Epreuves Nature IECREOT Total
    Durée
    Cas général 1ère session 5050 100%
    2nd session 100 100%
    Dispense contrôle continu 1ère session 100 100%
    2nd session 100 100%
  • Modalités de contrôle des connaissances (MCC)

  • Cas général

  • Nature Durée 1ère session 2ème session
    IE 50% 0%
    CR 50% 0%
    EOT 0% 100%
  • Dispense contrôle continu

  • Nature Durée 1ère session 2ème session
    CR 100% 0%
    EOT 0% 100%
  • Objectifs

  • Allant de pair avec le développement des outils informatiques, les bases de données très volumineuses sont de plus en plus nombreuses. Il s?agit alors de chercher à en extraire de l'information pertinente pour aider à la décision. Le Data Mining se base sur une articulation spécifique de différentes techniques statistiques. Ce cours vise à construire les différentes techniques statistiques utilisées lors du processus de Data Mining, en apprentissage statistique, classification et scoring, en particulier, en grande dimension et dans le cadre de données massives. La mise en ?uvre des différentes techniques explorées, d?apprentissage statistique de classification et de scoring, se fera à l?aide du logiciel R et Python. Des exemples de scoring issus des secteurs : bancaire, assurance ou marketing, seront présentés, par le biais d?intervention de professionnels.
  • Compétences spécifiques visées

  • - Acquérir les différentes méthodes d?apprentissage statistique et de classification, notamment en grande dimension ;- Savoir mettre en ?uvre ces techniques, à l?aide du logiciel R ou Python, pour répondre aux multiples problèmes réels du domaine d?application du Data Mining ;- Savoir créer un score adéquat ;- Etre à même d?utiliser et d?interpréter de manière pertinente un score.
  • Connaissances requises

  • Statistique niveau Master 1 de mathématiques, économétrie ou informatique ; Connaissances de base de R/Python.
  • Programme

  • - Analyse discriminante linéaire, quadratique et K-plus proches voisins- Classification binaire par régression logistique- Classification multi-groupes par régression logistique multinomiale- Modèles de rapport de densités pour la classification binaire ou multi-groupe- Sélection de modèles pour la classification par critères AIC et BIC, et validation croisée (leave-one- out, k-fold cross-validation, bootstrap)- Les machines à vecteurs de support (SVM)- Apprentissage statistique et classification en grande dimension : Méthodes de réduction dedimension ; Méthodes de régularisation ; Modèles à noyau- Application : Scoring