INFO0901 - Apprentissage statistique et Data mining

Retour aux MCC Retour à la liste des EC
  • Liste des parcours dans lesquels apparaît l'EC

  • Mention / Parcours / Parcours type ECTS Points
    Informatique / Informatique / IA 6 60
  • Équipe pédagogique

    • Responsables

    • KEZIOU Amor (Responsable)
      Département : Mathématiques (UFR SEN)
    • ROUSSEAUX Francis (Responsable)
      Département : Mathématiques (UFR SEN)
  • Volume horaire

  • Nature CMTD Total
    Durée 20h30h50h
  • Modalités de contrôle des connaissances (MCC)

  • Epreuves Nature IECREOTEOT Total
    Durée 1h300h300h30
    Cas général 1ère session 5050 100%
    2nd session 5050 100%
    Dispense contrôle continu 1ère session 5050 100%
    2nd session 5050 100%
  • Modalités de contrôle des connaissances (MCC)

  • Cas général

  • Nature Durée 1ère session 2ème session
    IE 1h30 50% 0%
    CR 50% 50%
    EOT 0h30 0% 50%
  • Dispense contrôle continu

  • Nature Durée 1ère session 2ème session
    CR 50% 50%
    EOT 0h30 50% 0%
    EOT 0h30 0% 50%
  • Objectifs

  • Allant de pair avec le développement des outils informatiques, les bases de données très volumineuses sont de plus en plus nombreuses. Il s?agit alors de chercher à en extraire de l'information pertinente pour aider à la décision. Le Data Mining se base sur une articulation spécifique de différentes techniques statistiques. Ce cours vise à construire les différentes techniques statistiques utilisées lors du processus de Data Mining, en apprentissage statistique, classification et scoring, en particulier, en grande dimension et pour des données massives. La mise en ?uvre des différentes techniques explorées, d?apprentissage statistique, de classification et de scoring, se fera à l?aide du logiciel R ou Python. Des exemples de scoring, issus des secteurs : bancaire, assurance ou marketing, seront présentés, par le biais d?intervention de professionnels.
  • Compétences spécifiques visées

  • - Acquérir les différentes méthodes d?apprentissage statistique et de classification, notamment en grande dimension ;- Savoir mettre en ?uvre les techniques, à l?aide du logiciel R ou Python, pour répondre aux multiples problèmes réels du domaine d?application du Data Mining ;- Savoir créer un score adéquat ; Etre à même d?utiliser et d?interpréter de manière pertinente un score.
  • Connaissances requises

  • Statistique niveau Master 1 de mathématiques, économétrie ou informatique ; Connaissances de base de R/Python.
  • Programme

  • ? Analyse discriminante linéaire, quadratique et K-plus proches voisins? Classification binaire par régression logistique? Classification multi-groupes par régression logistique multinomiale? Modèles de rapport de densités pour la classification binaire ou multi-groupe? Sélection de modèles pour la classification par critères AIC et BIC, et validation croisée (leave-one- out, k-fold cross-validation, bootstrap)? Les machines à vecteurs de support (SVM)? Apprentissage statistique et classification en grande dimension : Méthodes de réduction de dimension ; Méthodes de régularisation ; Modèles à noyau? Application : Scoring