SEP0942 - Traitement et valorisation de données massives avec R et RStudio

Retour aux MCC Retour à la liste des EC
  • Équipe pédagogique

    • Responsables

    • REGNAULT Philippe (Responsable)
      Département : Mathématiques (UFR SEN)
  • Volume horaire

  • Nature CMTD Total
    Durée 20h20h40h
  • Modalités de contrôle des connaissances (MCC)

  • Epreuves Nature IECREOT Total
    Durée
    Cas général 1ère session 5050 100%
    2nd session 100 100%
    Dispense contrôle continu 1ère session 100 100%
    2nd session 100 100%
  • Modalités de contrôle des connaissances (MCC)

  • Cas général

  • Nature Durée 1ère session 2ème session
    IE 50% 0%
    CR 50% 0%
    EOT 0% 100%
  • Dispense contrôle continu

  • Nature Durée 1ère session 2ème session
    CR 100% 0%
    EOT 0% 100%
  • Objectifs

  • Cet enseignement vise à présenter un ensemble de méthodes et d'outils pour la manipulation, l'analyse, la modélisation et la valorisation de jeux de données massifs, dans un cadre collaboratif.
    L'environnement de développement intégré RStudio pour le logiciel de traitement statistique R facilite la mise en place et l'utilisation de ces méthodes et outils pour former un workflow cohérent et robuste dont la maîtrise est l'objectif principal de ce cours.
    L'apprentissage de ce workflow s'appuiera sur sa mise en ?uvre pour l'étude d'exemples "fil-rouge".

  • Compétences spécifiques visées

  • * Déploiement des outils nécessaires pour la sécurisation de l'environnement de travail.
    * Maîtrise d'outils usuels (git, gitlab, scheduler, etc) pour le développement collaboratif de ressources (scripts, logiciels, rapports, etc).
    * Maîtrise des packages R de référence pour la manipulation, l'analyse et la modélisation de données.
    * Maîtrise de la production (éventuellement automatisée) de rapports, interfaces utilisateurs et autres supports de communication reproductibles.

  • Compétences générales visées

  • Maîtrise d'un workflow cohérent et robuste pour toutes les étapes d'une analyse de données, de la manipulation de ces données et la restitution des résultats. Cette compétence transversale pourra être mise à profit dans les autres modules d'enseignement de l'année de M2

  • Connaissances requises

  • * Connaissance intermédiaire des logiciels R et RStudio.
    * Connaissance des procédures d'analyse descriptive, des modèles usuels, des procédures de ré-échantillonnage présentés dans les modules SEP0731 SEP0831 SEP0832

  • Programme

  • 1) Traitement de données personnelles : réglementations et procédures de sécurisation.
    * Présentation des réglementations (Loi Informatique et Liberté, RGPD).
    * Procédures de sécurisation : méthodes et outils de chiffrement, virtualisation du poste de travail, utilisation de RStudio Server.
    2) Développement collaboratif de ressources avec git, gitlab et RStudio (Desktop et Server).
    * Gestion de versions avec git.
    * Partage de ressources et suivi de développement collaboratif avec GitLab et RStudio.
    3) Tidyverse : la grammaire des données et de leur représentation.
    * Importation des données avec readr, readxl, haven.
    * Manipulation et transformation des données avec dplyr, tidyr, forcats, stringr, lubridate.
    * Représentation des données avec ggplot2.
    4) Manipulation de bases de données massives locales ou distantes.
    * Manipulation sur poste local avec data.table et dtplyr.
    * Manipulation d'une base de données SQL distante avec dbi et dbplyr.
    * Manipulation d'une basede données distribuées avec sparklyr.
    5) Modélisation et apprentissage avec tidymodels.
    6) Rédaction de rapports et autres supports de communication avec R Markdown.
    * Principe de fonctionnement de R Markdown.
    * Reproductibilité.
    * Automatisation.
    7) Optimisation du code et mise en production.
    * Profilage de code avec profvis et RStudio.
    * Déboggage.
    * Inclusion de code C++ avec Rcpp.
    * Parallélisation.
    * Développement de package.