Connaître et appliquer les grandes techniques de machine learning
Depuis 15 ans, l’analyse de données a connu un essor spectaculaire, et les opportunités liées au Big Data et à l’Intelligence Artificielle ont transformé de nombreux métiers. Bill Gates évoque une révolution par l’IA aussi forte que « les téléphones portables et Internet ». Le boom de l’IA générative, notamment depuis le phénomène ChatGPT en 2022, a encore amplifié les possibilités offertes par la data science.
Face à la difficulté de recruter des data scientists, certaines équipes ont un intérêt à réaliser elles-mêmes en autonomie des cas d’usage de data science et de machine learning. Cette formation vise ainsi à leur apprendre à réaliser elles-mêmes un certain nombre de cas d’usage (non industrialisés), grâce au langage Python. Elle donne ainsi une bonne vision de la réalité de l’activité d’un data scientist, grâce à un grand cas d’usage « fil rouge ».
Public visé
- équipes métier souhaitant être capable de réaliser en autonomie des cas d'usage simples (sans industrialisation) de data sciences ;
- data analysts souhaitant monter en compétence (upskilling/reskilling) ;
- toute personne souhaitant mieux appréhender la réalité du métier de data scientist.
Objectifs et compétences visées
- Permettre de réaliser en autonomie une large palette de cas d’usage réels
- Comprendre les méthodologies associées aux différentes approches du machine learning
- Faciliter les interactions avec les experts de la data
Pré-requis
Avoir déjà codé quelques heures en Python (par exemple lors de la formation « Manipulation de données avec le langage Python »)
Programme
Comment réaliser un cas d’usage de machine learning ?
- Différentes approches pour l’IA et les data sciences : des statistiques au machine learning
- Quelles tâches peut-on réaliser avec du machine learning ?
- Méthodologie et évaluation pour l’apprentissage supervisé
- Quelques notions de statistiques
- Réaliser les calculs en pratique
Le cas d’usage « fil rouge » de la formation
Rappels sur la manipulation de données avec Python
(Cas d’usage fil rouge) Analyse exploratoire du jeu de données
Le package standard de machine learning de Python : « scikit-learn »
- Présentation du package « scikit-learn »
- Les 4 lignes de code clés pour créer un modèle
- Quelques autres fonctionnalités bien utiles
Prévoir une catégorie grâce à un modèle de classification
- Présentation de la classification
- Toutes les erreurs ne se valent pas ! l’importance d’une évaluation adaptée
- Coder un modèle de classification en Python
- (Cas d’usage fil rouge) Application concrète: proposition de produits
Résumer et visualiser le jeu de données grâce à l’Analyse en Composantes Principales
- Notion de réduction de dimensions
- L’Analyse en Composantes Principales, et comment la coder en Python
- (Cas d’usage fil rouge) Visualisation du jeu de données
Repérer des données similaires grâce au clustering
- Principe du clustering
- Coder en Python l’algorithme de clustering des « K-moyennes »
- D’autres approches de clustering existent
- (Cas d’usage fil rouge) Repérer les différents types de clients
Détection d’anomalies
- Notion d’anomalies
- Approches par quantiles
- Méthodes à base d’arbres, forêts d’isolation
- (Cas d’usage fil rouge) Repérer les clients atypiques
- (Cas d’usage fil rouge) Quelques analyses complémentaires pour conclure l’étude
Annexe 1 : Prévoir des nombres grâce à un modèle de régression
- Notion de régression
- Exemple de la régression linéaire, cas de la régression Ridge
- Coder en Python une régression « Ridge »
Annexe 2 : Des packages complémentaires à scikit-learn
- Méthodes à base d’arbres
- Deep learning
- Machine learning en calcul distribué
Intervenants
Raphaël Deswarte
Prochaines sessions
- Dates à venir
jamais oser le faire... écrivez-nous !
(On est très sympa)
Si vous souhaitez nous appeler : 07.67.12.42.94