Data science track in the Microsoft Professional Program – Retour d'expérience
Après plusieurs mois de dur labeur, je viens enfin de finaliser une certification Microsoft dans le domaine de la "Science des données".
Mais avant de vous présenter le cursus "Data Science" de Microsoft, je vais répondre à la question ci-après :
Qu'est-ce que le métier de "Data Scientist" ?
Le métier de "Data Scientist", ou "Spécialiste de la Science des données" en français, est un métier très en vogue. Il a fait son apparition avec le développement numérique et est classé en-tête des 50 métiers les plus cotés aux Etats-Unis listés par
Glassdoor pour 2016 et 2017.
Le terme a été créé par deux ingénieurs de chez Facebook et LinkedIn, en 2008. Il a depuis fait école et a été élu «
métier le plus sexy du XXIe siècle » par la Harvard Business Review(
*).
Le métier de "Data Scientist" consiste à analyser de manière pointue des données massives, couramment appelées "Big Data", concernant à la fois les clients, les prospects et les employés. Ce travail d'analyse a pour objectif de répondre aux problématiques de l'entreprise, d'orienter les décisions stratégiques et d'améliorer les services/produits qu'elle propose à ses clients.
Le "Data Scientist" est un spécialiste de la science des données. Il analyse les datas (concernant les clients, les prospects, les employés, etc.) que l'entreprise récupère par différents canaux et la restitue sous forme de prospective, de conseils, d'améliorations du produit, du service, de la formation en interne, de l'efficacité de l'entreprise, de sa performance. Il part généralement d'une problématique et définit les données dont l'entreprise aurait besoin pour la résoudre.
Compétences requises
Le métier de "Data Scientist" fait appel, entre autres, aux connaissances et compétences suivantes :
- Mathématiques, Statistiques et probabilité
- Interrogation, Exploration, Visualisation et Analyse des données
- Apprentissage machine
- Programmation
Description sommaire du cursus
Le cursus "Data Science" proposé par Microsoft dans le cadre de son Programme Professionnel est très récent, le projet pilote, qui avait débuté fin mai 2016 et auquel j'ai eu la chance de participer, vient juste de s'achever, janvier 2017.
Ce programme d'enseignement développé par Microsoft aborde des compétences fonctionnelles et techniques à travers des cours hautement cotés en ligne et des ateliers pratiques pour se conclure avec un projet final.
Les individus qui y participent peuvent obtenir un diplôme numériquement partageable et vérifiable qui confirme la maîtrise de ces compétences essentielles. Le coût de chaque certification varie entre 25 USD et 99 USD. Bien sûr, chacun à la possibilité de suivre le cursus gratuitement mais sans pouvoir faire valoir les connaissances et compétences acquises.
Le parcours est constitué de 10 modules répartis en 04 unités de valeurs.
Les modules sont suggérés dans un ordre particulier dont l'objectif est de facilité l'acquisition des compétences en rapport avec le domaine mais l'apprenant peut ne pas le respecter.
Pour certains modules, l'apprenant a le choix entre 02 ou 03 cours et la durée d'un cours varie entre 04 et 06 semaines.
Le cursus se termine par un projet final (module 10) dont l'objectif est de mettre en pratique tout ce qui a été appris lors des modules précédents.
Pour suivre le programme, ou en apprendre plus à son sujet, rendez-vous sur
Microsoft Academy.
Nota bene : Il est à noter que les enseignements sont, au moment où je rédige cet article, disponibles uniquement en
anglais à partir de la plateforme d'enseignement en ligne
edX.
Détail du parcours
Le curriculum en image
Unité 1 : Fundamentals
Dans cette unité, de 04 modules, l'apprenant aborde les bases de la science des données, il découvre les compétences en rapport avec ce métier, il explore des rubriques comme "l'analyse des données", la "visualisation des données", "l'interrogation des données".
Module 01 : "Data Science Orientation"
Un seul cours fourni par Microsoft durant lequel vous allez découvrir les compétences en rapport avec le métier "Data Scientist" et apprendrez à travailler avec des données et à les explorer en utilisant une variété de techniques statistiques, de visualisation et d'analyse que vous mettrez en pratique avec Excel.
Module 02 : "Querying Data with Transact-SQL"
Un seul cours fourni par Microsoft qui vous permettra d'aborder les notions de base de l'interrogation des données en utilisant "Transact-SQL" le langage de requêtage de Microsoft SQL Server.
Module 03 : "Analyze and Visualize Data"
Deux cours, fournis par Microsoft, sont proposés au choix, c'est-à-dire que vous ne devez réaliser que l'un des deux. Durant ce cours vous allez apprendre récupérer et transformer des données avant de les visualiser et analyser en utilisant Excel ou Power BI.
Note personnelle :
Pour ma part j'ai suivi les deux cours. Mon conseil est, si vous maîtrisez déjà Excel et notamment les Power tools (PowerPivot, PowerQuery, PowerMap et PowerView) alors suivez le cours avec Power BI.
Module 04 : "Understand Statistics"
Ce cours, proposé par l'université de Columbia, présente la manière dont le "Data Scientist" exerce une réflexion statistique dans la conception de la collection de données, tire des enseignements de la visualisation des données, obtient des données probantes pour les décisions basées sur les données et construit des modèles pour prédire les tendances futures à partir des données.
Note personnelle :
Ce cours a été pour moi le plus éprouvant pour plusieurs raisons notamment la langue, le nombre de vidéos, les rubriques abordées à savoir les statistiques et les probabilités mais surtout par ce que j'ai fait l'erreur de le laisser en dernier donc mon conseille, faites-le dès que possible et surtout d'une traite.
Unité 2 : "Core Data Science"
Dans cette unité, de 03 modules, l'apprenant aborde les bases de la programmation orienté vers le Data Science et les statistiques, les concepts de base du Data Science ainsi que les base de l'apprentissage machine.
Module 05 : "Explore Data with Code"
Deux cours, fournis par Microsoft, sont proposés au choix, ils abordent les notions de base de la programmation orienté Data Science et statistique l'un utilise le langage "R" et le second le langage "Python"
Note personnelle :
Arrivé à cette étape, la question suivante c'est posé d'elle-même quel langage choisir "R" ou "Python". J'ai fait une petite recherche sur le net et les avis étaient partagés presque du 50/50. Ensuite je me suis intéressé à l'interaction des technologies Microsoft avec ces deux langages et j'ai fini par opter pour le langage "R" pour les raisons suivantes :
- Le langage "R" existe depuis plus longtemps.
- Il est possible de l'utiliser dans Power BI.
- Il est possible de l'intégrer avec SQL Server 2016.
- Bien sûr, au même titre que "Python" les deux langages procèdent une forte communauté de contributeurs bénévoles et peuvent être insérés comme module sous "Azure Machine Learning"
Module 06 : "Understand Core Data Science Concepts"
Durant ce cours, les participants vont abordées les concepts clés en matière d'acquisition, de préparation, d'exploration et de visualisation de données ainsi que des exemples d'application pratiques tels que la construction d'une solution de science de données "cloud" en utilisant la plate-forme Microsoft Azure Machine Learning avec "R" ou "Python" sur Azure.
Note personnelle :
Ce cours est très passionnant et "essentiel" pour la suite du cursus et surtout pour le projet final.
Module 07 : "Understand Machine Learning"
Dans ce cours les candidats obtiendront des explications claires sur la théorie de l'apprentissage machine combinée à des scénarios pratiques. Ils apprendront comment construire et dériver des idées à partir de ces modèles à l'aide de "R", "Python" et "Azure Machine Learning"
Unité 3 : "Applied Data Science"
Cette unité va permettre aux apprenants de plonger plus profondément dans les langages de programmation Data Science et commencer à exploiter les données pour développer des solutions intelligentes.
Module 08 : "Use Code to Manipulate and Model Data"
Deux cours, fournis par Microsoft mais développés en partenariat, sont disponibles au choix. L'idéal est bien sûr de continuer avec le langage de programmation pour lequel le candidat a opté lors de l'unité 2 car dans ce cours des notions avancées de programmation orienté Data Science seront abordées notamment comment effectuer des analyses prédictives et visualiser les données en utilisant R ou Python.
Module 09 : "Develop Intelligent Solutions"
Trois cours, fournis par Microsoft, sont disponibles au choix. L'objectif de ces cours est de construire avec différents outils, selon le choix, une solution intelligente qui sera mise à disposition de l'utilisateur final et pour lequel tout sera transparent. Il n'aura qu'à fournir des sonnées et la solution lui renverra le résultat.
Note personnelle :
Pour ma part, j'ai opté pour la première option que je trouvais en parfait alignement avec les cours précédents DAT203-1x et DAT203-2x. Mon choix pour le langage R c'est avéré judicieux car au moment où j'ai suivi le cours DAT23-3x il n'y avait de code en Python que pour le dernier module du cours.
Unité 04 : "Data Science Challenge"
Ce dernier module va permettre à chaque apprenant de mettre en pratique tout ce qu'il a appris durant les semaines précédentes.
Note personnelle :
Ce module est vraiment un challenge, c'est le module sur lequel j'ai passé le plus temps, 08 à 10 heures par jours pendant plusieurs jours et c'est le seul module où j'ai travaillé en collaboration avec les autres participants afin d'arranger mon code en R, explorer les solutions proposées par les autres, débugger les erreurs et je vous garantis que l'attente du score final était …
Pour résumer :
Ce fut une expérience très motivante et très gratifiante. Je vous recommande de suivre ce parcours surtout si vous êtes, ou voulez être, dans le domaine des données et du Big Data.
Liens utiles :