Dentro de la Academia Virtual de Microsoft, y como un primer paso de interés dentro del aprendizaje del análisis de datos, se encuentra el Programa Profesional para la Ciencia de datos, impartido a través de la plataforma de aprendizaje edX. Máster Telefónica en Big Data y Business Analytics
¿En qué consiste?
Este programa certificado por Microsoft se compone de 3 Unidades formativas compuestas por 10 cursos de una duración de 8-12 horas cada uno, y un Proyecto final. El certificado se consigue una vez verificados y certificados todos los cursos del programa a través de la plataforma edX (en caso de no estar interesado en dicho certificado y al igual que para el resto de MOOCs de la plataforma también puede realizarse de manera gratuita).
Cada curso tiene un período de vigencia de 3 meses que comienza en cada trimestre del año (Enero-Marzo, Abril-Junio, Julio-Septiembre y Octubre-Diciembre), y el proyecto final tiene una duración de 4 semanas al comienzo de cada trimestre.
Se trata de un programa dinámico cuyos contenidos varían entre diferentes convocatorias (de hecho, desde que obtuve mi certificado -febrero de 2018-, el listado de cursos ha variado incluyendo dos cursos nuevos al listado total, eliminando uno de los cursos existentes y actualizando algunos de los cursos disponibles).
¿Qué se aprende?
Los diferentes cursos del programa están enfocados a ir adquiriendo los conocimientos y las habilidades básicas de un científico de datos mediante la aplicación de diferentes tecnologías y herramientas de Microsoft. Los principales objetivos por cada uno de los cursos del programa son los siguientes:
Unidad 1 - Fundamentos
Introduction to Data Science (antes MS Data Science Orientation) -> Fundamentos básicos de estadística y MS Excel para el análisis de datos.
Analyzing and Visualizing Data with Power BI / Analyzing and Visualizing Data with Excel -> Creación de modelos de datos, análisis y visualización mediante las herramientas de Microsoft Excel o Power BI.
Analytics Storytelling for Impact (Curso nuevo) -> Este curso es de nueva implantación en el programa y su objetivo principal es aplicar principios de cómo contar historias para mejorar en la creación de informes y presentaciones.
Ethics and Law in Data and Analytics (Curso nuevo) -> Este curso es también de nueva implantación en el programa y como indica su nombre su objetivo principal es el conocimiento de los marcos legales y éticos en aplicaciones de análisis de datos e inteligencia artificial.
Unidad 2 – Aspectos fundamentales de la Ciencia de datos
Querying Data with Transact-SQL -> Aspectos esenciales para la implementación de consultas y modificación de datos en SQL Server, Azure SQL mediante Transact-SQL. Es muy interesante la toma de contacto con MS Azure para la creación de una base de datos SQL.
Introduction to R for Data Science / Introduction to Python for Data Science -> Toma de contacto con los 2 principales lenguajes de programación para el análisis y transformación de datos. Es muy interesante que el curso se realiza a través de la plataforma de aprendizaje Datacamp.
Essential Statistics for Data Analysis using Excel / (Nuevo) Essential Math for Machine Learning: R Edition / (Nuevo) Essential Math for Machine Learning: Python Edition -> Análisis detallado de conceptos estadística descriptiva, probabilidad básica, variables aleatorias, intervalos de confianza y pruebas de hipótesis, explicado de una manera clara. Ejemplos prácticos muy interesantes, así como su aplicación en Excel (así como mediante R y Python en el caso de las nuevas alternativas introducidas).
Unidad 3 – Ciencia de datos aplicada
Data Science Research Methods: R Edition / Data Science Research Methods: Python Edition / (antes Data Science Essentials) -> Este curso se ha desdoblado en 2 según el lenguaje de programación a elegir, y se centra en la aplicación de los conceptos básicos del análisis de datos, análisis estadístico y visualización vistos anteriormente y enfocados a su utilización mediante R o Python sobre interesantes casos prácticos, y viendo unas pinceladas relativas al Aprendizaje automático.
Principles of Machine Learning: R Edition / Principles of Machine Learning: Python Edition (antes Principles of Machine Learning) -> Continuación de los conceptos vistos en el curso anterior profundizando en los modelos de Aprendizaje automático de Clasificación, Regresión y Clustering, así como en la mejora de dichos modelos así como en métodos optimizados como redes neuronales o máquinas de soporte de vectores (SVM – Support Vector Machines). Este curso es de alto valor para la realización del desafío propuesto en el proyecto final.
Developing Big Data Solutions with Azure Machine Learning / Analyzing Big Data with Microsoft R / Implementing Predictive Analytics with Spark in Azure HDInsight -> Este curso final presenta diferentes objetivos y temáticas a aplicar de acuerdo a los principios aprendidos durante los cursos anteriores. En mi caso, el seleccionado fue el último que recoge la aplicación de los modelos y conceptos de aprendizaje automático con Spark Python sobre MS Azure.
Curso fuera del programa:
- Programming with R for Data Science / Programming with Python for Data Science -> Este curso ha sido sacado del programa en detrimento de los cursos nuevos y en vista a que parte de sus contenidos han sido incluidos dentro de los cursos especializados para cada lenguaje (7 principalmente, 8 y 9). En cualquier caso, este es un curso realmente didáctico que sintetiza toda la metodología de análisis de datos, a la par que se va aprendiendo su aplicación mediante Python y sus paquetes principales, desde su recogida, limpieza, transformación, creación de modelos de aprendizaje automático, así como su evaluación y la visualización de resultados.
Unidad 4 – Proyecto final
El Proyecto final consiste en el análisis de un dataset real (en mi caso sobre los datos de pobreza en los Estados Unidos a partir de 33 variables diferentes) y la construcción de un modelo predictivo sobre este. La evaluación del mismo se basa en 3 aspectos:
- Exploración y análisis de los datos para resolver varias cuestiones al respecto.
- Desafío al estilo Kaggle para la construcción de un modelo predictivo (en mi caso de regresión) y cuya evaluación se basará en la precisión del mismo (al tiempo que se compite con el resto de estudiantes).
- Preparación de un informe final detallado sobre todo el proceso de análisis del dataset y construcción del modelo que es evaluado por otros estudiantes.
¿Merece la pena?
En mi opinión, absolutamente para aquellos que estén pensando en adentrarse en el mundo de la Ciencia de los datos casi desde cero.
El enfoque con el que está planteado este programa, permite ir aprendiendo conceptos claves y esenciales del análisis de datos para, posteriormente, ir profundizando en conocimientos más avanzados hasta llegar a hacer los primeros pinitos con modelos de aprendizaje automático. Además, es muy interesante la aplicación de herramientas como Excel, Power BI, Azure y el aprendizaje de lenguajes como Transact-SQL, R o Python, las cuales son totalmente necesarias en este ámbito.
Finalmente, y desde un punto de vista profesional y de CV, la organización del curso por parte de Microsoft y la calidad y prestigio de los tutores de los diferentes cursos, hacen de este programa una buena baza curricular para demostrar la adquisición de estos conocimientos ante nuevas oportunidades laborales.
En resumen, y a quién esté dudando, mi consejo es que no espere un día más y se adentre con el primero de los cursos del programa (inicialmente en modalidad gratuita dado que se pueden certificar si así se desea una vez finalizado). Este curso es bastante motivador y casi seguro servirá de pistoletazo de salida para embarcarse en este programa.