Apache Spark es un marco de cómputo en memoria de código abierto diseñado para procesar grandes conjuntos de datos de manera rápida y eficiente.
Fue creado en la Universidad de California, Berkeley y se convirtió en uno de los proyectos de código abierto más importantes en el campo de la ciencia de datos y el análisis de datos.
Spark permite el procesamiento en paralelo de datos en un cluster y es compatible con una amplia variedad de lenguajes de programación, como Java, Python, Scala y R.
También se integra con otros marcos de ciencia de datos populares, como Hadoop y Apache Storm.
Machine Learning escalable sobre Big Data usando Apache Spark
El curso de Apache Spark para Big Data de IBM te enseñará a utilizar el framework de computación Apache Spark para procesar conjuntos de datos extremadamente grandes de manera eficiente.
Además, aprenderás a contrastar diferentes tipos de soluciones de almacenamiento de datos, programas como Apache Spark SQL y optimizadores como Tungsten y Catalyst.
Este curso está dirigido a todas las personas interesadas en el aprendizaje automático y en especial a aquellos que estudian o trabajan en áreas de programación e informática.
Se recomienda tener conocimientos básicos de Python, aprendizaje automático y habilidades básicas de SQL.
Los temas a tratar a lo largo del curso son:
- Introducción
- Escala matemática para estadísticas en Apache Spark
- Introducción a Apache SparkML
- Aprendizaje supervisado y no supervisado con SparkML
Es importante que sepas que para obtener acceso al curso de manera gratuita debes seleccionar la opcion de auditar curso. Puedes usar la siguiente imagen como referencia:
Accede al curso usando este enlace.