Curso GRATUITO sobre la limpieza de datos para el procesamiento de lenguaje natural

La limpieza de datos es el acto de descubrimiento y corrección o eliminación de registros de datos erróneos de una tabla o base de datos. El proceso de limpieza de datos permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos datos sucios.

Este curso te brindará los conocimientos necesarios para la extracción, limpieza y preparación de distintas fuentes de datos para ser incluidos en un proceso de NLP.

Para realizar este curso es necesario contar con conocimientos de programación de nivel básico a medio, deseablemente conocimientos básicos del lenguaje Python y es recomendable conocer el entorno de Jupyter Notebooks del entorno Anaconda.

Acercándonos al Procesamiento del Lenguaje Natural

Para desarrollar aplicaciones se va a utilizar Python 3.6 o superior. Alternativamente se puede utilizar el entorno de Anaconda con la misma versión de Python.
Como editor de código, los ejemplos van a ser editados en el Notebook de Anaconda, pero el alumno puede utilizar cualquier editor de texto que reconozca notebooks de Anaconda.
Librerías que es necesario tener instaladas para realizar el curso: NLTK, Pandas, Scikit-learn y librerías de extracción de datos.

Lo que aprenderás:

  • Web Scraping para Procesamiento de Lenguaje Natural
    • Este módulo te permitirá obtener los conocimientos necesarios para la construcción de un programa de extracción de datos de páginas Web basado en HTML.
  • HTML Parsing para Procesamiento de Lenguaje Natural
    • En este módulo se describe un conjunto de pasos necesarios para preprocesar páginas HTML y extraer información de ellas. Además, se detallarán distintos tipos de aproximación al mismo.
  • Técnicas avanzadas de raspado
    • En este módulo se seguirán las técnicas avanzadas de scraping para extracción de datos de páginas HTML que utilizan diversas librerías de JavaScript para su construcción
Comprensión del procesamiento del lenguaje natural: guía PLN para  principiantes • Nicolás Ockier
  • Técnicas de manipulación de texto
    • Una vez estriado el texto de las páginas HTML que es una fuente habitual de extracción de información, se pueden sumar distintas fuentes de tipos de datos, como ser PDF, DOC, XLS e imágenes.

En este módulo se verán diversas técnicas que pueden servir para recolectar la información de ellas y unificarlas en un mismo conjunto de documentos.

¿Cómo obtengo el curso?

Este curso es ofrecido desde la plataforma de Coursera, es un curso que puedes obtener de manera gratuita bajo ciertas condiciones.

La primera opción es elegir la opción de “Curso gratuito sin certificado”, de esta manera podrás acceder al contenido del curso y finalizarlo, pero no podrás obtener un certificado de finalización avalado por la plataforma.

La segunda opción es elegir “auditar curso”, con esta opción podrás acceder al contenido de video del curso, pero no podrás realizar los exámenes ni obtener el certificado de finalización. Si no ves la opción de auditar curso, debes verificar en la parte de abajo usando el scroll (en forma de link).

Las opciones varían dependiendo el curso, pero con cualquiera de las dos podrás acceder gratuitamente al contenido. Por si fuera poco, algunos cursos tienen la opción de ayuda económica, con los cuales puedes solicitar dicho apoyo y ser acreedor de un curso de pago.

Para obtener el curso de manera gratuita da clic en el siguiente botón:





Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.