Aprende sobre el raspado web en Python: curso en línea

El “web scraping” es el proceso de extracción automática de información de sitios web mediante programas informáticos.

Python tiene varias bibliotecas que puede usar para el web scraping, como Beautiful Soup, Scrapy, Selenium, etc.

Es importante tener en cuenta que algunos sitios web pueden tener una política de “no raspado” que prohíbe el uso de programas automatizados para extraer información de sus páginas. Es muy importante seguir estas políticas y evitar dañar el sitio.

La capacidad de crear herramientas capaces de recuperar y analizar información almacenada en Internet ha sido y sigue siendo valiosa en muchos aspectos de la ciencia de datos.

Lo que aprenderás:

  • Introducción a HTML
  • XPaths y selectores
  • Localizadores CSS, encadenamiento y respuestas
  • Arañas

En este curso, aprenderá a navegar y analizar código html y crear herramientas para rastrear sitios web automáticamente.

Aunque nuestro scraping se realizará utilizando el versátil scrap de la biblioteca Python, muchas de las técnicas aprendidas en este curso también se pueden usar en otras bibliotecas populares de Python, incluidas BeautifulSoup y Selenium.

Al final de este curso, tendrá un modelo mental sólido de la estructura de html, podrá crear herramientas para analizar el código html y acceder a la información que necesita, y crear arañas simples para rastrear la web a escala.

Este curso se encuentra disponible en la plataforma de Datacamp.

Si quieres acceder al curso puedes usar este enlace.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.