Aprende sobre el raspado web en Python: curso en línea

El “web scraping” es el proceso de extracción automática de información de sitios web mediante programas informáticos.

Python tiene varias bibliotecas que puede usar para el web scraping, como Beautiful Soup, Scrapy, Selenium, etc.

Es importante tener en cuenta que algunos sitios web pueden tener una política de “no raspado” que prohíbe el uso de programas automatizados para extraer información de sus páginas. Es muy importante seguir estas políticas y evitar dañar el sitio.

La capacidad de crear herramientas capaces de recuperar y analizar información almacenada en Internet ha sido y sigue siendo valiosa en muchos aspectos de la ciencia de datos.

Lo que aprenderás:

Introducción a HTML
XPaths y selectores
Localizadores CSS, encadenamiento y respuestas
Arañas

En este curso, aprenderá a navegar y analizar código html y crear herramientas para rastrear sitios web automáticamente.

Aunque nuestro scraping se realizará utilizando el versátil scrap de la biblioteca Python, muchas de las técnicas aprendidas en este curso también se pueden usar en otras bibliotecas populares de Python, incluidas BeautifulSoup y Selenium.

Al final de este curso, tendrá un modelo mental sólido de la estructura de html, podrá crear herramientas para analizar el código html y acceder a la información que necesita, y crear arañas simples para rastrear la web a escala.

Este curso se encuentra disponible en la plataforma de Datacamp.

Si quieres acceder al curso puedes usar este enlace.

Lo que aprenderás:

Deja un comentarioCancelar respuesta