При парсинге веб-страниц и извлечении ссылок на них можно использовать библиотеку BeautifulSoup
вместе с библиотекой requests
в Python.
Вот пример кода, который позволяет получить все ссылки на странице:
import requests from bs4 import BeautifulSoup # URL страницы, которую нужно спарсить url = 'http://example.com' # Отправляем запрос на сервер и получаем содержимое страницы response = requests.get(url) # Создаем объект BeautifulSoup для парсинга содержимого страницы soup = BeautifulSoup(response.text, 'html.parser') # Находим все теги 'a', которые содержат ссылки links = soup.find_all('a') # Проходим по найденным ссылкам и выводим их URL for link in links: href = link.get('href') if href: print(href)
В этом коде мы отправляем GET-запрос на указанный URL, получаем содержимое страницы и создаём объект BeautifulSoup для его парсинга. Затем находим все теги <a>
с помощью метода find_all
, извлекаем атрибут href
(URL ссылки) и выводим его на экран.
Это базовый пример. Вы также можете уточнить поиск ссылок, указав какие-то конкретные условия или фильтры (например, только внутренние ссылки или ссылки определенного домена).
Не забудьте установить библиотеки BeautifulSoup
и requests
, если у вас их еще нет:
pip install beautifulsoup4 pip install requests
Надеюсь, это поможет вам при парсинге страниц и извлечении ссылок с них! Если у вас есть дополнительные вопросы, не стесняйтесь спрашивать.