Как достать ссылки на страницы при парсинге?

При парсинге веб-страниц и извлечении ссылок на них можно использовать библиотеку BeautifulSoup вместе с библиотекой requests в Python.

Вот пример кода, который позволяет получить все ссылки на странице:

import requests
from bs4 import BeautifulSoup

# URL страницы, которую нужно спарсить
url = 'http://example.com'

# Отправляем запрос на сервер и получаем содержимое страницы
response = requests.get(url)

# Создаем объект BeautifulSoup для парсинга содержимого страницы
soup = BeautifulSoup(response.text, 'html.parser')

# Находим все теги 'a', которые содержат ссылки
links = soup.find_all('a')

# Проходим по найденным ссылкам и выводим их URL
for link in links:
    href = link.get('href')
    if href:
        print(href)

В этом коде мы отправляем GET-запрос на указанный URL, получаем содержимое страницы и создаём объект BeautifulSoup для его парсинга. Затем находим все теги <a> с помощью метода find_all, извлекаем атрибут href (URL ссылки) и выводим его на экран.

Это базовый пример. Вы также можете уточнить поиск ссылок, указав какие-то конкретные условия или фильтры (например, только внутренние ссылки или ссылки определенного домена).

Не забудьте установить библиотеки BeautifulSoup и requests, если у вас их еще нет:

pip install beautifulsoup4
pip install requests

Надеюсь, это поможет вам при парсинге страниц и извлечении ссылок с них! Если у вас есть дополнительные вопросы, не стесняйтесь спрашивать.