Beautiful Soup (bs4) – это Python библиотека, которая обеспечивает простой способ парсинга HTML и XML документов. С ее помощью вы можете извлекать данные из веб-страниц, а также модифицировать их, выделять определенные элементы и многое другое.
Для начала работы с bs4 необходимо установить его. Вы можете сделать это с помощью pip, выполнив следующую команду в командной строке:
pip install beautifulsoup4
После успешной установки вы можете импортировать bs4 в свой код Python следующим образом:
from bs4 import BeautifulSoup
Теперь вы готовы начать парсить HTML или XML документы. В качестве примера давайте рассмотрим простой HTML код, который вы хотите разобрать:
<html> <body> <h1>Пример страницы</h1> <p class="content">Это пример текста.</p> <a href="https://www.example.com">Пример ссылки</a> </body> </html>
Для начала создадим экземпляр класса BeautifulSoup, указав в качестве параметра HTML код:
html_doc = """ <html> <body> <h1>Пример страницы</h1> <p class="content">Это пример текста.</p> <a href="https://www.example.com">Пример ссылки</a> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser')
Теперь у нас есть объект soup, который представляет документ HTML и позволяет осуществлять различные операции с его содержимым.
Например, чтобы получить содержимое тега <h1>
, вы можете использовать следующий код:
title = soup.h1.text print(title)
Этот код выведет строку "Пример страницы".
Чтобы получить текст параграфа с классом "content", можно использовать следующий код:
content = soup.find('p', class_='content').text print(content)
Этот код выведет строку "Это пример текста."
Если вы хотите получить ссылку и ее текст из тега <a>
, вы можете использовать следующий код:
link = soup.a['href'] link_text = soup.a.text print(link) print(link_text)
Этот код выведет строку "https://www.example.com" и "Пример ссылки" соответственно.
Более подробную информацию о различных функциях и возможностях bs4 вы можете найти в его документации по адресу: https://www.crummy.com/software/BeautifulSoup/bs4/doc/