Как парсить в bs4?

Beautiful Soup (bs4) – это Python библиотека, которая обеспечивает простой способ парсинга HTML и XML документов. С ее помощью вы можете извлекать данные из веб-страниц, а также модифицировать их, выделять определенные элементы и многое другое.

Для начала работы с bs4 необходимо установить его. Вы можете сделать это с помощью pip, выполнив следующую команду в командной строке:

pip install beautifulsoup4

После успешной установки вы можете импортировать bs4 в свой код Python следующим образом:

from bs4 import BeautifulSoup

Теперь вы готовы начать парсить HTML или XML документы. В качестве примера давайте рассмотрим простой HTML код, который вы хотите разобрать:

<html>
  <body>
    <h1>Пример страницы</h1>
    <p class="content">Это пример текста.</p>
    <a href="https://www.example.com">Пример ссылки</a>
  </body>
</html>

Для начала создадим экземпляр класса BeautifulSoup, указав в качестве параметра HTML код:

html_doc = """
<html>
  <body>
    <h1>Пример страницы</h1>
    <p class="content">Это пример текста.</p>
    <a href="https://www.example.com">Пример ссылки</a>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

Теперь у нас есть объект soup, который представляет документ HTML и позволяет осуществлять различные операции с его содержимым.

Например, чтобы получить содержимое тега <h1>, вы можете использовать следующий код:

title = soup.h1.text
print(title)

Этот код выведет строку "Пример страницы".

Чтобы получить текст параграфа с классом "content", можно использовать следующий код:

content = soup.find('p', class_='content').text
print(content)

Этот код выведет строку "Это пример текста."

Если вы хотите получить ссылку и ее текст из тега <a>, вы можете использовать следующий код:

link = soup.a['href']
link_text = soup.a.text
print(link)
print(link_text)

Этот код выведет строку "https://www.example.com" и "Пример ссылки" соответственно.

Более подробную информацию о различных функциях и возможностях bs4 вы можете найти в его документации по адресу: https://www.crummy.com/software/BeautifulSoup/bs4/doc/