Для скачивания всех документов с сайта вам понадобится использовать модуль requests в Python. Этот модуль позволяет отправлять HTTP-запросы и получать ответы от сервера.
Для начала, установите модуль requests, выполнив команду "pip install requests" в командной строке.
Затем, в вашем скрипте Python импортируйте модуль requests:
import requests
Далее, определите URL-адрес сайта, с которого вы хотите скачать документы:
url = 'https://example.com/documents/'
Чтобы получить содержимое страницы, используйте функцию "get" модуля requests:
response = requests.get(url)
Затем, вы можете использовать BeautifulSoup для разбора HTML-кода страницы и нахождения ссылок на документы.
from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') # Находит все ссылки на документы на странице links = soup.find_all('a') # Перебирает ссылки и скачивает документы for link in links: href = link.get('href') if href.endswith('.pdf') or href.endswith('.doc') or href.endswith('.docx'): # Загружает файл по ссылке file_response = requests.get(url + href) # Указывает путь для сохранения файла with open(href, 'wb') as file: file.write(file_response.content)
В данном примере мы ищем все ссылки на странице и проверяем их расширение. Если ссылка ведет на документ с расширением .pdf, .doc или .docx, то мы скачиваем его, сохраняя файл на диск.
Не забудьте обработать исключения, такие как недоступность сайта или отсутствие возможности скачивания определенных файлов.
Обратите внимание, что скачивание всех документов с сайта может быть небезопасным, особенно если сайт может содержать вредоносный контент. Поэтому рекомендуется добавить дополнительные проверки и ограничения.