Как написать парсер, если все запросы дают код 403?

Если вам приходится столкнуться с ситуацией, когда все ваши запросы возвращают код 403 (ошибка доступа запрещена), есть несколько подходов, которые вы можете рассмотреть.

Изменение заголовков запроса: одним из возможных решений может быть изменение заголовков ваших запросов. При отправке запроса на сервер вы можете указать HTTP заголовок "User-Agent", чтобы он выглядел так, будто его отправлял обычный пользователь, а не парсер или бот. Можно попробовать использовать значение User-Agent, которое обычно отправляется браузером. Например:

   import requests

   headers = {
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
   }

   response = requests.get(url, headers=headers)

Использование прокси-серверов: еще одним решением может быть использование прокси-серверов. Прокси-серверы позволяют вам маскировать свой IP-адрес и изменять вашу фактическую геолокацию. Вы можете попробовать использовать различные прокси-серверы для каждого запроса, чтобы обойти ограничения сервера. Однако, имейте в виду, что использование публичных прокси может повлечь за собой снижение производительности или ненадежность.

Использование сессий и cookies: если сайт, который вы пытаетесь спарсить, использует механизм сессий и cookies, то вам нужно будет сохранить и использовать cookies при каждом запросе. Это может помочь серверу распознать вашу сессию как допустимую и предоставить вам доступ. В библиотеке requests вам следует использовать объект сессии:

   import requests

   session = requests.Session()
   session.get(url)  # сохранение cookies

   response = session.get(url)  # использование cookies

Использование задержек между запросами: некоторые серверы блокируют запросы, которые поступают слишком часто. Чтобы избежать этого, вы можете добавить небольшую задержку между каждым запросом. Например:

   import requests
   import time

   for url in urls:
       response = requests.get(url)
       time.sleep(0.5)  # задержка в полсекунды

Контакт с администратором: если вы продолжаете получать ошибку 403 на всех запросах, вы можете связаться с администратором веб-сайта и запросить разрешение на парсинг данных или узнать больше о возможных ограничениях.

Запомните, что существует возможность, что веб-сайт имеет систему защиты, которая специально предотвращает парсинг данных. В таком случае, вам может потребоваться использование специализированных инструментов, таких как Selenium или scrapy, которые могут эмулировать поведение пользователя в браузере и обходить большинство ограничений.

В целом, при парсинге данных с веб-сайтов, которые возвращают ошибку 403, важно быть вежливым, соблюдать правила робота (если есть) и использовать различные методы для обхода ограничений, действуя в соответствии с законами и условиями использования веб-ресурса.