При парсинге сайта в некоторых ссылках выходить ошибка 404 и его не парсить?

Когда вы парсите сайт и сталкиваетесь с ошибкой 404 в некоторых ссылках, это означает, что запрашиваемая страница не существует на сервере сайта. Это может быть вызвано различными причинами, такими как неправильная ссылка, удаление страницы или временная недоступность.

Если вам необходимо обработать такие ошибки и продолжить парсинг других ссылок, вам понадобится использовать обработку исключений в вашем коде. В Java для этого используется конструкция try-catch.

Примерно так будет выглядеть код для парсинга ссылок на сайте с обработкой ошибки 404:

import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.URL;

public class Main {
    public static void main(String[] args) {
        String[] urls = {"http://example.com/page1", "http://example.com/page2", "http://example.com/page3"};

        for (String url : urls) {
            try {
                URL pageUrl = new URL(url);
                HttpURLConnection connection = (HttpURLConnection) pageUrl.openConnection();
                connection.setRequestMethod("GET");
                connection.connect();

                int responseCode = connection.getResponseCode();
                if (responseCode == 200) {
                    // Парсинг страницы
                    // ...
                } else {
                    System.out.println("Ошибка " + responseCode + ": " + connection.getResponseMessage());
                }

                connection.disconnect();
            } catch (IOException e) {
                System.out.println("Ошибка при подключении к URL: " + e.getMessage());
            }
        }
    }
}

В приведенном коде мы создаем объект типа URL для каждой ссылки и открываем соединение с сервером с помощью HttpURLConnection. Затем мы проверяем код ответа от сервера: если он равен 200, то это значит, что страница существует и мы можем продолжать парсинг; в противном случае, мы выводим сообщение об ошибке с кодом и описанием.

Обработка исключения IOException позволяет перехватывать возможные ошибки при подключении к сайту, такие как отсутствие интернет-соединения или неверный URL.

Таким образом, вы сможете продолжить парсинг других ссылок, несмотря на ошибки 404.