Как парсить страницу на стороне сервера?

Для парсинга страницы на стороне сервера с использованием Node.js вам понадобится использовать несколько модулей и библиотек. Однако, прежде чем начать парсинг, вам потребуется установить и настроить Node.js на вашем компьютере. После этого вы можете приступить к установке необходимых модулей следующим образом.

1. Установка модуля request.
Модуль request позволяет легко делать HTTP-запросы к веб-страницам.

npm install request

2. Установка модуля cheerio.
Модуль cheerio обеспечивает удобный способ манипулирования HTML-кодом на стороне сервера, он предоставляет синтаксис и функционал, похожий на jQuery.

npm install cheerio

После установки необходимых модулей вы можете начать парсинг страницы на стороне сервера. Для этого вам понадобится создать файл parse.js и добавить следующий код:

// Подключение модулей
const request = require('request');
const cheerio = require('cheerio');

// Запрос к веб-странице
request('https://www.example.com', (error, response, body) => {
  if (!error && response.statusCode === 200) {
    // Создание экземпляра объекта cheerio
    const $ = cheerio.load(body);
    
    // Выполнение парсинга
    const title = $('title').text();
    const links = $('a').map((i, el) => $(el).attr('href')).get();
    
    // Вывод результатов
    console.log('Заголовок страницы:', title);
    console.log('Ссылки на странице:', links);
  }
});

В приведенном коде мы делаем GET-запрос к веб-странице https://www.example.com, и если запрос прошел успешно, то с помощью модуля cheerio мы можем манипулировать полученным HTML-кодом, осуществлять поиск элементов, извлекать их содержимое и атрибуты, и выводить результаты.

Обратите внимание, что в приведенном примере мы получаем заголовок страницы и все ссылки на странице с помощью селекторов, похожих на jQuery. Вы можете адаптировать код для выполнения других операций парсинга, в зависимости от ваших потребностей.

Таким образом, с использованием модулей request и cheerio в Node.js вы можете легко парсить страницы на стороне сервера, извлекая нужную информацию и манипулируя HTML-кодом в удобном формате.