Боты и антибот-системы: как работают и как защититься
Современные антибот-системы используют комплекс методов для выявления автоматизированных скриптов. Разберём ключевые вопросы: видит ли сайт ваше местоположение при GET-запросах, насколько эффективен Selenium как антидетект-браузер, и как парсят сайты со сложной защитой.
Видит ли сайт мой IP при GET-запросе из консоли?
Да, при отправке HTTP-запроса (GET, POST и т. д.) сервер получает IP-адрес клиента. По этому адресу можно определить примерное географическое местоположение (страну, город, провайдера). Однако без дополнительных заголовков и куков сервер не узнает точные координаты или имя пользователя. Если вы используете прокси или VPN, ваш реальный IP будет скрыт.
Видит ли сайт мой IP при использовании Selenium?
Selenium управляет браузером, но сетевые запросы всё равно идут с вашего IP-адреса, если не настроен прокси. Антибот-система может обнаружить Selenium по характерным признакам: наличие флага navigator.webdriver, нестандартные размеры окна, отсутствие некоторых пользовательских жестов. Поэтому сайт может не только увидеть ваш IP, но и заподозрить автоматизацию.
Selenium - хороший антидетект-браузер? Что лучше: Selenium или Playwright?
Selenium не является антидетект-браузером. Он легко детектится по множеству сигнатур. Playwright также имеет схожие уязвимости, но предоставляет более тонкие настройки эмуляции (например, подмена WebGL, геолокации). Для обхода простой защиты Playwright может быть удобнее, но для серьёзных антибот-систем (Cloudflare, Akamai) оба инструмента требуют дополнительной маскировки: прокси, рандомизация User-Agent, эмуляция человеческого поведения.
Как парсят сайты со сложной защитой? Где продаются такие боты?
Для обхода сложной защиты (капчи, поведенческий анализ, fingerprint) применяют:
- Прокси-ротаторы и резидентные прокси;
- Эмуляцию реального браузера (Puppeteer Extra + Stealth Plugin, Playwright с кастомными патчами);
- Сервисы решения капч (2Captcha, Anti-Captcha);
- Использование готовых парсеров на базе API (например, ScrapingBee, ScraperAPI).
Готовые боты для коммерческого парсинга продаются на специализированных форумах (BlackHatWorld, XSS.is) и в даркнете. Однако покупка таких решений несёт юридические риски.
Как антибот-системы определяют ботов: основные признаки
Современные системы (Cloudflare Bot Management, DataDome, PerimeterX) анализируют сотни параметров:
- Поведенческий анализ: скорость кликов, движения мыши, прокрутка, время между действиями.
- Fingerprinting: уникальные характеристики браузера (WebGL, canvas, шрифты, разрешение экрана, список плагинов).
- Сетевые сигнатуры: порядок HTTP-заголовков, поддержка TLS-версий, отсутствие некоторых куков.
- Проверка на headless: наличие/отсутствие определённых свойств
navigator.
Комбинация этих методов позволяет отличать человека от бота с высокой точностью.