|
| Дата |
|
USD/RUB | 90.4082 | BTC/USD | 69499.3412 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
14.07.2020, 00:36
|
#1
|
Senior Member
Регистрация: 03.10.2010
Сообщений: 1,712
Бабло: $296955
|
Защита от парсинга - КАК/ЧЕМ?
Всем привет. Меня одолевает какой-то нехороший персонаж и активно пиздит мой контент и юзает его на пирогах.
Реально достал.
Может кто подскажет чем можно закрыться от парсинга?
Сейчас сайт на Cloudflare. Создал там несколько правил, кому можно попасть. Например, можно хорошим ботам (у cf есть видимо своя определялка хороших ботов) + юзерам пришедшим с гугла и с определенных стран.
Остальным блок.
Но вижу в пивике как пропарсили опять сайт (js исполняют). И чето не догоняю как они прошли фильтры, ибо реферера нет, к норм ботам IP тоже не относится.
Вообщем, есть ли какие-то доступные решения?
|
|
|
14.07.2020, 01:31
|
#2
|
Member
Регистрация: 20.11.2017
Сообщений: 65
Бабло: $18010
|
Заглушку повесить типа той, что у Cloudflare.
Чтобы боты ПС не натыкались на неё, их определять обратным DNS запросом.
На заглушке надпись "проверка на бота-хуёта" и красивая кнопка "пропустить".
Для шибко умных ботов нахерачить скрытых кнопок, чекбоксов и прочей херни, на которую можно нажать. При каждом обновлении заглушки менять вёрстку.
Можно также снимать отпечаток браузера
https://habr.com/ru/company/oleg-bunin/blog/321294/
и уже потом хэш сохранять и анализировать. Но это сложнее.
С кнопкой на заглушке проще всего - когда-то делал так же на дорах. Потом забил, один хрен, банились.
Ну и само собой, список хреновых юзер-агентов для бана на уровне сервера - но это так, до кучи.
|
|
|
14.07.2020, 02:07
|
#3
|
Member
Регистрация: 16.01.2010
Сообщений: 88
Бабло: $47975
|
На самом деле - это реально проблема!
От парсеров на движке браузера с JS защититься сложно.
Можно сделать уникальные ссылки и шифровать их на JS, чтоб их сложнее было обнаружить и надо было раскриптовать. Попробовать вести подсчет количества запросов к сайту и выдавать капчу при большом количестве, но это тоже обходится с помощью прокси.
Можно только усложнить парсинг, полностью защититься это вряд ли. Это вопрос кто кого заколебет раньше, тот кто пишет защиту или кто пишет парсер. Дело в цене вопроса.
Сам иногда пишу парсеры, если контент стоящий, я бы поставил на того, кто парсит.
|
|
|
14.07.2020, 02:23
|
#4
|
hustle
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
|
Разве что показывать каптчу всем подряд, cloudflare вроде как можно настроить. Остальные методы не очень рабочие либо сложные в реализации. Но каптча самый лучший способ.
|
|
|
14.07.2020, 02:43
|
#5
|
Member
Регистрация: 16.01.2010
Сообщений: 88
Бабло: $47975
|
Цитата:
Сообщение от Hector
Разве что показывать каптчу всем подряд, cloudflare вроде как можно настроить. Остальные методы не очень рабочие либо сложные в реализации. Но каптча самый лучший способ.
|
Не стоит так делать - это будет выстрел себе в ногу!
Кому надо спарсит и с капчей, а вот пользователей поубавится.
|
|
|
14.07.2020, 09:50
|
#6
|
Senior Member
Регистрация: 29.08.2016
Сообщений: 1,616
Бабло: $323550
|
парсит с динамического ип?
вычислить по ип можешь?
попробуй блок сеток фришных прокси
как временные меры
блок по странам или капча на страны (проверка на человека)
также сколько людей идут прямо через браузер. можно для таких поставить ограничения
|
|
|
14.07.2020, 14:55
|
#7
|
Senior Member
Регистрация: 03.10.2010
Сообщений: 1,712
Бабло: $296955
ТС -->
|
ТС
капча для всех - имхо нехорошее решение. Капча обходится программно, а вот люди могут и закрыть такой сайт. Теряется весь смысл.
верстки, скрытые ссылки и т.д., обновление баз - реально гемор Может все-таки есть сервисы уже, которые борются? Например, сам CF выдает: https://www.cloudflare.com/products/bot-management/
Но доступно в плане Enterprise. То есть за ахулеард денег.
Еще мне подсказали сервис: https://hide.click/
Но тоже не очень-то бюджетно. Минимально - от $145/mo.
Пока гуглил натыкался еще на такой сервис: https://www.netacea.com/bot-management/
но там даже цену не нашел.
Похоже все подобные сервисы будут стоит неслабо. Да и вопрос еще - смогут ли они определить парсер.
Цитата:
Сообщение от disqus
парсит с динамического ип?
|
я когда включил правила в CF, я реально охуел от напора запросов. CF показывает. Там за 24 ч было что-то порядка 34к заблоченных запросов.
Но через несколько дней увидел в пивике как прошлись по сайту. Парсили с amazonaws. Да, IP много.
Сейчас, кстати, CF показывает всего 700+ заблоченных запросов за 24 ч. Я полагаю частично сработал лок и видимо поубавили пыл...
По сервисам - кто-нить юзал что-то такое именно для защиты от парсинга?
|
|
|
14.07.2020, 14:55
|
#8
|
сыроед
Регистрация: 01.10.2015
Сообщений: 15,873
Бабло: $1862475
|
против капчей есть орава школьников, разгадывающая их за 3 копейки на anticaptcha
также есть орава проксей и ещё большая орава ботнетов
люди в теме говорят - невозможно.
|
|
|
14.07.2020, 15:03
|
#9
|
hustle
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
|
Цитата:
Сообщение от Morgul
капча для всех - имхо нехорошее решение. Капча обходится программно, а вот люди могут и закрыть такой сайт. Теряется весь смысл.
|
Я вообще это имел ввиду, юзер может и не заметить ее https://developers.google.com/recaptcha/docs/invisible
Так или иначе нет 100% метода против парсинга. Элементарно с кеша гугла вытянут контент и на этом всё. Конечно можно запретить кешировать, это другой вопрос.
Я вот сейчас делаю парсинг при помощи Selenium + Opera + opera vpn, и хрен ты меня заблочишь же, и каптчу разгадаю если нужно. Ты же не будешь банить юзера с Оперой? )))
Что у меня реализовано на 2х проектах. Это таблица с запросами, счетчики, ловушки на ботов, капчту разгадали или нет, блокировка всяких hetzner и прочих, проверка на SE ботов, при превышении порога выбивает каптча. Но при этом периодически приходится банить целые подсети и причем сайты мои за клаудом. Головняк страшный. Я понимаю что более менее толковый прогер все равно спарсит если ему будет сильно нужно Но он потратит на это время и деньги.
Последний раз редактировалось Hector; 14.07.2020 в 15:11.
|
|
|
14.07.2020, 16:14
|
#10
|
ё
Регистрация: 26.10.2011
Сообщений: 1,520
Бабло: $311895
|
IP (гео, провайдер, подсети) + фингрепринт (частично, не все параметры). я бы эту связку анализировал. подобрать пиздатые резидентные айпи и реальные фингерпринты в большом колве будет проблематично. ну и лимиты поставить на частоту просмотра контента. как то так
|
|
|
|