Защита от парсинга - КАК/ЧЕМ? - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.4082
BTC/USD69499.3412
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 14.07.2020, 00:36   #1
Morgul
Senior Member
 
Аватар для Morgul
 
Регистрация: 03.10.2010
Сообщений: 1,712
Бабло: $296955
По умолчанию Защита от парсинга - КАК/ЧЕМ?

Всем привет. Меня одолевает какой-то нехороший персонаж и активно пиздит мой контент и юзает его на пирогах.
Реально достал.

Может кто подскажет чем можно закрыться от парсинга?

Сейчас сайт на Cloudflare. Создал там несколько правил, кому можно попасть. Например, можно хорошим ботам (у cf есть видимо своя определялка хороших ботов) + юзерам пришедшим с гугла и с определенных стран.
Остальным блок.
Но вижу в пивике как пропарсили опять сайт (js исполняют). И чето не догоняю как они прошли фильтры, ибо реферера нет, к норм ботам IP тоже не относится.

Вообщем, есть ли какие-то доступные решения?
Morgul вне форума  
Старый 14.07.2020, 01:31   #2
stierlitz
Member
 
Регистрация: 20.11.2017
Сообщений: 65
Бабло: $18010
По умолчанию

Заглушку повесить типа той, что у Cloudflare.

Чтобы боты ПС не натыкались на неё, их определять обратным DNS запросом.

На заглушке надпись "проверка на бота-хуёта" и красивая кнопка "пропустить".

Для шибко умных ботов нахерачить скрытых кнопок, чекбоксов и прочей херни, на которую можно нажать. При каждом обновлении заглушки менять вёрстку.

Можно также снимать отпечаток браузера

https://habr.com/ru/company/oleg-bunin/blog/321294/

и уже потом хэш сохранять и анализировать. Но это сложнее.

С кнопкой на заглушке проще всего - когда-то делал так же на дорах. Потом забил, один хрен, банились.

Ну и само собой, список хреновых юзер-агентов для бана на уровне сервера - но это так, до кучи.
stierlitz вне форума  
Старый 14.07.2020, 02:07   #3
DF™
Member
 
Регистрация: 16.01.2010
Сообщений: 88
Бабло: $47975
Отправить сообщение для DF™ с помощью ICQ Отправить сообщение для DF™ с помощью Telegram Отправить сообщение для DF™ с помощью Skype™
По умолчанию

На самом деле - это реально проблема!
От парсеров на движке браузера с JS защититься сложно.

Можно сделать уникальные ссылки и шифровать их на JS, чтоб их сложнее было обнаружить и надо было раскриптовать. Попробовать вести подсчет количества запросов к сайту и выдавать капчу при большом количестве, но это тоже обходится с помощью прокси.
Можно только усложнить парсинг, полностью защититься это вряд ли. Это вопрос кто кого заколебет раньше, тот кто пишет защиту или кто пишет парсер. Дело в цене вопроса.
Сам иногда пишу парсеры, если контент стоящий, я бы поставил на того, кто парсит.
__________________
Софт для вебмастеров, web-программирование С++/PHP/MySQL: https://dfservice.com
Партнерка для вебмастерских ресурсов: https://dfservice.com/ruafl/
DF™ вне форума  
Старый 14.07.2020, 02:23   #4
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

Разве что показывать каптчу всем подряд, cloudflare вроде как можно настроить. Остальные методы не очень рабочие либо сложные в реализации. Но каптча самый лучший способ.
Hector вне форума  
Старый 14.07.2020, 02:43   #5
DF™
Member
 
Регистрация: 16.01.2010
Сообщений: 88
Бабло: $47975
Отправить сообщение для DF™ с помощью ICQ Отправить сообщение для DF™ с помощью Telegram Отправить сообщение для DF™ с помощью Skype™
Smile

Цитата:
Сообщение от Hector Посмотреть сообщение
Разве что показывать каптчу всем подряд, cloudflare вроде как можно настроить. Остальные методы не очень рабочие либо сложные в реализации. Но каптча самый лучший способ.
Не стоит так делать - это будет выстрел себе в ногу!
Кому надо спарсит и с капчей, а вот пользователей поубавится.
__________________
Софт для вебмастеров, web-программирование С++/PHP/MySQL: https://dfservice.com
Партнерка для вебмастерских ресурсов: https://dfservice.com/ruafl/
DF™ вне форума  
Старый 14.07.2020, 09:50   #6
disqus
Senior Member
 
Аватар для disqus
 
Регистрация: 29.08.2016
Сообщений: 1,616
Бабло: $323550
По умолчанию

парсит с динамического ип?

вычислить по ип можешь?

попробуй блок сеток фришных прокси

как временные меры
блок по странам или капча на страны (проверка на человека)
также сколько людей идут прямо через браузер. можно для таких поставить ограничения
disqus вне форума  
Старый 14.07.2020, 14:55   #7
Morgul
Senior Member
 
Аватар для Morgul
 
Регистрация: 03.10.2010
Сообщений: 1,712
Бабло: $296955
ТС -->
автор темы ТС По умолчанию

капча для всех - имхо нехорошее решение. Капча обходится программно, а вот люди могут и закрыть такой сайт. Теряется весь смысл.

верстки, скрытые ссылки и т.д., обновление баз - реально гемор Может все-таки есть сервисы уже, которые борются? Например, сам CF выдает: https://www.cloudflare.com/products/bot-management/
Но доступно в плане Enterprise. То есть за ахулеард денег.

Еще мне подсказали сервис: https://hide.click/
Но тоже не очень-то бюджетно. Минимально - от $145/mo.
Пока гуглил натыкался еще на такой сервис: https://www.netacea.com/bot-management/
но там даже цену не нашел.

Похоже все подобные сервисы будут стоит неслабо. Да и вопрос еще - смогут ли они определить парсер.

Цитата:
Сообщение от disqus
парсит с динамического ип?
я когда включил правила в CF, я реально охуел от напора запросов. CF показывает. Там за 24 ч было что-то порядка 34к заблоченных запросов.
Но через несколько дней увидел в пивике как прошлись по сайту. Парсили с amazonaws. Да, IP много.

Сейчас, кстати, CF показывает всего 700+ заблоченных запросов за 24 ч. Я полагаю частично сработал лок и видимо поубавили пыл...

По сервисам - кто-нить юзал что-то такое именно для защиты от парсинга?
Morgul вне форума  
Старый 14.07.2020, 14:55   #8
веломан
сыроед
 
Аватар для веломан
 
Регистрация: 01.10.2015
Сообщений: 15,873
Бабло: $1862475
По умолчанию

против капчей есть орава школьников, разгадывающая их за 3 копейки на anticaptcha
также есть орава проксей и ещё большая орава ботнетов
люди в теме говорят - невозможно.
веломан вне форума  
Старый 14.07.2020, 15:03   #9
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

Цитата:
Сообщение от Morgul
капча для всех - имхо нехорошее решение. Капча обходится программно, а вот люди могут и закрыть такой сайт. Теряется весь смысл.
Я вообще это имел ввиду, юзер может и не заметить ее https://developers.google.com/recaptcha/docs/invisible
Так или иначе нет 100% метода против парсинга. Элементарно с кеша гугла вытянут контент и на этом всё. Конечно можно запретить кешировать, это другой вопрос.
Я вот сейчас делаю парсинг при помощи Selenium + Opera + opera vpn, и хрен ты меня заблочишь же, и каптчу разгадаю если нужно. Ты же не будешь банить юзера с Оперой? )))

Что у меня реализовано на 2х проектах. Это таблица с запросами, счетчики, ловушки на ботов, капчту разгадали или нет, блокировка всяких hetzner и прочих, проверка на SE ботов, при превышении порога выбивает каптча. Но при этом периодически приходится банить целые подсети и причем сайты мои за клаудом. Головняк страшный. Я понимаю что более менее толковый прогер все равно спарсит если ему будет сильно нужно Но он потратит на это время и деньги.

Последний раз редактировалось Hector; 14.07.2020 в 15:11.
Hector вне форума  
Старый 14.07.2020, 16:14   #10
Ower
ё
 
Аватар для Ower
 
Регистрация: 26.10.2011
Сообщений: 1,520
Бабло: $311895
По умолчанию

IP (гео, провайдер, подсети) + фингрепринт (частично, не все параметры). я бы эту связку анализировал. подобрать пиздатые резидентные айпи и реальные фингерпринты в большом колве будет проблематично. ну и лимиты поставить на частоту просмотра контента. как то так
Ower вне форума