|
| Дата |
|
USD/RUB | 89.7026 | BTC/USD | 67693.3273 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
14.07.2020, 00:36
|
Start Post: Защита от парсинга - КАК/ЧЕМ?
|
Senior Member
Регистрация: 03.10.2010
Сообщений: 1,712
Бабло: $296955
|
Всем привет. Меня одолевает какой-то нехороший персонаж и активно пиздит мой контент и юзает его на пирогах.
Реально достал.
Может кто подскажет чем можно закрыться от парсинга?
Сейчас сайт на Cloudflare. Создал там несколько правил, кому можно попасть. Например, можно хорошим ботам (у cf есть видимо своя определялка хороших ботов) + юзерам пришедшим с гугла и с определенных стран.
Остальным блок.
Но вижу в пивике как пропарсили опять сайт (js исполняют). И чето не догоняю как они прошли фильтры, ибо реферера нет, к норм ботам IP тоже не относится.
Вообщем, есть ли какие-то доступные решения?
|
|
|
15.07.2020, 13:47
|
#22
|
Senior Member
Регистрация: 26.04.2014
Сообщений: 9,269
Бабло: $1189175
|
Что такое парсинг ? Это не ддос, это просто какой-то заход с одного ip и единовременное дёргание контента. Как можно от такого защититься ?
Вопрос больше к гуглу: какой хуя ?
__________________
Ахуенный КОНВЕРТ ФАРМЫ WORLDWIDE. забираем свежие инвайты на http://myinvites.xyz/ - Visa + MC. +50% в первую неделю.
|
|
|
15.07.2020, 16:05
|
#23
|
несъедобный
Регистрация: 06.04.2007
Сообщений: 692
Бабло: $79495
|
ТС, ты намекни что за сайт, может кто-то из местных его и парсит? Мы, например
А так, поднять инстанс на амазоне + разгадать зонтики от CF стоит не более цента за сессию. Если твой контент того стоит - то хрен как защитишься. Можно еще селениум палить, но это тоже обходят без проблем.
__________________
миром правит не тайная ложа, а явная лажа
|
|
|
16.07.2020, 11:01
|
#24
|
Senior Member
Регистрация: 03.10.2010
Сообщений: 1,712
Бабло: $296955
ТС -->
|
ТС
Цитата:
Сообщение от Heromant
Посмотри в сторону stackpath.com не скажу, что 100% поможет, но функционал больше чем у CF как по мне. Есть Anti-Scraping.
|
Спасибо, гляну.
Цитата:
Сообщение от Dor
Morgul, у тебя много сайтов или с одного большого сайты тырят?
Если большой сайт, то может раз когда-то спарсили и теперь юзают ...
|
1 сайт. Вообще-то даже небольшой. Просто был топ1 по норм кеям до майского апа. Но ахрефс видит, что проксировать начали с начала июня, когда сайт уже просел после апдейта.
Видимо, это именно проксирование (я может немноо путаюсь в терминах), ибо тестово меняю тайтл и через ахрефс очень быстро я увидел, что он обновился на пироге. В гугле в кэше старый тайтл на пироге еще был.
Цитата:
Сообщение от IDL
Как можно от такого защититься ?
|
Ну смотри. Было ОЧЕНЬ много запросов с европы. Я ее забанил ВСЮ. С USA можно зайти, если реф - гугл. Тут да. Но пивик показывал именно прямой заход с юса ip.
И там в UA было, что это linux. Его тоже побанил. Понятно, что при желании все это обходится - подстроиться под юзера, который заходит с гугла с us ip с айфона и как тогда банить? Хз. Но тогда челу надо в этом сидеть разбираться и главное непонятно зачем меня парсить, одно и то же (контент неуник давно уже). Я уже не обновляю сайт ессно, дабы не дарить бесплатно контент
Цитата:
Сообщение от baadf00d
+ разгадать зонтики от CF стоит не более цента за сессию.
|
слушай, я капчу даже уже отключил. Она была сначала, но потом я решил просто поставить лок. То есть CF вообще не отдает сайт если не проходишь условию. Чуть выше я описал кто проходит.
Цитата:
Сообщение от baadf00d
Если твой контент того стоит - то хрен как защитишься.
|
блять ну и что с этим делать?
|
|
|
16.07.2020, 15:08
|
#25
|
Senior Member
Регистрация: 17.09.2019
Сообщений: 892
Бабло: $113590
|
если проксируют через доллисити поставь fastest-cache, на копии шаблон развалится
|
|
|
17.07.2020, 05:22
|
#26
|
Мне платит
Регистрация: 24.10.2008
Сообщений: 1,368
Бабло: $189453
|
Как вариант, просто получать пользу вживи в контент свои ссылки или текстовое упоминание. Пусть цитирует хотя бы Понимаю, что толку мало, но вдруг
У меня тоже с прокси одно время тырили и делали доры, я нашёл владельца, написал ему, но толку то?
|
|
|
17.07.2020, 07:07
|
#27
|
Senior Member
Регистрация: 17.09.2019
Сообщений: 892
Бабло: $113590
|
Цитата:
Сообщение от Heromant
Как вариант, просто получать пользу вживи в контент свои ссылки или текстовое упоминание
|
на лету это меняется на свой домен)
|
|
|
17.07.2020, 12:52
|
#28
|
gofuckingoogle
Регистрация: 28.08.2008
Адрес: 666
Сообщений: 9,443
Бабло: $1278665
|
Цитата:
Сообщение от Heromant
У меня тоже с прокси одно время тырили и делали доры, я нашёл владельца, написал ему, но толку то?
|
А нужно было пальцы ломать)
|
|
|
17.07.2020, 13:38
|
#29
|
Senior Member
Регистрация: 17.09.2019
Сообщений: 892
Бабло: $113590
|
bitninja.io отправляет хостеру клона официальную бумагу что скоро ему придет пизда, потому что его сайты заражены ботнетом, парсят все подряд и вообще недалеко до войны с омерикой. редкий хостер устоит.
|
|
|
17.07.2020, 16:54
|
#30
|
Member
Регистрация: 16.01.2010
Сообщений: 88
Бабло: $47975
|
Вообще неплохо бы увидеть, какой сайт парсится и куда выкладывается, тогда проще было бы давать конкретные советы.
А то уже все варианты перебрали)
|
|
|
19.07.2020, 13:35
|
#31
|
Юниор
Регистрация: 16.06.2020
Адрес: Ukraine
Сообщений: 12
Бабло: $2330
|
Цитата:
Сообщение от Hector
Цитата:
Сообщение от Morgul
капча для всех - имхо нехорошее решение. Капча обходится программно, а вот люди могут и закрыть такой сайт. Теряется весь смысл.
|
Я вообще это имел ввиду, юзер может и не заметить ее https://developers.google.com/recaptcha/docs/invisible
Так или иначе нет 100% метода против парсинга. Элементарно с кеша гугла вытянут контент и на этом всё. Конечно можно запретить кешировать, это другой вопрос.
Я вот сейчас делаю парсинг при помощи Selenium + Opera + opera vpn, и хрен ты меня заблочишь же, и каптчу разгадаю если нужно. Ты же не будешь банить юзера с Оперой? )))
Что у меня реализовано на 2х проектах. Это таблица с запросами, счетчики, ловушки на ботов, капчту разгадали или нет, блокировка всяких hetzner и прочих, проверка на SE ботов, при превышении порога выбивает каптча. Но при этом периодически приходится банить целые подсети и причем сайты мои за клаудом. Головняк страшный. Я понимаю что более менее толковый прогер все равно спарсит если ему будет сильно нужно Но он потратит на это время и деньги.
|
Ну маловероятно, что кто то будет заниматься таким ,даже под заказ.
|
|
|
|