|
| Дата |
|
USD/RUB | 90.2486 | BTC/USD | 69079.7280 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
05.05.2020, 04:14
|
#1
|
Senior Member
Регистрация: 22.10.2012
Сообщений: 148
Бабло: $55290
|
Посоветуйте парсеры Гугла
всем привет
кто-нибудь еще парсит щас выдачу гугли?
подскажите софт годный под линух если есть таковой, кроме апарсера
|
|
|
05.05.2020, 12:16
|
#2
|
Ебланнед
Регистрация: 09.11.2019
Сообщений: 431
Бабло: $69820
|
Цитата:
Сообщение от Excellent
всем привет
кто-нибудь еще парсит щас выдачу гугли?
подскажите софт годный под линух если есть таковой, кроме апарсера
|
Накропал сидя дома на самоизоляции отличный парсер.
Но продавать его пока не придумал как, т.к. парсер не только многопоточный, он еще и мультисерверный.
Хрень ставится на любое кол-во серверов ботом. Управление производится с одного сервера.
Парсит любую информацию со страниц, так что Гугл не нужен. В парсер заряжаются списки доменов по зонам или любые URL
и вхождения source code, которые он должен напарсить. Source code можно списком задавать.
Скорость работы на мощном VPS - более 1 млн. URL в час.
на менее мощном (за 150 руб. в мес.) - более 500 тыс. URL в час. Т.е. база доменов зоны ORG в 25 млн. доменов проходится
парсером с двух VPS за сутки. За один проход можно раскидать все URL по типам движков например: WP, Joomla и прочее,
собрать все емайлы с сайтов и до кучи найти объемный список уязвимостей. Также можно вычислить все ссылки на любой сайт,
собрать коды адсенс, коды партнерок и прочее. Сейчас ставлю эту приблуду на все свои сервера, чтобы по зоне COM прогуляться.
|
|
|
05.05.2020, 13:18
|
#3
|
Member
Регистрация: 02.10.2017
Сообщений: 58
Бабло: $15250
|
500 000 в час это 8333 в минуту, 138 в секунду.
С учетом того, что есть мертвые, не быстрые и прочее - в секунду будет идти далеко за 200 запросов.
При таком исходящем. За 150 рублей дается 512 озу и недоядро недопроца.
Возможно, конечно, скрипт написан на ассембреле под свою ОС (сарказм), но чем-то попахивает...
|
|
|
05.05.2020, 13:23
|
#4
|
$400
Регистрация: 17.05.2009
Сообщений: 14,034
Бабло: $1904260
|
такая же фигня сделал себе экстеншн в браузер для парсинга и прикрутил к нему антигейт
не космические скорости, но так по мелочам парсит исправно, хоть и не бесплатно, за то на автомате - включил и забыл
|
|
|
05.05.2020, 13:40
|
#5
|
Senior Member
Регистрация: 22.10.2012
Сообщений: 148
Бабло: $55290
ТС -->
|
ТС
Цитата:
Сообщение от moneyleads
Цитата:
Сообщение от Excellent
всем привет
кто-нибудь еще парсит щас выдачу гугли?
подскажите софт годный под линух если есть таковой, кроме апарсера
|
Парсит любую информацию со страниц, так что Гугл не нужен. В парсер заряжаются списки доменов
|
и где списки доменов брать, если гугл не нужен?
|
|
|
05.05.2020, 14:04
|
#6
|
hustle
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
|
паршу при помощи мобильных прокси+селениум, прокси очень много значат
Цитата:
Сообщение от simk
Возможно, конечно, скрипт написан на ассембреле под свою ОС (сарказм), но чем-то попахивает..
|
golang осилит, да даже node js, но ВПС надо брать с 1 гигом минимум
|
|
|
05.05.2020, 14:37
|
#7
|
Senior Member
Регистрация: 12.07.2009
Сообщений: 1,581
Бабло: $361075
|
ранее ipv6 залетали без капч хорошо, сейчас уже не так все радужно(
|
|
|
05.05.2020, 15:44
|
#8
|
сыроед
Регистрация: 01.10.2015
Сообщений: 15,877
Бабло: $1862895
|
Цитата:
Сообщение от moneyleads
Цитата:
Сообщение от Excellent
всем привет
кто-нибудь еще парсит щас выдачу гугли?
подскажите софт годный под линух если есть таковой, кроме апарсера
|
Накропал сидя дома на самоизоляции отличный парсер.
Но продавать его пока не придумал как, т.к. парсер не только многопоточный, он еще и мультисерверный.
Хрень ставится на любое кол-во серверов ботом. Управление производится с одного сервера.
Парсит любую информацию со страниц, так что Гугл не нужен. В парсер заряжаются списки доменов по зонам или любые URL
и вхождения source code, которые он должен напарсить. Source code можно списком задавать.
Скорость работы на мощном VPS - более 1 млн. URL в час.
на менее мощном (за 150 руб. в мес.) - более 500 тыс. URL в час. Т.е. база доменов зоны ORG в 25 млн. доменов проходится
парсером с двух VPS за сутки. За один проход можно раскидать все URL по типам движков например: WP, Joomla и прочее,
собрать все емайлы с сайтов и до кучи найти объемный список уязвимостей. Также можно вычислить все ссылки на любой сайт,
собрать коды адсенс, коды партнерок и прочее. Сейчас ставлю эту приблуду на все свои сервера, чтобы по зоне COM прогуляться.
|
т.е. парсер строго для известных движков, которые по шаблону парсятся?
|
|
|
05.05.2020, 16:41
|
#9
|
Ебланнед
Регистрация: 09.11.2019
Сообщений: 431
Бабло: $69820
|
Цитата:
Сообщение от simk
500 000 в час это 8333 в минуту, 138 в секунду.
С учетом того, что есть мертвые, не быстрые и прочее - в секунду будет идти далеко за 200 запросов.
При таком исходящем. За 150 рублей дается 512 озу и недоядро недопроца.
Возможно, конечно, скрипт написан на ассембреле под свою ОС (сарказм), но чем-то попахивает...
|
По процессору и вообще по нагрузке на сервер все норм. Там сильный проц. не нужен, чтобы пропарсить вхождения заданных данных на странице.
В основном все зависит от ширины канала. Скрипт при работе занимает всю пропускную способность канала.
На 200 мегабит канале работает лучше даже на слабом процессоре, чем на сильном при 100 мегабит.
Вот на слабом: http://screenshot.ru/b6f2bfd9c6851484f547314a9ae045c1 - сейчас отключено, но по графикам видно какая была нагрузка.
Работало всю ночь. По процу не более 3% средняя нагрузка была. Если без ISP панели, сам серв стоит 150 руб. в мес. И серв не упал ни разу.
Даже сайтики на нем были доступны. Но по операциям ввода вывода и записи на диск IOPS все зашкаливает. На 8 час. утра свыше миллиона.
http://screenshot.ru/ca86d3c80e2b612b3a12a77ec22b51aa - поэтому пока отключил. Там от хостера уже первое китайское предупреждение было.
У них норма по IOPS не более 4000.
Вот на 6-ти ядерном проце, канал 100 мегабит. Работает и сейчас 2 парсера, плюс там туева хуча других сайтов и ТДС скриптов.
http://screenshot.ru/4af9d97839c2a6f8bc326ddbcb53f18b
А это на 2-х ядерном. 100 мб. канал. http://screenshot.ru/50fabb26cd3858aa7b6bb4d45e61d5b3 - сайты временами недоступны, но сам скрипт работает и все данные пишет.
|
|
|
05.05.2020, 17:45
|
#10
|
Ебланнед
Регистрация: 09.11.2019
Сообщений: 431
Бабло: $69820
|
Цитата:
Сообщение от веломан
Цитата:
Сообщение от moneyleads
Цитата:
Сообщение от Excellent
всем привет
кто-нибудь еще парсит щас выдачу гугли?
подскажите софт годный под линух если есть таковой, кроме апарсера
|
Накропал сидя дома на самоизоляции отличный парсер.
Но продавать его пока не придумал как, т.к. парсер не только многопоточный, он еще и мультисерверный.
Хрень ставится на любое кол-во серверов ботом. Управление производится с одного сервера.
Парсит любую информацию со страниц, так что Гугл не нужен. В парсер заряжаются списки доменов по зонам или любые URL
и вхождения source code, которые он должен напарсить. Source code можно списком задавать.
Скорость работы на мощном VPS - более 1 млн. URL в час.
на менее мощном (за 150 руб. в мес.) - более 500 тыс. URL в час. Т.е. база доменов зоны ORG в 25 млн. доменов проходится
парсером с двух VPS за сутки. За один проход можно раскидать все URL по типам движков например: WP, Joomla и прочее,
собрать все емайлы с сайтов и до кучи найти объемный список уязвимостей. Также можно вычислить все ссылки на любой сайт,
собрать коды адсенс, коды партнерок и прочее. Сейчас ставлю эту приблуду на все свои сервера, чтобы по зоне COM прогуляться.
|
т.е. парсер строго для известных движков, которые по шаблону парсятся?
|
Нет, ты задаешь ему на старте все что ты хочешь напарсить - вхождения - текста на странице и сами URL страниц. Движки пофигу - движок можешь определить после парсинга. Например вбив "wordpress" и прочие признаки движков в задание. Для WP можно просто админки пропарсить по URL или на наличие URL типа http://gcvcc.org/xmlrpc.php?rsd
http://gcvca.org/xmlrpc.php?rsd
http://gcvaonline.org/xmlrpc.php?rsd
http://gcuw.org/xmlrpc.php?rsd с нужным кодом ответа и вхождениями ключей характерных.
|
|
|
|