Посоветуйте парсеры Гугла - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.2486
BTC/USD69079.7280
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 05.05.2020, 04:14   #1
Excellent
Senior Member
 
Аватар для Excellent
 
Регистрация: 22.10.2012
Сообщений: 148
Бабло: $55290
Question Посоветуйте парсеры Гугла

всем привет
кто-нибудь еще парсит щас выдачу гугли?
подскажите софт годный под линух если есть таковой, кроме апарсера
Excellent вне форума  
Старый 05.05.2020, 12:16   #2
moneyleads
Ебланнед
 
Регистрация: 09.11.2019
Сообщений: 431
Бабло: $69820
По умолчанию

Цитата:
Сообщение от Excellent Посмотреть сообщение
всем привет
кто-нибудь еще парсит щас выдачу гугли?
подскажите софт годный под линух если есть таковой, кроме апарсера
Накропал сидя дома на самоизоляции отличный парсер.
Но продавать его пока не придумал как, т.к. парсер не только многопоточный, он еще и мультисерверный.
Хрень ставится на любое кол-во серверов ботом. Управление производится с одного сервера.
Парсит любую информацию со страниц, так что Гугл не нужен. В парсер заряжаются списки доменов по зонам или любые URL
и вхождения source code, которые он должен напарсить. Source code можно списком задавать.
Скорость работы на мощном VPS - более 1 млн. URL в час.
на менее мощном (за 150 руб. в мес.) - более 500 тыс. URL в час. Т.е. база доменов зоны ORG в 25 млн. доменов проходится
парсером с двух VPS за сутки. За один проход можно раскидать все URL по типам движков например: WP, Joomla и прочее,
собрать все емайлы с сайтов и до кучи найти объемный список уязвимостей. Также можно вычислить все ссылки на любой сайт,
собрать коды адсенс, коды партнерок и прочее. Сейчас ставлю эту приблуду на все свои сервера, чтобы по зоне COM прогуляться.
moneyleads вне форума  
Старый 05.05.2020, 13:18   #3
simk
Member
 
Регистрация: 02.10.2017
Сообщений: 58
Бабло: $15250
По умолчанию

500 000 в час это 8333 в минуту, 138 в секунду.
С учетом того, что есть мертвые, не быстрые и прочее - в секунду будет идти далеко за 200 запросов.
При таком исходящем. За 150 рублей дается 512 озу и недоядро недопроца.
Возможно, конечно, скрипт написан на ассембреле под свою ОС (сарказм), но чем-то попахивает...
simk вне форума  
Старый 05.05.2020, 13:23   #4
digg
$400
 
Аватар для digg
 
Регистрация: 17.05.2009
Сообщений: 14,034
Бабло: $1904260
Отправить сообщение для digg с помощью ICQ
По умолчанию

такая же фигня сделал себе экстеншн в браузер для парсинга и прикрутил к нему антигейт
не космические скорости, но так по мелочам парсит исправно, хоть и не бесплатно, за то на автомате - включил и забыл
digg вне форума  
Старый 05.05.2020, 13:40   #5
Excellent
Senior Member
 
Аватар для Excellent
 
Регистрация: 22.10.2012
Сообщений: 148
Бабло: $55290
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от moneyleads Посмотреть сообщение
Цитата:
Сообщение от Excellent Посмотреть сообщение
всем привет
кто-нибудь еще парсит щас выдачу гугли?
подскажите софт годный под линух если есть таковой, кроме апарсера
Парсит любую информацию со страниц, так что Гугл не нужен. В парсер заряжаются списки доменов
и где списки доменов брать, если гугл не нужен?
Excellent вне форума  
Старый 05.05.2020, 14:04   #6
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

паршу при помощи мобильных прокси+селениум, прокси очень много значат

Цитата:
Сообщение от simk
Возможно, конечно, скрипт написан на ассембреле под свою ОС (сарказм), но чем-то попахивает..
golang осилит, да даже node js, но ВПС надо брать с 1 гигом минимум
Hector вне форума  
Старый 05.05.2020, 14:37   #7
smsupport
Senior Member
 
Аватар для smsupport
 
Регистрация: 12.07.2009
Сообщений: 1,581
Бабло: $361075
По умолчанию

ранее ipv6 залетали без капч хорошо, сейчас уже не так все радужно(
__________________
Swissdoc heavy spec
smsupport вне форума  
Старый 05.05.2020, 15:44   #8
веломан
сыроед
 
Аватар для веломан
 
Регистрация: 01.10.2015
Сообщений: 15,877
Бабло: $1862895
По умолчанию

Цитата:
Сообщение от moneyleads Посмотреть сообщение
Цитата:
Сообщение от Excellent Посмотреть сообщение
всем привет
кто-нибудь еще парсит щас выдачу гугли?
подскажите софт годный под линух если есть таковой, кроме апарсера
Накропал сидя дома на самоизоляции отличный парсер.
Но продавать его пока не придумал как, т.к. парсер не только многопоточный, он еще и мультисерверный.
Хрень ставится на любое кол-во серверов ботом. Управление производится с одного сервера.
Парсит любую информацию со страниц, так что Гугл не нужен. В парсер заряжаются списки доменов по зонам или любые URL
и вхождения source code, которые он должен напарсить. Source code можно списком задавать.
Скорость работы на мощном VPS - более 1 млн. URL в час.
на менее мощном (за 150 руб. в мес.) - более 500 тыс. URL в час. Т.е. база доменов зоны ORG в 25 млн. доменов проходится
парсером с двух VPS за сутки. За один проход можно раскидать все URL по типам движков например: WP, Joomla и прочее,
собрать все емайлы с сайтов и до кучи найти объемный список уязвимостей. Также можно вычислить все ссылки на любой сайт,
собрать коды адсенс, коды партнерок и прочее. Сейчас ставлю эту приблуду на все свои сервера, чтобы по зоне COM прогуляться.
т.е. парсер строго для известных движков, которые по шаблону парсятся?
веломан вне форума  
Старый 05.05.2020, 16:41   #9
moneyleads
Ебланнед
 
Регистрация: 09.11.2019
Сообщений: 431
Бабло: $69820
По умолчанию

Цитата:
Сообщение от simk Посмотреть сообщение
500 000 в час это 8333 в минуту, 138 в секунду.
С учетом того, что есть мертвые, не быстрые и прочее - в секунду будет идти далеко за 200 запросов.
При таком исходящем. За 150 рублей дается 512 озу и недоядро недопроца.
Возможно, конечно, скрипт написан на ассембреле под свою ОС (сарказм), но чем-то попахивает...
По процессору и вообще по нагрузке на сервер все норм. Там сильный проц. не нужен, чтобы пропарсить вхождения заданных данных на странице.
В основном все зависит от ширины канала. Скрипт при работе занимает всю пропускную способность канала.
На 200 мегабит канале работает лучше даже на слабом процессоре, чем на сильном при 100 мегабит.
Вот на слабом: http://screenshot.ru/b6f2bfd9c6851484f547314a9ae045c1 - сейчас отключено, но по графикам видно какая была нагрузка.
Работало всю ночь. По процу не более 3% средняя нагрузка была. Если без ISP панели, сам серв стоит 150 руб. в мес. И серв не упал ни разу.
Даже сайтики на нем были доступны. Но по операциям ввода вывода и записи на диск IOPS все зашкаливает. На 8 час. утра свыше миллиона.
http://screenshot.ru/ca86d3c80e2b612b3a12a77ec22b51aa - поэтому пока отключил. Там от хостера уже первое китайское предупреждение было.
У них норма по IOPS не более 4000.
Вот на 6-ти ядерном проце, канал 100 мегабит. Работает и сейчас 2 парсера, плюс там туева хуча других сайтов и ТДС скриптов.
http://screenshot.ru/4af9d97839c2a6f8bc326ddbcb53f18b
А это на 2-х ядерном. 100 мб. канал. http://screenshot.ru/50fabb26cd3858aa7b6bb4d45e61d5b3 - сайты временами недоступны, но сам скрипт работает и все данные пишет.
moneyleads вне форума  
Старый 05.05.2020, 17:45   #10
moneyleads
Ебланнед
 
Регистрация: 09.11.2019
Сообщений: 431
Бабло: $69820
По умолчанию

Цитата:
Сообщение от веломан Посмотреть сообщение
Цитата:
Сообщение от moneyleads Посмотреть сообщение
Цитата:
Сообщение от Excellent Посмотреть сообщение
всем привет
кто-нибудь еще парсит щас выдачу гугли?
подскажите софт годный под линух если есть таковой, кроме апарсера
Накропал сидя дома на самоизоляции отличный парсер.
Но продавать его пока не придумал как, т.к. парсер не только многопоточный, он еще и мультисерверный.
Хрень ставится на любое кол-во серверов ботом. Управление производится с одного сервера.
Парсит любую информацию со страниц, так что Гугл не нужен. В парсер заряжаются списки доменов по зонам или любые URL
и вхождения source code, которые он должен напарсить. Source code можно списком задавать.
Скорость работы на мощном VPS - более 1 млн. URL в час.
на менее мощном (за 150 руб. в мес.) - более 500 тыс. URL в час. Т.е. база доменов зоны ORG в 25 млн. доменов проходится
парсером с двух VPS за сутки. За один проход можно раскидать все URL по типам движков например: WP, Joomla и прочее,
собрать все емайлы с сайтов и до кучи найти объемный список уязвимостей. Также можно вычислить все ссылки на любой сайт,
собрать коды адсенс, коды партнерок и прочее. Сейчас ставлю эту приблуду на все свои сервера, чтобы по зоне COM прогуляться.
т.е. парсер строго для известных движков, которые по шаблону парсятся?
Нет, ты задаешь ему на старте все что ты хочешь напарсить - вхождения - текста на странице и сами URL страниц. Движки пофигу - движок можешь определить после парсинга. Например вбив "wordpress" и прочие признаки движков в задание. Для WP можно просто админки пропарсить по URL или на наличие URL типа http://gcvcc.org/xmlrpc.php?rsd
http://gcvca.org/xmlrpc.php?rsd
http://gcvaonline.org/xmlrpc.php?rsd
http://gcuw.org/xmlrpc.php?rsd с нужным кодом ответа и вхождениями ключей характерных.
moneyleads вне форума