Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Треп | Флейм
Дата
USD/RUB58.7570
BTC/USD0.0000
Треп | Флейм Обсуждение самых разных тем вне онлайн бизнеса.

Закрытая тема
Опции темы Опции просмотра
Старый 13.09.2009, 19:11   #1
n!ce.
Сила гофака помоги!
 
Аватар для n!ce.
 
Регистрация: 03.01.2009
Адрес: London
Сообщений: 2,565
Бабло: $299605
Отправить сообщение для n!ce. с помощью ICQ
Arrow Парсинг Гугла. Подстановка +site/site.

Никто не задавался вопросом как лучше парсить запросы по доменным зонам?

Есть 2 варианта. Перебор всех зон для каждого запроса или перебор всех запросов для каждой зоны.
Наглядно это выглядит примерно так(знак "+" можно опускать, при парсинге роли не играет):

1 вариант

inurl:zapros1 +site:com
inurl:zapros1 +site:net
inurl:zapros1 +site:org

inurl:zapros2 +site:com
inurl:zapros2 +site:net
inurl:zapros2 +site:org

inurl:zapros3 +site:com
inurl:zapros3 +site:net
inurl:zapros3 +site:org
-----------------------------
2 вариант

inurl:zapros1 +site:com
inurl:zapros2 +site:com
inurl:zapros3 +site:com

inurl:zapros1 +site:net
inurl:zapros2 +site:net
inurl:zapros3 +site:net

inurl:zapros1 +site:org
inurl:zapros2 +site:org
inurl:zapros3 +site:org

Интересует именно то, как относится гугл к 1-му и 2-му способу. В каком больше вероятность бана. В 1-м способе идет подряд один и тот же запрос, меняются только доменные зоны (из может быть например 30, тогда 30 рад подряд один и тот же запрос). Во 2-м способе запросы грубо говоря рандомно отдаются гугле.

ЗЫ: А может при многопоточном парсинге, тем более через прокси, пофигу на все это? Интересно ваше мнение.
n!ce. вне форума  
Старый 13.09.2009, 19:46   #2
JackSoft
Бабло победит зло
 
Аватар для JackSoft
 
Регистрация: 20.06.2008
Сообщений: 2,484
Бабло: $329800
По умолчанию

пофигу
__________________
"Одно Касание/Touch File" - безопасный обмен файлами "TFUtils" - набор утилит TouchFile "TF Screenshots" - заменим Gyazo безопасным аналогом
JackSoft вне форума  
Старый 13.09.2009, 19:52   #3
krokodile
Senior Member
 
Аватар для krokodile
 
Регистрация: 02.12.2008
Адрес: S-Pb
Сообщений: 1,029
Бабло: $88298
Отправить сообщение для krokodile с помощью ICQ Отправить сообщение для krokodile с помощью Skype™
По умолчанию

С inurl чтобы парсить с нормальной скоростью всё равно надо зверское количество проксиков.Так что я бы не стал подобными вопросами мозг забивать)
krokodile вне форума  
Старый 13.09.2009, 20:14   #4
Hector
Статус кво
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: California
Сообщений: 11,243
Бабло: $1447930
Отправить сообщение для Hector с помощью ICQ
По умолчанию

по inurl обычно гугл быстро банит
__________________
----
Hector вне форума  
Старый 13.09.2009, 20:56   #5
spomoni
royalads.net
 
Аватар для spomoni
 
Регистрация: 06.04.2008
Сообщений: 12,637
Бабло: $1438045
По умолчанию

Цитата:
по inurl обычно гугл быстро банит
Хз, всегда по инурл парсю, 200 проксей, вроде нормально.
spomoni на форуме  
Старый 13.09.2009, 21:00   #6
Hector
Статус кво
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: California
Сообщений: 11,243
Бабло: $1447930
Отправить сообщение для Hector с помощью ICQ
По умолчанию

по инурлу быстрее бан - это факт а не "вроде"
__________________
----
Hector вне форума  
Старый 13.09.2009, 21:57   #7
n!ce.
Сила гофака помоги!
 
Аватар для n!ce.
 
Регистрация: 03.01.2009
Адрес: London
Сообщений: 2,565
Бабло: $299605
ТС -->
Отправить сообщение для n!ce. с помощью ICQ
автор темы ТС По умолчанию

Вопрос не в том как быстро гугл банит за inurl, это и так понятно, что он не очень к этому относится. Вопрос в том какая разница будет между 1 и 2 вариантами в 1-м моем посте
n!ce. вне форума  
Старый 13.09.2009, 22:13   #8
kanscx
Senior Member
 
Аватар для kanscx
 
Регистрация: 03.04.2007
Адрес: www.ua
Сообщений: 3,227
Бабло: $373635
По умолчанию

+100. Но правда 200 проксей для парсинга ето нормально в принципе, если много потоков не делать.
kanscx вне форума  
Старый 13.09.2009, 22:16   #9
n!ce.
Сила гофака помоги!
 
Аватар для n!ce.
 
Регистрация: 03.01.2009
Адрес: London
Сообщений: 2,565
Бабло: $299605
ТС -->
Отправить сообщение для n!ce. с помощью ICQ
автор темы ТС По умолчанию

я парсю из расчета 4 прокси на 1 поток. 400 потоков - 1600 проксей
n!ce. вне форума  
Старый 13.09.2009, 23:48   #10
Erdaud
Senior Member
 
Аватар для Erdaud
 
Регистрация: 10.04.2007
Сообщений: 471
Бабло: $16980
По умолчанию

все зависит от парсера.
парсим из расчета - 1 поток = 2-3 прокси.
200 потоков в среднем. (обычные, паблик) за сутки выдачу от ляма до двух спарсивает, inurl:zapros и до упора высасывает без подстановок (обход ограничения в 1000)

самописное не баниццо -)
__________________
EvaPharmacy-лучшая фарма партнерка (ICQ: 750 000 Jabber: [email protected]) / Детям
Erdaud вне форума