Парсинг Гугла. Подстановка +site/site. - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Треп | Флейм
Дата
USD/RUB93.4409
BTC/USD64973.4436
Треп | Флейм Обсуждение самых разных тем вне онлайн бизнеса.

Закрытая тема
Опции темы Опции просмотра
Старый 13.09.2009, 19:11   #1
n!ce.
Сила гофака помоги!
 
Аватар для n!ce.
 
Регистрация: 03.01.2009
Адрес: London
Сообщений: 2,559
Бабло: $299605
Отправить сообщение для n!ce. с помощью ICQ
Arrow Парсинг Гугла. Подстановка +site/site.

Никто не задавался вопросом как лучше парсить запросы по доменным зонам?

Есть 2 варианта. Перебор всех зон для каждого запроса или перебор всех запросов для каждой зоны.
Наглядно это выглядит примерно так(знак "+" можно опускать, при парсинге роли не играет):

1 вариант

inurl:zapros1 +site:com
inurl:zapros1 +site:net
inurl:zapros1 +site:org

inurl:zapros2 +site:com
inurl:zapros2 +site:net
inurl:zapros2 +site:org

inurl:zapros3 +site:com
inurl:zapros3 +site:net
inurl:zapros3 +site:org
-----------------------------
2 вариант

inurl:zapros1 +site:com
inurl:zapros2 +site:com
inurl:zapros3 +site:com

inurl:zapros1 +site:net
inurl:zapros2 +site:net
inurl:zapros3 +site:net

inurl:zapros1 +site:org
inurl:zapros2 +site:org
inurl:zapros3 +site:org

Интересует именно то, как относится гугл к 1-му и 2-му способу. В каком больше вероятность бана. В 1-м способе идет подряд один и тот же запрос, меняются только доменные зоны (из может быть например 30, тогда 30 рад подряд один и тот же запрос). Во 2-м способе запросы грубо говоря рандомно отдаются гугле.

ЗЫ: А может при многопоточном парсинге, тем более через прокси, пофигу на все это? Интересно ваше мнение.
n!ce. вне форума  
Старый 13.09.2009, 19:46   #2
JackSoft
Бабло победит зло
 
Аватар для JackSoft
 
Регистрация: 20.06.2008
Сообщений: 2,579
Бабло: $346045
По умолчанию

пофигу
__________________
"Одно Касание/Touch File" - безопасный обмен файлами "TFUtils" - набор утилит TouchFile "TF Screenshots" - заменим Gyazo безопасным аналогом
JackSoft вне форума  
Старый 13.09.2009, 19:52   #3
krokodile
Senior Member
 
Регистрация: 02.12.2008
Сообщений: 1,031
Бабло: $88718
По умолчанию

С inurl чтобы парсить с нормальной скоростью всё равно надо зверское количество проксиков.Так что я бы не стал подобными вопросами мозг забивать)
krokodile вне форума  
Старый 13.09.2009, 20:14   #4
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

по inurl обычно гугл быстро банит
Hector вне форума  
Старый 13.09.2009, 20:56   #5
spomoni
spomoni.com
 
Аватар для spomoni
 
Регистрация: 06.04.2008
Сообщений: 18,501
Бабло: $2075395
По умолчанию

Цитата:
по inurl обычно гугл быстро банит
Хз, всегда по инурл парсю, 200 проксей, вроде нормально.
spomoni вне форума  
Старый 13.09.2009, 21:00   #6
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

по инурлу быстрее бан - это факт а не "вроде"
Hector вне форума  
Старый 13.09.2009, 21:57   #7
n!ce.
Сила гофака помоги!
 
Аватар для n!ce.
 
Регистрация: 03.01.2009
Адрес: London
Сообщений: 2,559
Бабло: $299605
ТС -->
Отправить сообщение для n!ce. с помощью ICQ
автор темы ТС По умолчанию

Вопрос не в том как быстро гугл банит за inurl, это и так понятно, что он не очень к этому относится. Вопрос в том какая разница будет между 1 и 2 вариантами в 1-м моем посте
n!ce. вне форума  
Старый 13.09.2009, 22:13   #8
kanscx
Senior Member
 
Аватар для kanscx
 
Регистрация: 03.04.2007
Адрес: www.ua
Сообщений: 3,209
Бабло: $373635
По умолчанию

+100. Но правда 200 проксей для парсинга ето нормально в принципе, если много потоков не делать.
kanscx вне форума  
Старый 13.09.2009, 22:16   #9
n!ce.
Сила гофака помоги!
 
Аватар для n!ce.
 
Регистрация: 03.01.2009
Адрес: London
Сообщений: 2,559
Бабло: $299605
ТС -->
Отправить сообщение для n!ce. с помощью ICQ
автор темы ТС По умолчанию

я парсю из расчета 4 прокси на 1 поток. 400 потоков - 1600 проксей
n!ce. вне форума  
Старый 13.09.2009, 23:48   #10
Erdaud
Senior Member
 
Аватар для Erdaud
 
Регистрация: 10.04.2007
Сообщений: 466
Бабло: $16980
По умолчанию

все зависит от парсера.
парсим из расчета - 1 поток = 2-3 прокси.
200 потоков в среднем. (обычные, паблик) за сутки выдачу от ляма до двух спарсивает, inurl:zapros и до упора высасывает без подстановок (обход ограничения в 1000)

самописное не баниццо -)
__________________
EvaPharmacy-лучшая фарма партнерка (ICQ: 750 000 Jabber: [email protected]) / Детям
Erdaud вне форума