вопрос по парсингу - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.7196
BTC/USD63618.2782
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 28.12.2010, 05:43   #1
mirikas
Senior Member
 
Аватар для mirikas
 
Регистрация: 25.12.2008
Сообщений: 1,099
Бабло: $272735
По умолчанию вопрос по парсингу

надо отпарсить сайт
по запросу site:сайт.com кейворд
мне надо отпрасить как можно больше страниц с гуугла. пробывал hrefer-ом но там надо шаблон ввести какие страницы сохранять, а мне надо как можно больше страниц выкачать этого сайта. мне контент не надо - а просто url страниц списком.
страницы идут вида site.com/page1 site.com/page2 ну и т.д.
вообщем каким софтом можно это сделать желательно чтобы можно было юзать соксы
За ранее спасибо!!
mirikas вне форума  
Старый 28.12.2010, 05:50   #2
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

тебе нужен именно список страниц из гугла?
если наличие в гугле не обязательно, то попробуй этим сервисом:
http://www.graffity.biz/products/link_checker/
с год назад парсил там под 100к страниц
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 28.12.2010, 13:48   #3
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
По умолчанию

А что не так с хрефером? Я всегда так делаю (только не забыть убрать фильтр одинаковых доменов); чем больше слов ему дашь - тем больше он тебе выпарсит.
1een вне форума  
Старый 28.12.2010, 14:11   #4
Fubu_By
Senior Member
 
Аватар для Fubu_By
 
Регистрация: 01.10.2010
Адрес: https://bankle.ru/
Сообщений: 1,140
Бабло: $306120
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
тебе нужен именно список страниц из гугла?
если наличие в гугле не обязательно, то попробуй этим сервисом:
http://www.graffity.biz/products/link_checker/
с год назад парсил там под 100к страниц
так он только 100 страниц парсит
Fubu_By вне форума  
Старый 28.12.2010, 14:22   #5
Grut
Senior Member
 
Аватар для Grut
 
Регистрация: 23.04.2007
Сообщений: 2,118
Бабло: $337995
По умолчанию

Читать справку Хрефера: темплейты отключаются
Grut вне форума  
Старый 28.12.2010, 14:25   #6
res1dent
Везучий ВМ
 
Аватар для res1dent
 
Регистрация: 21.08.2009
Сообщений: 1,495
Бабло: $239825
Отправить сообщение для res1dent с помощью Telegram
По умолчанию

XТТП://apocx.ru/stgrabber-1-1-parsing-url-title-i-sozdanie-karty-sajta/
вот парсер внутряков (не через гугл)
хз нахрена парсить гугл чтоб получить внутряки
__________________
Не зная ни сна и ни отдыха, при лунном и солнечном свете, легко и просто качаю бабло в интернете
res1dent вне форума  
Старый 28.12.2010, 14:32   #7
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
По умолчанию

Цитата:
Сообщение от res1dent Посмотреть сообщение
XТТП://apocx.ru/stgrabber-1-1-parsing-url-title-i-sozdanie-karty-sajta/
вот парсер внутряков (не через гугл)
хз нахрена парсить гугл чтоб получить внутряки
не скажу за этот сервис, но все, которые я пробовал, рано или поздно валились на действительно больших (>1m) объемах.
1een вне форума  
Старый 28.12.2010, 15:54   #8
res1dent
Везучий ВМ
 
Аватар для res1dent
 
Регистрация: 21.08.2009
Сообщений: 1,495
Бабло: $239825
Отправить сообщение для res1dent с помощью Telegram
По умолчанию

ну если я посоветовал значит я юзал
50к линков собирает без проблем
на действительно больших (>1m) объемах.
хз что это значит
__________________
Не зная ни сна и ни отдыха, при лунном и солнечном свете, легко и просто качаю бабло в интернете
res1dent вне форума  
Старый 28.12.2010, 16:02   #9
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
По умолчанию

Цитата:
Сообщение от res1dent Посмотреть сообщение
хз что это значит
Это значит, что у сайта более миллиона страниц
1een вне форума  
Старый 28.12.2010, 16:04   #10
res1dent
Везучий ВМ
 
Аватар для res1dent
 
Регистрация: 21.08.2009
Сообщений: 1,495
Бабло: $239825
Отправить сообщение для res1dent с помощью Telegram
По умолчанию

в теории должен потянуть
это ж колхозный так сказать софт, как раз заточеный под это дело.
и не на пхп
__________________
Не зная ни сна и ни отдыха, при лунном и солнечном свете, легко и просто качаю бабло в интернете
res1dent вне форума