Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.9290
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 07.12.2011, 12:07   #1
y4b53
:(
 
Аватар для y4b53
 
Регистрация: 25.11.2008
Сообщений: 733
Бабло: $89197
По умолчанию Как спарсить много ссылок

Мне для своих целей нужно напарсить много ссылок с разных сайтов.
Пробовал писать краулер, но даже при 200 потоках получаеться за часа 2 собрать не более 20к, при парсинге разумееться больше, но это доп затраты на прокси...
Подскажите как будет лучше сделать. Может есть сервисы какие-то ?
Или где-то можно смотреть беклинки сайтов без прокси?
y4b53 вне форума  
Старый 07.12.2011, 12:14   #2
res1dent
Лютый Эникейщик
 
Аватар для res1dent
 
Регистрация: 21.08.2009
Сообщений: 1,462
Бабло: $233740
По умолчанию

странный вопрос от кодера
имхо краулер онли
если у тя так медленно парсит краулер - то тут твой косяк
оптимизируй его
больше никак
своих паучков тут тебе никто не выложит
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит!
res1dent вне форума  
Старый 07.12.2011, 12:22   #3
Dr.Gonzo
gofuckingoogle
 
Аватар для Dr.Gonzo
 
Регистрация: 28.08.2008
Адрес: ГНР
Сообщений: 7,730
Бабло: $1058715
По умолчанию

+1, серв помощнее, кравлер побыстрее)
Плюс очень сильно зависит от сайта, который парсишь.
Dr.Gonzo вне форума  
Старый 07.12.2011, 13:39   #4
y4b53
:(
 
Аватар для y4b53
 
Регистрация: 25.11.2008
Сообщений: 733
Бабло: $89197
ТС -->
автор темы ТС По умолчанию

Проблема не в краулере,а в том что ссылок мало парситься, вернее их мало на сайтах, и большинство ведут на популярные русурсы (youtube, twitter) и т.д
y4b53 вне форума  
Старый 07.12.2011, 13:56   #5
Юнга
white powder
 
Аватар для Юнга
 
Регистрация: 29.04.2007
Сообщений: 2,650
Бабло: $351040
По умолчанию

не важно чтоль - каких ссылок и с каких сайтов?
__________________
господин мойва любит вас
Юнга на форуме  
Старый 07.12.2011, 14:19   #6
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,306
Бабло: $161695
По умолчанию

Что ты собираешь-то, какие ссылки? Бэклинки? Если да, то откуда. Если не нужны youtube, twitter - то такие линки просто отфильтровываем.
1een вне форума  
Старый 07.12.2011, 14:26   #7
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,306
Бабло: $161695
По умолчанию

Offtopic
1een вне форума  
Старый 07.12.2011, 14:27   #8
y4b53
:(
 
Аватар для y4b53
 
Регистрация: 25.11.2008
Сообщений: 733
Бабло: $89197
ТС -->
автор темы ТС По умолчанию

Да обычные беклинки, без топовых сайтов.
Если youtube и т.д фильтровать, получать очень мало ссылок собираеться
y4b53 вне форума  
Старый 07.12.2011, 18:23   #9
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,382
Бабло: $470735
По умолчанию

парсь карту сайт sitemap.xml или гугл на предмет siteomen.com

в час 10к маловато очень имхо
парсер на чем, курл? по идее прокси не нужны, чтобы парсить не гуглы
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 07.12.2011, 18:41   #10
y4b53
:(
 
Аватар для y4b53
 
Регистрация: 25.11.2008
Сообщений: 733
Бабло: $89197
ТС -->
автор темы ТС По умолчанию

Парсер на python.
Sitemap не везде есть, а гугл парсить не выгодно из-за соксов...

Какие есть поисковики которые без соксов выдают по linkomain или siteomain? search.aol.com не пойдет ?
y4b53 вне форума  
Закрытая тема



Опции темы
Опции просмотра