А чем можно отпарсить все исходящие ссылки с сайта? - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.4409
BTC/USD64124.0864
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 24.02.2010, 15:40   #1
Maximus325
Технодаун
 
Регистрация: 11.05.2007
Сообщений: 10,384
Бабло: $1503235
По умолчанию А чем можно отпарсить все исходящие ссылки с сайта?

Сайт не имеет каталожной структуры.
Порядок ссылок я думаю десятки тысяч.
Есть софт какой?
__________________
ноу криминалити ин раша
Maximus325 вне форума  
Старый 24.02.2010, 15:51   #2
imgreen
Senior Member
 
Аватар для imgreen
 
Регистрация: 15.11.2008
Сообщений: 13,230
Бабло: $247845881
По умолчанию

писать скрипт надо имхо...
imgreen вне форума  
Старый 24.02.2010, 16:00   #3
warovik
Senior Member
 
Регистрация: 17.05.2007
Сообщений: 739
Бабло: $142985
По умолчанию

на сайте много страниц ?
warovik вне форума  
Старый 24.02.2010, 16:03   #4
Maximus325
Технодаун
 
Регистрация: 11.05.2007
Сообщений: 10,384
Бабло: $1503235
ТС -->
автор темы ТС По умолчанию

В индексе гугля 11 млн )
__________________
ноу криминалити ин раша
Maximus325 вне форума  
Старый 24.02.2010, 16:04   #5
Maximus325
Технодаун
 
Регистрация: 11.05.2007
Сообщений: 10,384
Бабло: $1503235
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от imgreen Посмотреть сообщение
писать скрипт надо имхо...
Это понятно, просто мало ли как то элигантно можно заюзать какой-нибудь парсерчиг типа GS Crawler.
__________________
ноу криминалити ин раша
Maximus325 вне форума  
Старый 24.02.2010, 16:06   #6
greenwar
Ебланнед
 
Регистрация: 07.02.2010
Сообщений: 1,052
Бабло: $119555
По умолчанию

почекай teleport pro
он выкачивает сайты целиком, но у него опций много, может и урлы собрать сможет
greenwar вне форума  
Старый 24.02.2010, 16:08   #7
imgreen
Senior Member
 
Аватар для imgreen
 
Регистрация: 15.11.2008
Сообщений: 13,230
Бабло: $247845881
По умолчанию

да, телепорт можно попробовать, даже если нельзя им парсить url-ы скрипт существенно упрощается)) точнее там уже писать нечего
imgreen вне форума  
Старый 24.02.2010, 16:10   #8
Nes.qu1ck
Senior Member
 
Аватар для Nes.qu1ck
 
Регистрация: 25.11.2009
Сообщений: 178
Бабло: $23850
По умолчанию

Цитата:
Сообщение от greenwar
он выкачивает сайты целиком
11 лямов страниц это жесть будет)
__________________
неважно что, где и когда, важно почему, да и почему тоже неважно, если всё игра, то иногда лучше воворемя нажать кнопку резет
Nes.qu1ck вне форума  
Старый 24.02.2010, 16:13   #9
Black Box
Member
 
Регистрация: 26.02.2008
Сообщений: 40
Бабло: $4000
По умолчанию

у меня есть софт такой - давным давно им гесты мониторил.
софт сам дать не смогу, т.к. сложно настраивать, но могу прочекать...
11 млн. - займет несколько дней.

если инфа будет интересна мне для себя - бесплатно сделаю.
если нет, то за символическую плату.

обращайся если что по асе 324319922
Black Box вне форума  
Старый 24.02.2010, 16:27   #10
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

как раз на днях дописал серверный многопоточный парсер, могу парсить любые сайты и сохранять с них любую(заданную) инфу, в том числе исходящие href тегов <a>, кроме javascript - js интерпретатора нет.
Вопрос в трафике(платный) и времени(11 лямов долго).
Пишите в личку, если интересно
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума