Чем спарсить урлы на страницы, сайт на 7м? - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.7196
BTC/USD64446.2028
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 03.05.2013, 22:53   #1
smsupport
Senior Member
 
Аватар для smsupport
 
Регистрация: 12.07.2009
Сообщений: 1,581
Бабло: $361065
Arrow Чем спарсить урлы на страницы, сайт на 7м?

Мне нужно что-то вроде паука по сайту. А потом составить отчет по всем найденным уникальным URL сайта.

Тестировал Xenu – умер на 1.7 м.

Есть ли фри софт или скрипт способные это сделать?
__________________
Swissdoc heavy spec
smsupport вне форума  
Старый 03.05.2013, 23:10   #2
главторг
Ебланнед
 
Регистрация: 03.05.2013
Сообщений: 20
Бабло: $10100
По умолчанию

Цитата:
Сообщение от smsupport Посмотреть сообщение
Мне нужно что-то вроде паука по сайту. А потом составить отчет по всем найденным уникальным URL сайта.

Тестировал Xenu – умер на 1.7 м.

Есть ли фри софт или скрипт способные это сделать?
1.7м чего
сколько страниц на сайте
тз поподробней опиши
главторг вне форума  
Старый 03.05.2013, 23:58   #3
majordon
Senior Member
 
Аватар для majordon
 
Регистрация: 11.10.2008
Сообщений: 6,409
Бабло: $904273
По умолчанию

контент даунлоадер попробуй
majordon вне форума  
Старый 04.05.2013, 00:22   #4
banzai
Senior Member
 
Аватар для banzai
 
Регистрация: 28.04.2007
Сообщений: 1,564
Бабло: $190592
Отправить сообщение для banzai с помощью ICQ
По умолчанию

вроде бы это тебе должно подойти http://www.inspyder.com/products/Sit...r/Default.aspx
платный правда, но малоли на торрентах живет
__________________
Заспамит все, что шевелится, что не шевелится сначала разговорит Гугла бояться - в интернет не ходить.
banzai вне форума  
Старый 04.05.2013, 09:39   #5
marcircbers
Ебланнед
 
Регистрация: 17.07.2012
Сообщений: 30
Бабло: $7447
По умолчанию

попробуй фришные http://wonderwebware.com/sitemap-gen.../download.html и http://apocx.ru/stgrabber-1-1-parsin...jta/index.html
marcircbers вне форума  
Старый 04.05.2013, 12:20   #6
Avi
Senior Member
 
Аватар для Avi
 
Регистрация: 01.07.2012
Сообщений: 248
Бабло: $93280
По умолчанию

Microsys.A1.Sitemap.Generator.3.0.3
Avi вне форума  
Старый 04.05.2013, 16:31   #7
smsupport
Senior Member
 
Аватар для smsupport
 
Регистрация: 12.07.2009
Сообщений: 1,581
Бабло: $361065
ТС -->
автор темы ТС По умолчанию

Microsys.A1.Sitemap.Generator.3.0.3 -
http://www.microsystools.com/product...nerator-pages/ - вроде как лимит даже на про 100к урлов.
Wonderwebware.com - протестировал. Парсит 60к урлов, дальше обрывает.

Кидайте еще софт, буду тестировать...
__________________
Swissdoc heavy spec
smsupport вне форума  
Старый 04.05.2013, 16:54   #8
spasibo
Senior Member
 
Регистрация: 14.04.2013
Сообщений: 131
Бабло: $28805
По умолчанию

на сайте есть какая-нибудь pagination? типа
page/1
page/2
или может есть карта сайта?
чтобы все 7М страниц не качать.
spasibo вне форума  
Старый 04.05.2013, 16:59   #9
just4fun
Senior Member
 
Аватар для just4fun
 
Регистрация: 01.08.2010
Сообщений: 1,169
Бабло: $215754
По умолчанию

или роботс позырь, сайтмапы мож какие есть)
just4fun вне форума  
Старый 04.05.2013, 19:03   #10
smsupport
Senior Member
 
Аватар для smsupport
 
Регистрация: 12.07.2009
Сообщений: 1,581
Бабло: $361065
ТС -->
автор темы ТС По умолчанию

Сайт хитрый.
Пагинатора нет + результаты ограничены 6000 в каждой категории.
Сайтмап есть, но он тоже кастрирован.

Вариант распарсить только через блок "похожий контент", но для этого и нужен паук

Короче все сайтмап генераторы не могут спарсить так много урлов.
__________________
Swissdoc heavy spec
smsupport вне форума