Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.6690
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 27.06.2011, 17:56   #1
Dumpty
Senior Member
 
Аватар для Dumpty
 
Регистрация: 08.05.2008
Сообщений: 808
Бабло: $250960
Отправить сообщение для Dumpty с помощью ICQ
По умолчанию Получить все УРЛы на сайте

Добрый день
Такой вопрос - как получить список ВСЕХ страниц на сайте? И отчекать их на ПР сразу (было бы хорошо).
Dumpty вне форума  
Старый 27.06.2011, 18:18   #2
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,304
Бабло: $161695
По умолчанию

1. xenu
2. вариантов много, один из них у меня в подписи
1een вне форума  
Старый 27.06.2011, 22:19   #3
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,903
Бабло: $322214
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

нужно бота писать который их все обойдет.
WebNinja вне форума  
Старый 27.06.2011, 22:35   #4
Dr.Gonzo
gofuckingoogle
 
Аватар для Dr.Gonzo
 
Регистрация: 28.08.2008
Адрес: ГНР
Сообщений: 7,733
Бабло: $1059275
По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение
нужно бота писать который их все обойдет.
Плюс взять два дедика и админа спецом под бота
Dr.Gonzo на форуме  
Старый 27.06.2011, 22:48   #5
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,903
Бабло: $322214
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

за час написать реально.
WebNinja вне форума  
Старый 28.06.2011, 01:06   #6
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,304
Бабло: $161695
По умолчанию

Если не устраивает тот бот, которого я привел в пример выше (он кстати, написан на с++)))), то можно использовать scrapy. Все уже давно написано.
1een вне форума  
Старый 28.06.2011, 01:06   #7
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,382
Бабло: $470735
По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение
за час написать реально.
не, не реально, я проверял, правда на пхп
там одна только функция вычисления абсолютного урла на 70 строк вышла у меня
+ еще полно всяких мелочей врапинг стандартных урловых функций, которые не понимают punycode и криво разбирают вполне валидные урлы
....
в общем час мало, у меня месяц-полтора ушло но там посложнее вариант
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 28.06.2011, 01:08   #8
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,903
Бабло: $322214
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

нет реально ) выше ссылка
http://scrapy.org/
он еще асинхронный на твистед.
WebNinja вне форума  
Старый 28.06.2011, 01:35   #9
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,903
Бабло: $322214
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

самому то, канешно писать сложно канешно такие темы, помимо самого кодинга потом еще весьма долго придется тестить и отлавливать ошибки. это еще называют - писать свой велосипед.

все уже написано, чтобы разрабатывать что-то своё нужна действительно серьезная необходимость. так же и с поиском ты же не будешь писать поисковик для сайта сам в то время как есть xapian/lucene/shpinx
WebNinja вне форума  
Старый 28.06.2011, 02:13   #10
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,382
Бабло: $470735
По умолчанию

WebNinja,
угу, получается я написал аналог scrapy на php
сам знаю, что это велосипед, но интересно было + поиском да, пользуюсь не всегда вовремя
С другой стороны, обычно свое начинается с малого, а потом разрастается. Так и у меня, изначально был парсер текста с какого то сайта - теперь веб-сервис-компонента (soap), которая браузит сайты по заданным правилам с css-рендерингом и эмуляцией брайзера, правда без js.

для пхпшников вот еще полезный софт:
http://www.simpletest.org/en/browser_documentation.html
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Закрытая тема



Опции темы
Опции просмотра