|
| Дата |
|
USD/RUB | 93.4409 | BTC/USD | 64164.9927 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
27.06.2011, 17:56
|
#1
|
Senior Member
Регистрация: 08.05.2008
Сообщений: 834
Бабло: $258860
|
Получить все УРЛы на сайте
Добрый день
Такой вопрос - как получить список ВСЕХ страниц на сайте? И отчекать их на ПР сразу (было бы хорошо).
|
|
|
27.06.2011, 18:18
|
#2
|
Senior Member
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
|
1. xenu
2. вариантов много, один из них у меня в подписи
|
|
|
27.06.2011, 22:19
|
#3
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
нужно бота писать который их все обойдет.
|
|
|
27.06.2011, 22:35
|
#4
|
gofuckingoogle
Регистрация: 28.08.2008
Адрес: 666
Сообщений: 9,443
Бабло: $1278645
|
Цитата:
Сообщение от WebNinja
нужно бота писать который их все обойдет.
|
Плюс взять два дедика и админа спецом под бота
|
|
|
27.06.2011, 22:48
|
#5
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
за час написать реально.
|
|
|
28.06.2011, 01:06
|
#6
|
Senior Member
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
|
Если не устраивает тот бот, которого я привел в пример выше (он кстати, написан на с++)))), то можно использовать scrapy. Все уже давно написано.
|
|
|
28.06.2011, 01:06
|
#7
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
|
Цитата:
Сообщение от WebNinja
за час написать реально.
|
не, не реально, я проверял, правда на пхп
там одна только функция вычисления абсолютного урла на 70 строк вышла у меня
+ еще полно всяких мелочей врапинг стандартных урловых функций, которые не понимают punycode и криво разбирают вполне валидные урлы
....
в общем час мало, у меня месяц-полтора ушло но там посложнее вариант
|
|
|
28.06.2011, 01:08
|
#8
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
нет реально ) выше ссылка
http://scrapy.org/
он еще асинхронный на твистед.
|
|
|
28.06.2011, 01:35
|
#9
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
самому то, канешно писать сложно канешно такие темы, помимо самого кодинга потом еще весьма долго придется тестить и отлавливать ошибки. это еще называют - писать свой велосипед.
все уже написано, чтобы разрабатывать что-то своё нужна действительно серьезная необходимость. так же и с поиском ты же не будешь писать поисковик для сайта сам в то время как есть xapian/lucene/shpinx
|
|
|
28.06.2011, 02:13
|
#10
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
|
WebNinja,
угу, получается я написал аналог scrapy на php
сам знаю, что это велосипед, но интересно было + поиском да, пользуюсь не всегда вовремя
С другой стороны, обычно свое начинается с малого, а потом разрастается. Так и у меня, изначально был парсер текста с какого то сайта - теперь веб-сервис-компонента (soap), которая браузит сайты по заданным правилам с css-рендерингом и эмуляцией брайзера, правда без js.
для пхпшников вот еще полезный софт:
http://www.simpletest.org/en/browser_documentation.html
|
|
|
|