|
| Дата |
|
USD/RUB | 93.4409 | BTC/USD | 66407.3766 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
10.11.2010, 22:33
|
#1
|
Директор Тольятти
Регистрация: 08.05.2010
Сообщений: 754
Бабло: $116155
|
хэлп текст
нужен парсер желательно дископтный чтоб url сайта дал и он от туда весь текст без html картинок и всякой х.. записал в одельный файл если кто встричал в паблике актуальный парсер для такой цели поделитесь сылочкой будит
|
|
|
10.11.2010, 23:11
|
#2
|
𝕾𝕰𝕽𝕺𝕵𝕬
Регистрация: 23.11.2007
Сообщений: 2,005
Бабло: $294407
|
Тоже как-то искал, вот Content Downloader, посмотрел видео, потом чет передумал =)
|
|
|
11.11.2010, 01:17
|
#3
|
Senior Member
Регистрация: 10.10.2010
Сообщений: 1,059
Бабло: $126610
|
такой парсер нереален, имхо
он тебе запихает в кучу и названия меню, и рекламу, и всё подряд, если его на любой сайт отправлять
|
|
|
11.11.2010, 03:21
|
#4
|
Особый статус
Регистрация: 19.02.2009
Сообщений: 117
Бабло: $34435
|
если дается урл заведомо со статьей или новостью то очень даже риал причем все равно енг или рус текст , если есть интерес могу выкатать до продажного вида . пока в виде модуля пашет ... ну конечно же не 100% гарантия чистоты но %90-95 так точно... думаю смогу отладить и до 99 % для моих целей хватает и этого
|
|
|
11.11.2010, 03:32
|
#5
|
Шоколатье
Регистрация: 20.04.2007
Сообщений: 5,973
Бабло: $726105
|
я тоже так хочу. делай коммерческу версию незадорого - и пойдут продажи )
|
|
|
11.11.2010, 03:43
|
#6
|
Ебланнед
Регистрация: 03.06.2008
Сообщений: 3,846
Бабло: $432125
|
не понимаю что тут нереального?
обычный не сложный алгоритм и всё!
|
|
|
11.11.2010, 04:01
|
#7
|
Особый статус
Регистрация: 19.02.2009
Сообщений: 117
Бабло: $34435
|
ну, если ты этим занимаешься то да , не сложный.. но поковыряться то конечно же в алго придется... вообщем сделаю оцените. цепляешь такое к кое чему и универсальный сборщик тематического контента готов ... )
|
|
|
11.11.2010, 04:02
|
#8
|
Super Moderator
Регистрация: 04.04.2007
Адрес: Panama
Сообщений: 5,301
Бабло: $1565315
|
HTTrack Website Copier
я точно не знаю как там с настройками, но точно думаю можно без картинок парсить. А теги убрать каким ни будь текстовым редактором.
|
|
|
11.11.2010, 04:09
|
#9
|
Senior Medved
Регистрация: 15.06.2008
Сообщений: 4,146
Бабло: $22479945
|
Цитата:
Сообщение от Fisherman
HTTrack Website Copier
я точно не знаю как там с настройками, но точно думаю можно без картинок парсить. А теги убрать каким ни будь текстовым редактором.
|
Тут трабл отделить например статью от всякого хлама типа копирайтов в низу, сылок меню, всяких прочих нечистей))
|
|
|
11.11.2010, 04:15
|
#10
|
Ебланнед
Регистрация: 13.05.2010
Сообщений: 423
Бабло: $52745
|
Не так написал, если как пишет Сварщик, просто убрать все тэги, то "мусор" можно почистить этим скриптом — textcleaner.
Последний раз редактировалось converse; 11.11.2010 в 04:28.
|
|
|
|