Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.9160
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 10.05.2011, 22:02   #1
Nosfer
n/a
 
Аватар для Nosfer
 
Регистрация: 18.02.2009
Сообщений: 161
Бабло: $40295
По умолчанию сграбить текст со страницы

Кто-нибудь в курсе, есть ли готовые решения по парсингу текста, где на входе даем урлы и на выходе получаем чистый текст . Желательно кодом на php.


Писать фильтр самому долго, да и не упомнишь всего, а подгонять потом опытным путем приятного мало. Навскиду нужно парсить только в пределах <body>, убирать ссылки, картинки, флеш, скрипты, комменты и прочий мусор. Оставить только текст.
Nosfer вне форума  
Старый 10.05.2011, 22:04   #2
Drunk Monk
Je suis moine ivre
 
Аватар для Drunk Monk
 
Регистрация: 03.03.2009
Сообщений: 15,235
Бабло: $797160052
По умолчанию

PHP код:
<?
echo strip_tags(file_get_contents("http://ru.wikipedia.org/wiki/Сиськи"));
?>
__________________
EssayPartner.com. Партнерка по эссе трафу.
Drunk Monk вне форума  
Старый 10.05.2011, 22:06   #3
Zorge
Member
 
Аватар для Zorge
 
Регистрация: 15.02.2011
Сообщений: 81
Бабло: $25580
По умолчанию

есть такой скрипт - Newsgrabber
заточен под новостной портал, задачи все выполнит на 5. на php.
и есть человек, с сайтом grabilka (дальше сами найдете) - грабит сайты под заказ. причем делает это на отлично.
__________________
Zorge. The blog
Zorge вне форума  
Старый 10.05.2011, 22:15   #4
RedHead
Senior Member
 
Аватар для RedHead
 
Регистрация: 26.08.2008
Адрес: UA
Сообщений: 2,946
Бабло: $402755
По умолчанию

https://www.readability.com/

оно конечно не для парсинга, а для людей, но можно пошаманить )
RedHead вне форума  
Старый 10.05.2011, 22:17   #5
Nosfer
n/a
 
Аватар для Nosfer
 
Регистрация: 18.02.2009
Сообщений: 161
Бабло: $40295
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Drunk Monk Посмотреть сообщение
PHP код:
<?
echo strip_tags(file_get_contents("http://ru.wikipedia.org/wiki/Сиськи"));
?>
пробовал?
PHP код:
echo strip_tags(file_get_contents("http://google.com/")); 
он просто теги убирает, весь мусор остается.

Ок, может есть у кого полный список исключающих тегов?
Nosfer вне форума  
Старый 11.05.2011, 23:54   #6
sydoow
Senior Member
 
Аватар для sydoow
 
Регистрация: 26.09.2008
Сообщений: 3,918
Бабло: $488269
Отправить сообщение для sydoow с помощью ICQ Отправить сообщение для sydoow с помощью Skype™
По умолчанию

Попробуй глянь прогу TextPipe. Там вроде было удалить все тэги. Только перед этим нужно будет скачать все страницы.
Ещё сильно хвалили на форумах прогу Content Downloader, типо хороший парсер текста с сайтов и можно под любой сайт заточить.
sydoow вне форума  
Старый 12.05.2011, 09:28   #7
Nosfer
n/a
 
Аватар для Nosfer
 
Регистрация: 18.02.2009
Сообщений: 161
Бабло: $40295
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от sydoow Посмотреть сообщение
Попробуй глянь прогу TextPipe. Там вроде было удалить все тэги. Только перед этим нужно будет скачать все страницы.
Ещё сильно хвалили на форумах прогу Content Downloader, типо хороший парсер текста с сайтов и можно под любой сайт заточить.
потратил час времени и собрал все не нужные теги, затем написал функцию которая делает выборочную вырезку по ним. Решение нужно было именно на php. Всем спасибо за ответы.
Nosfer вне форума