сграбить текст со страницы - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.7493
BTC/USD70815.7294
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 10.05.2011, 22:02   #1
Nosfer
n/a
 
Аватар для Nosfer
 
Регистрация: 18.02.2009
Сообщений: 162
Бабло: $46605
По умолчанию сграбить текст со страницы

Кто-нибудь в курсе, есть ли готовые решения по парсингу текста, где на входе даем урлы и на выходе получаем чистый текст . Желательно кодом на php.


Писать фильтр самому долго, да и не упомнишь всего, а подгонять потом опытным путем приятного мало. Навскиду нужно парсить только в пределах <body>, убирать ссылки, картинки, флеш, скрипты, комменты и прочий мусор. Оставить только текст.
Nosfer вне форума  
Старый 10.05.2011, 22:04   #2
Drunk Monk
Je suis moine ivre
 
Аватар для Drunk Monk
 
Регистрация: 03.03.2009
Сообщений: 15,268
Бабло: $797172957
По умолчанию

PHP код:
<?
echo strip_tags(file_get_contents("http://ru.wikipedia.org/wiki/Сиськи"));
?>
Drunk Monk вне форума  
Старый 10.05.2011, 22:06   #3
Zorge
Member
 
Аватар для Zorge
 
Регистрация: 15.02.2011
Сообщений: 81
Бабло: $25580
По умолчанию

есть такой скрипт - Newsgrabber
заточен под новостной портал, задачи все выполнит на 5. на php.
и есть человек, с сайтом grabilka (дальше сами найдете) - грабит сайты под заказ. причем делает это на отлично.
__________________
Zorge. The blog
Zorge вне форума  
Старый 10.05.2011, 22:15   #4
RedHead
Senior Member
 
Аватар для RedHead
 
Регистрация: 26.08.2008
Адрес: UA
Сообщений: 2,941
Бабло: $402835
По умолчанию

https://www.readability.com/

оно конечно не для парсинга, а для людей, но можно пошаманить )
RedHead вне форума  
Старый 10.05.2011, 22:17   #5
Nosfer
n/a
 
Аватар для Nosfer
 
Регистрация: 18.02.2009
Сообщений: 162
Бабло: $46605
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Drunk Monk Посмотреть сообщение
PHP код:
<?
echo strip_tags(file_get_contents("http://ru.wikipedia.org/wiki/Сиськи"));
?>
пробовал?
PHP код:
echo strip_tags(file_get_contents("http://google.com/")); 
он просто теги убирает, весь мусор остается.

Ок, может есть у кого полный список исключающих тегов?
Nosfer вне форума  
Старый 11.05.2011, 23:54   #6
sydoow
Senior Member
 
Аватар для sydoow
 
Регистрация: 26.09.2008
Сообщений: 3,967
Бабло: $504639
По умолчанию

Попробуй глянь прогу TextPipe. Там вроде было удалить все тэги. Только перед этим нужно будет скачать все страницы.
Ещё сильно хвалили на форумах прогу Content Downloader, типо хороший парсер текста с сайтов и можно под любой сайт заточить.
__________________
❗ ESSAY партнерка #1 - EduCashion.net - Топ конверт, высокие выплаты.
👉Мобильные и резидентские прокси $3 за 1Gb
sydoow вне форума  
Старый 12.05.2011, 09:28   #7
Nosfer
n/a
 
Аватар для Nosfer
 
Регистрация: 18.02.2009
Сообщений: 162
Бабло: $46605
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от sydoow Посмотреть сообщение
Попробуй глянь прогу TextPipe. Там вроде было удалить все тэги. Только перед этим нужно будет скачать все страницы.
Ещё сильно хвалили на форумах прогу Content Downloader, типо хороший парсер текста с сайтов и можно под любой сайт заточить.
потратил час времени и собрал все не нужные теги, затем написал функцию которая делает выборочную вырезку по ним. Решение нужно было именно на php. Всем спасибо за ответы.
Nosfer вне форума