сграбить текст со страницы
Кто-нибудь в курсе, есть ли готовые решения по парсингу текста, где на входе даем урлы и на выходе получаем чистый текст . Желательно кодом на php.
Писать фильтр самому долго, да и не упомнишь всего, а подгонять потом опытным путем приятного мало. Навскиду нужно парсить только в пределах <body>, убирать ссылки, картинки, флеш, скрипты, комменты и прочий мусор. Оставить только текст.
|