WP выдрать посты - Форум успешных вебмастеров

sspy · 17.11.2011, 04:05

Может кто писал аналогичную функцию. Как без лишнего мусора выдрать чисто текст последних 10 постов с главной страницы ? (учитывая, что фид отдаёт только обрезанный вариант)

chesser · 17.11.2011, 04:20

в теории и при худшем раскладе нужны:
1) сайт-кравлер с правилами сбора ссылок на посты
2) xpath-парсер

при лучшем:
1) for($pageid=1; $pageid<1000; $pageid++)
2) regexp-парсер

sspy · 17.11.2011, 04:24

где начало поста можно понять по куску текста из фида, а вот конец походу придется искать перебором списка тегов

chesser · 17.11.2011, 04:43

Цитата:

Сообщение от sspy

где начало поста можно понять по куску текста из фида, а вот конец походу придется искать перебором списка тегов

да нее, там один родительский тег будет, что-то типа: <div class="entry-content">
на xpath'е это будет примерно так:

Код:

/html/body/div/div/div/div/article/div

или даже так:

Код:

//div[@class="entry-content"]

только предварительно надо причесать html, например, с помощью tidy

ну кто-то регекспами мучается, но там тоже не особо сложно, если знаешь название класса дива и теги, рядом с которым он закрывается - там комменты, они тоже имею свои идентификаторы. Но если на сайте сильный анти-парс, то придется писать парсер по типу того, что в моем соседнем топике )

den2099 · 17.11.2011, 09:50

Цитата:

Сообщение от chesser

да нее, там один родительский тег будет, что-то типа: <div class="entry-content">
на xpath'е это будет примерно так:

Код:

/html/body/div/div/div/div/article/div

или даже так:

Код:

//div[@class="entry-content"]

не, там проблема в том, что в каждом шаблоне у WP свои теги, каждый лепит во что горазд, поэтому под каждый блог приходится парсер заново настраивать. он правильно сказал, что для начала поста лучше всего отталкиваться от первого предложение из RSS, только надо еще учитывать, что некоторые плагины формируют мета-теги (keywords и desc например) тоже исходя из первых нескольких слов поста.

business-net · 17.11.2011, 10:48

удали все теги которые для разметки текста . вырежи мусор .
собери содержимое оставшихся тегов в массив . выбери самый крупный кусок текста . % на 98 это и есть статья . название из тайтла или h1 возьми. остальное подпили в процессе использования.

1een · 17.11.2011, 11:15

chesser · 17.11.2011, 12:03

Цитата:

Сообщение от den2099

не, там проблема в том, что в каждом шаблоне у WP свои теги, каждый лепит во что горазд, поэтому под каждый блог приходится парсер заново настраивать. он правильно сказал, что для начала поста лучше всего отталкиваться от первого предложение из RSS, только надо еще учитывать, что некоторые плагины формируют мета-теги (keywords и desc например) тоже исходя из первых нескольких слов поста.

это решаемо, т.к. текстовый процессор вп все равно придерживается структуры и можно будет сделать по типу:

//div[*[contains(text(), 'текст из rss')]]
ну несколько шаблончиков забацать, пусть пусть перебирает.

den2099 · 17.11.2011, 12:07

Цитата:

Сообщение от chesser

это решаемо, т.к. текстовый процессор вп все равно придерживается структуры и можно будет сделать по типу:
//div[*[contains(text(), 'текст из rss')]]
ну несколько шаблончиков забацать, пусть пусть перебирает.

а если шаб не на дивах?

chesser · 17.11.2011, 12:43

Цитата:

Сообщение от den2099

а если шаб не на дивах?

их меньше, в основном все на дивах.
я не пытаюсь доказать, что можно и очень просто создать универсальный парсер, который будет парсить любой вордпресс, или по любому сайту определять, что это вордпресс и тд. Это уже задачи из разряда распознавания образов. но к примеру выдернуть нужный текст, которого сосредоточено много в одном месте - вполне решаемая задача даже на произвольном сайте