как распарсить блог на site.wordpress.com? - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Треп | Флейм
Дата
USD/RUB93.7196
BTC/USD64116.2849
Треп | Флейм Обсуждение самых разных тем вне онлайн бизнеса.

Закрытая тема
Опции темы Опции просмотра
Старый 20.09.2009, 22:02   #1
prus_da
Юниор
 
Регистрация: 05.04.2007
Сообщений: 8
Бабло: $1735
По умолчанию как распарсить блог на site.wordpress.com?

как распарсить блог типа site.wordpress.com , на site.wordpress.com/post1 ... site.wordpress.com/postN ? подставляю /sitemap.xml урлы есть, но не знаю как мусор убрать. может есть еще какой способ. спасибо.
prus_da вне форума  
Старый 20.09.2009, 23:16   #2
Drunk Monk
Je suis moine ivre
 
Аватар для Drunk Monk
 
Регистрация: 03.03.2009
Сообщений: 15,268
Бабло: $797172957
По умолчанию

Если надо контент rss тяни, хули тут думать.
Drunk Monk вне форума  
Старый 20.09.2009, 23:45   #3
JMen
учу php
 
Регистрация: 04.04.2008
Сообщений: 1,162
Бабло: $68290
По умолчанию

Напиши по человечески - скажу как сделать.
__________________
Подпись??? Не продам!
JMen вне форума  
Старый 21.09.2009, 00:10   #4
prus_da
Юниор
 
Регистрация: 05.04.2007
Сообщений: 8
Бабло: $1735
ТС -->
автор темы ТС По умолчанию

например есть блог чttp://vervephoto.wordpress.com , мне нужно получить все его посты
чttp://vervephoto.wordpress.com/2009/09/18/mariella-furrer/
чttp://vervephoto.wordpress.com/2009/09/16/peter-mccollough/
.........
и т.д.
prus_da вне форума  
Старый 21.09.2009, 00:15   #5
Drunk Monk
Je suis moine ivre
 
Аватар для Drunk Monk
 
Регистрация: 03.03.2009
Сообщений: 15,268
Бабло: $797172957
По умолчанию

http://vervephoto.wordpress.com/feed/
Drunk Monk вне форума  
Старый 21.09.2009, 01:09   #6
JMen
учу php
 
Регистрация: 04.04.2008
Сообщений: 1,162
Бабло: $68290
По умолчанию

Так вы получите только последних N (10). Чтобы получить все - нужно ходить парсером по блогу и собирать урлы типа "http://lastrow.wordpress.com/2009/09/14/deuce/".

Если брать из фида - бери guid, это наиболее общий подход, например из того блога (фида) -
<guid isPermaLink="false">http://lastrow.wordpress.com/?p=2525</guid>
и т.д.
__________________
Подпись??? Не продам!
JMen вне форума  
Старый 21.09.2009, 01:19   #7
pina
хде мой компот?!
 
Регистрация: 07.01.2008
Сообщений: 327
Бабло: $31276
Отправить сообщение для pina с помощью ICQ
По умолчанию

ему ведь сайтмап надо очистить от мусора
PHP код:
$data file_get_contents("http://vervephoto.wordpress.com/sitemap.xml");
preg_match_all("|<loc>(.*)</loc>|isU"$data$array);
print 
'<pre>';
print_r($array[1]); 
pina вне форума  
Старый 21.09.2009, 01:44   #8
JMen
учу php
 
Регистрация: 04.04.2008
Сообщений: 1,162
Бабло: $68290
По умолчанию

угу Правильно всё, я как всегда читаю невнимательно
__________________
Подпись??? Не продам!
JMen вне форума