как распарсить блог типа site.wordpress.com , на site.wordpress.com/post1 ... site.wordpress.com/postN ? подставляю /sitemap.xml урлы есть, но не знаю как мусор убрать. может есть еще какой способ. спасибо.
например есть блог чttp://vervephoto.wordpress.com , мне нужно получить все его посты
чttp://vervephoto.wordpress.com/2009/09/18/mariella-furrer/
чttp://vervephoto.wordpress.com/2009/09/16/peter-mccollough/
.........
и т.д.
Так вы получите только последних N (10). Чтобы получить все - нужно ходить парсером по блогу и собирать урлы типа "http://lastrow.wordpress.com/2009/09/14/deuce/".
Если брать из фида - бери guid, это наиболее общий подход, например из того блога (фида) -
<guid isPermaLink="false">http://lastrow.wordpress.com/?p=2525</guid>
и т.д.