Нужно напарсить много текста, парситься будет каждый день, на уникальность пофиг.
Думал качать много pdf книг и выдергивать от туда текст, но столкнулся с проблемой и откинул эту идею.
Вообщем хотелось бы услышать идеи откуда можно парсить много текста....
Вариант пасинга RSS лент не подходит, т.к. почти на всех лентах только анонсы, а искать ленты в которых полные статьи нет времени, т.к. текстов нужно много и 5-15 лент не хватит. Ну и писать парсеры под сотню сайтов тоже не вариант