Парсить текст может двумя способами. 1. со снипетов англоязычных поисковиков.
2. С сайтов из выдачи Гугла под кейворд. В обоих случаях получается порядка 30-100 кб тематического текста под выбранный кейворд.
Текст хорошо отфильтрован, мусора в нем нет. Текст состоит из 100-200 предложений по теме. Марков и синонимайзер не применяются.
В дальнейшем текст используется в доргене
http://www.gofuckbiz.com/showthread.php?t=6793 , там уже все перемешивается с кейвордами.