Цитата:
Сообщение от NTллигент
У меня похожая база есть около 2 гигов цепочек, на основе которой похожий бредотекст генерится. А какие у Вас алгоритмы очистки текста?
|
Ну да, это морковка - объемы исходных текстов были очень большие.
Чистилось по целой массе признаков, некро-зоо-дети-насилие. Были убраны опечатки, переносы (разрывы слов) и просто всякий мусор.
В итоге отсматривалось глазками.
Кстати цепей там, что-то около 70 000 000 Было геморойно построить структуру для быстрого склеивания и минимальной нагрузки.
Цитата:
Сообщение от stu
А где там генератор? вижу только окошечко для ввода
|
Наверное надо сменить браузер.

Или нажать ф5.
p.s.
Мы хронические параноики. Поэтому там защита от авто парсеров. Бывает глючит.
