Найти общие элементы. - Форум успешных вебмастеров

WebNinja · 04.07.2009, 08:09

Здарова брОтва! я снова в деле. вообщем встала задача такого плана, найти общие элементы у множества документов (в данном случае это страницы ХТМЛ). Ну как бы понятно примерно как это сделать, но как сделать получше, не изобретая велосипед, а главное быстро по скорости.

100% есть чОткие парни которым уже подобные штуки были нужны, я в этом не сомневаюсь. Интересует вообщем алгоритм или возможно какие-нибудь разработки по этой теме (в виде ссылок).

~~gcc~~ · 04.07.2009, 09:29

локально или краулер интересует?

1een · 04.07.2009, 10:58

из сети: hrefer, не?

локально: есть такая программа textpipe. и там вроде как, есть такая функция extract - наверное, то - что нужно, как я понял

JMen · 04.07.2009, 15:56

1 - определиться что будешь искать, сходство в тексте или сходство во всём (тегах и т.д.)
2 - нужно составить словарь того в чём будешь искать сходство для каждого документа
3 - сравнивать словаря поэлементно, считая кол - во совпадений (тут можно заюзать готовые функции пшпшные для нечёткого сравнения строк)

Главная беда в том, что сложно определить что именно будет элементом словаря. Ответь на 1 вопрос - тогда дальше продолжу.

Nou · 04.07.2009, 17:27

Алгоритмы кластеризации тебе в помощь

WebNinja · 05.07.2009, 01:51

локально все, ща кормена листаю.

да, да, походу словарь поможет бля это будет пипец долго.

JMen · 05.07.2009, 02:00

Для большого кол - ва документов - да, долго... Софт придётся писать на си и компилить, так - же придётся разработать формат хранения для быстрой выборки.

Если будешь поиск по тексту организовывать (сходство текста) - попробуй делить на словоформы и использовать точное сравнение. Это ускорит операции намного.

Так - же поможет распаралеливание, благо компы счас дешёвые.

WebNinja · 05.07.2009, 02:13

http://groups.google.com/group/comp....97eca489d796ec

все чОтко, бодрячком пацанчики, дежимся бодрячком )
питон клевый, мне нравится )