|
| Дата |
|
USD/RUB | 93.4409 | BTC/USD | 64559.4479 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
04.07.2009, 08:09
|
#1
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
Найти общие элементы.
Здарова брОтва! я снова в деле. вообщем встала задача такого плана, найти общие элементы у множества документов (в данном случае это страницы ХТМЛ). Ну как бы понятно примерно как это сделать, но как сделать получше, не изобретая велосипед, а главное быстро по скорости.
100% есть чОткие парни которым уже подобные штуки были нужны, я в этом не сомневаюсь. Интересует вообщем алгоритм или возможно какие-нибудь разработки по этой теме (в виде ссылок).
|
|
|
04.07.2009, 09:29
|
#2
|
Ебланнед
Регистрация: 22.11.2007
Сообщений: 2,984
Бабло: $48575
|
локально или краулер интересует?
|
|
|
04.07.2009, 10:58
|
#3
|
Senior Member
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
|
из сети: hrefer, не?
локально: есть такая программа textpipe. и там вроде как, есть такая функция extract - наверное, то - что нужно, как я понял
|
|
|
04.07.2009, 15:56
|
#4
|
учу php
Регистрация: 04.04.2008
Сообщений: 1,162
Бабло: $68290
|
1 - определиться что будешь искать, сходство в тексте или сходство во всём (тегах и т.д.)
2 - нужно составить словарь того в чём будешь искать сходство для каждого документа
3 - сравнивать словаря поэлементно, считая кол - во совпадений (тут можно заюзать готовые функции пшпшные для нечёткого сравнения строк)
Главная беда в том, что сложно определить что именно будет элементом словаря. Ответь на 1 вопрос - тогда дальше продолжу.
__________________
Подпись??? Не продам!
|
|
|
04.07.2009, 17:27
|
#5
|
Senior Member
Регистрация: 11.07.2007
Сообщений: 2,073
Бабло: $134959
|
Алгоритмы кластеризации тебе в помощь
|
|
|
05.07.2009, 01:51
|
#6
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
ТС -->
|
ТС
локально все, ща кормена листаю.
да, да, походу словарь поможет бля это будет пипец долго.
|
|
|
05.07.2009, 02:00
|
#7
|
учу php
Регистрация: 04.04.2008
Сообщений: 1,162
Бабло: $68290
|
Для большого кол - ва документов - да, долго... Софт придётся писать на си и компилить, так - же придётся разработать формат хранения для быстрой выборки.
Если будешь поиск по тексту организовывать (сходство текста) - попробуй делить на словоформы и использовать точное сравнение. Это ускорит операции намного.
Так - же поможет распаралеливание, благо компы счас дешёвые.
__________________
Подпись??? Не продам!
|
|
|
|