Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB59.2760
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 04.07.2009, 08:09   #1
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,921
Бабло: $322214
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию Найти общие элементы.

Здарова брОтва! я снова в деле. вообщем встала задача такого плана, найти общие элементы у множества документов (в данном случае это страницы ХТМЛ). Ну как бы понятно примерно как это сделать, но как сделать получше, не изобретая велосипед, а главное быстро по скорости.

100% есть чОткие парни которым уже подобные штуки были нужны, я в этом не сомневаюсь. Интересует вообщем алгоритм или возможно какие-нибудь разработки по этой теме (в виде ссылок).
WebNinja вне форума  
Старый 04.07.2009, 09:29   #2
gcc
Ебланнед
 
Регистрация: 22.11.2007
Сообщений: 2,998
Бабло: $48575
По умолчанию

локально или краулер интересует?
__________________
Protecting the future
gcc вне форума  
Старый 04.07.2009, 10:58   #3
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,306
Бабло: $161695
По умолчанию

из сети: hrefer, не?

локально: есть такая программа textpipe. и там вроде как, есть такая функция extract - наверное, то - что нужно, как я понял
1een вне форума  
Старый 04.07.2009, 15:56   #4
JMen
учу php
 
Регистрация: 04.04.2008
Сообщений: 1,163
Бабло: $68290
По умолчанию

1 - определиться что будешь искать, сходство в тексте или сходство во всём (тегах и т.д.)
2 - нужно составить словарь того в чём будешь искать сходство для каждого документа
3 - сравнивать словаря поэлементно, считая кол - во совпадений (тут можно заюзать готовые функции пшпшные для нечёткого сравнения строк)

Главная беда в том, что сложно определить что именно будет элементом словаря. Ответь на 1 вопрос - тогда дальше продолжу.
__________________
Подпись??? Не продам!
JMen вне форума  
Старый 04.07.2009, 17:27   #5
Nou
Senior Member
 
Регистрация: 11.07.2007
Сообщений: 2,074
Бабло: $134959
По умолчанию

Алгоритмы кластеризации тебе в помощь
Nou вне форума  
Старый 05.07.2009, 01:51   #6
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,921
Бабло: $322214
ТС -->
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
автор темы ТС По умолчанию

локально все, ща кормена листаю.

да, да, походу словарь поможет бля это будет пипец долго.
WebNinja вне форума  
Старый 05.07.2009, 02:00   #7
JMen
учу php
 
Регистрация: 04.04.2008
Сообщений: 1,163
Бабло: $68290
По умолчанию

Для большого кол - ва документов - да, долго... Софт придётся писать на си и компилить, так - же придётся разработать формат хранения для быстрой выборки.

Если будешь поиск по тексту организовывать (сходство текста) - попробуй делить на словоформы и использовать точное сравнение. Это ускорит операции намного.

Так - же поможет распаралеливание, благо компы счас дешёвые.
__________________
Подпись??? Не продам!
JMen вне форума  
Старый 05.07.2009, 02:13   #8
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,921
Бабло: $322214
ТС -->
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
автор темы ТС По умолчанию

http://groups.google.com/group/comp....97eca489d796ec

все чОтко, бодрячком пацанчики, дежимся бодрячком )
питон клевый, мне нравится )
WebNinja вне форума