Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.6690
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 25.07.2012, 17:09   #1
Black West
Go Fuck West
 
Аватар для Black West
 
Регистрация: 07.05.2011
Адрес: .Net
Сообщений: 1,210
Бабло: $245600
По умолчанию Нид хелп по MongoDB

Собсна, есть довольно большая база (15КК документов и растет), по которой нужно организовать быстрый поиск с помощью регуляных выражений (regex), ну, или вменяемая альтернатив.
Поиск производится по полю key (строковое), на котором стоит индекс.

Посоветуйте мб какие гайды по этому делу или из личного опыта.
Black West вне форума  
Старый 25.07.2012, 17:36   #2
sergeospb
коплю на феррари
 
Регистрация: 03.07.2008
Сообщений: 1,262
Бабло: $148195
По умолчанию

Цитата:
Сообщение от Black West Посмотреть сообщение
Собсна, есть довольно большая база (15КК документов и растет), по которой нужно организовать быстрый поиск с помощью регуляных выражений (regex), ну, или вменяемая альтернатив.
Поиск производится по полю key (строковое), на котором стоит индекс.

Посоветуйте мб какие гайды по этому делу или из личного опыта.
Из опыта могу сказать - что RAM решает. Как только бд перестает влезать в оперативку - вот тут то траблы и начинаются.
sergeospb вне форума  
Старый 25.07.2012, 18:27   #3
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,300
Бабло: $878663
По умолчанию

Цитата:
Сообщение от sergeospb Посмотреть сообщение
Из опыта могу сказать - что RAM решает. Как только бд перестает влезать в оперативку - вот тут то траблы и начинаются.
вроде как у монгодб с этим всё четко, оперативы 256 мб, по базе в 1 гб и 5 млн строк летает. сам недавно начал изучать. по скорости инсертов рвет любые другие решения. единственный минус её базы занимают в 2.5 раза больше места на диске
sspy вне форума  
Старый 25.07.2012, 18:56   #4
beabetters
Virgillio
 
Аватар для beabetters
 
Регистрация: 27.04.2009
Сообщений: 239
Бабло: $56910
По умолчанию

а зачем вы такие базы собираете если не секрет?
beabetters вне форума  
Старый 25.07.2012, 19:58   #5
Black West
Go Fuck West
 
Аватар для Black West
 
Регистрация: 07.05.2011
Адрес: .Net
Сообщений: 1,210
Бабло: $245600
ТС -->
автор темы ТС По умолчанию

beabetters, у меня поисковые запросы там, заебал безбожно пиздящий вордстат, вот свою собираю.

sspy, летать то оно летает, а вот когда по такой базе надо прогнать 20 регулярок к каждому документу, появляются трудности, попробую оперативой вопрос решить, 4 гига монге мало для таких объемов данных.

Последний раз редактировалось Moderator; 25.07.2012 в 21:09.
Black West вне форума  
Старый 25.07.2012, 20:48   #6
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,921
Бабло: $322214
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

Я слышал что там сверху можно присобачить такие решения как Lucene/Solr или даже Hadoop.

Можно еще взять профайлер и посмотреть на каком этапе теряется время. MapReduce используешь? http://www.mongodb.org/display/DOCS/MapReduce
WebNinja вне форума  
Старый 26.07.2012, 06:39   #7
Venya Tolinov
Senior Member
 
Аватар для Venya Tolinov
 
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52840
Отправить сообщение для Venya Tolinov с помощью Skype™
По умолчанию

Ладно всё равно напишу)

Попробуй разгруппировать базу, по принципу: в "-а" нет букв "а", в "-б" нет букв "б"... а для особо популярных букв: "-ае" нет букв "а" или "е". Работать с ней так: не ждём букв "а" спрашиваем базу "-а", не ждём одновременно "а" и "е" спрашиваем "-ае"... Как то так.
__________________
Amazon Graffiti - монетизация страниц в Facebook
Venya Tolinov вне форума  
Старый 28.07.2012, 16:22   #8
Black West
Go Fuck West
 
Аватар для Black West
 
Регистрация: 07.05.2011
Адрес: .Net
Сообщений: 1,210
Бабло: $245600
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Venya Tolinov
Попробуй разгруппировать базу, по принципу: в "-а" нет букв "а", в "-б" нет букв "б"... а для особо популярных букв: "-ае" нет букв "а" или "е". Работать с ней так: не ждём букв "а" спрашиваем базу "-а", не ждём одновременно "а" и "е" спрашиваем "-ае"... Как то так.
Имхо, бред.

Проблему решили с помощью sphinxa.
Щас все ахуеть как залетало, несмотря на размеры базы.
Black West вне форума