Чем проверить на уникальность 20кк строк? - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.4409
BTC/USD66676.3091
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 11.04.2013, 16:57   #1
Ower
ё
 
Аватар для Ower
 
Регистрация: 26.10.2011
Сообщений: 1,520
Бабло: $311895
По умолчанию Чем проверить на уникальность 20кк строк?

20кк кейвордов в одном файле, нужно проверить на уникальность.
Была идея порезать на мелкие файлы и в каждом сделать проверку, а потом объединить. но дубли все равно появятся после группировки.
Еще есть идея отсортировать по алфавиту , потом порезать на куски и так же почистить, но вопрос в том, что сортировка тоже трудоемкий процесс.
Может есть другие способы?
Ower вне форума  
Старый 11.04.2013, 17:00   #2
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

залить в базу вставляя с уникальным значением поля, индекс сделать по полю
в принципе думаю есть более норм решения но это пришло сразу в голову
Hector вне форума  
Старый 11.04.2013, 17:08   #3
Ower
ё
 
Аватар для Ower
 
Регистрация: 26.10.2011
Сообщений: 1,520
Бабло: $311895
ТС -->
автор темы ТС По умолчанию

это тоже кстати рассматривал как вариант, но я не соображаю в базах
Ower вне форума  
Старый 11.04.2013, 17:09   #4
inkubus
Senior Member
 
Аватар для inkubus
 
Регистрация: 11.02.2010
Сообщений: 928
Бабло: $176835
По умолчанию

http://www.mediafire.com/download.php?lncxk4ojm871e7u

полтора миллиарда как-то раз чекал

20кк чекнет на дубли и отсортирует минут за 20 думаю
inkubus вне форума  
Старый 11.04.2013, 17:17   #5
truecolor
Ебланнед
 
Регистрация: 12.02.2013
Сообщений: 80
Бабло: $40695
По умолчанию

если файл в никсах лежит, там скрипт в 1 строку чекнет быстро
truecolor вне форума  
Старый 11.04.2013, 17:18   #6
mrzaggi
Senior Member
 
Регистрация: 03.11.2010
Сообщений: 285
Бабло: $65960
По умолчанию

в линухе sort 20kkKeyvordov.txt | uniq -u > output.txt
сделает быстро

Последний раз редактировалось mrzaggi; 11.04.2013 в 17:24.
mrzaggi вне форума  
Старый 11.04.2013, 17:39   #7
spamless
Senior Member
 
Регистрация: 16.07.2009
Сообщений: 938
Бабло: $152632
По умолчанию

Цитата:
Сообщение от Ower Посмотреть сообщение
Была идея порезать на мелкие файлы и в каждом сделать проверку, а потом объединить. но дубли все равно появятся после группировки.
Мелкие файлы делать исходя из остатка деления хешкода строки на нужное тебе число мелких файлов. Решение лучше уже подсказали выше)
spamless вне форума  
Старый 11.04.2013, 19:19   #8
Painkiller
Senior Member
 
Регистрация: 09.01.2010
Адрес: ☭
Сообщений: 203
Бабло: $39450
По умолчанию

сколько файл весит? сортировать все равно придется. это самый быстрый алгоритм.
Painkiller вне форума  
Старый 11.04.2013, 19:25   #9
Maximus325
Технодаун
 
Регистрация: 11.05.2007
Сообщений: 10,384
Бабло: $1503235
По умолчанию

Самое простое башем заебашить
__________________
ноу криминалити ин раша
Maximus325 вне форума  
Старый 11.04.2013, 20:28   #10
truecolor
Ебланнед
 
Регистрация: 12.02.2013
Сообщений: 80
Бабло: $40695
По умолчанию

Цитата:
Сообщение от Painkiller Посмотреть сообщение
сколько файл весит? сортировать все равно придется. это самый быстрый алгоритм.
ни разу не придётся
и это ахуенно медленный алгоритм
truecolor вне форума