Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB59.2470
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 11.04.2013, 16:57   #1
Ower
ё
 
Аватар для Ower
 
Регистрация: 26.10.2011
Сообщений: 1,490
Бабло: $300250
По умолчанию Чем проверить на уникальность 20кк строк?

20кк кейвордов в одном файле, нужно проверить на уникальность.
Была идея порезать на мелкие файлы и в каждом сделать проверку, а потом объединить. но дубли все равно появятся после группировки.
Еще есть идея отсортировать по алфавиту , потом порезать на куски и так же почистить, но вопрос в том, что сортировка тоже трудоемкий процесс.
Может есть другие способы?
Ower вне форума  
Старый 11.04.2013, 17:00   #2
Hector
Статус кво
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: California
Сообщений: 11,253
Бабло: $1447390
Отправить сообщение для Hector с помощью ICQ
По умолчанию

залить в базу вставляя с уникальным значением поля, индекс сделать по полю
в принципе думаю есть более норм решения но это пришло сразу в голову
Hector вне форума  
Старый 11.04.2013, 17:08   #3
Ower
ё
 
Аватар для Ower
 
Регистрация: 26.10.2011
Сообщений: 1,490
Бабло: $300250
ТС -->
автор темы ТС По умолчанию

это тоже кстати рассматривал как вариант, но я не соображаю в базах
Ower вне форума  
Старый 11.04.2013, 17:09   #4
inkubus
Senior Member
 
Аватар для inkubus
 
Регистрация: 11.02.2010
Сообщений: 935
Бабло: $176795
По умолчанию

http://www.mediafire.com/download.php?lncxk4ojm871e7u

полтора миллиарда как-то раз чекал

20кк чекнет на дубли и отсортирует минут за 20 думаю
inkubus вне форума  
Старый 11.04.2013, 17:17   #5
truecolor
Ебланнед
 
Регистрация: 12.02.2013
Сообщений: 80
Бабло: $40695
По умолчанию

если файл в никсах лежит, там скрипт в 1 строку чекнет быстро
truecolor вне форума  
Старый 11.04.2013, 17:18   #6
mrzaggi
Senior Member
 
Регистрация: 03.11.2010
Сообщений: 285
Бабло: $65950
По умолчанию

в линухе sort 20kkKeyvordov.txt | uniq -u > output.txt
сделает быстро

Последний раз редактировалось mrzaggi; 11.04.2013 в 17:24.
mrzaggi вне форума  
Старый 11.04.2013, 17:39   #7
spamless
Senior Member
 
Регистрация: 16.07.2009
Сообщений: 939
Бабло: $152432
По умолчанию

Цитата:
Сообщение от Ower Посмотреть сообщение
Была идея порезать на мелкие файлы и в каждом сделать проверку, а потом объединить. но дубли все равно появятся после группировки.
Мелкие файлы делать исходя из остатка деления хешкода строки на нужное тебе число мелких файлов. Решение лучше уже подсказали выше)
spamless вне форума  
Старый 11.04.2013, 19:19   #8
Painkiller
Senior Member
 
Регистрация: 09.01.2010
Адрес: ☭
Сообщений: 201
Бабло: $38120
По умолчанию

сколько файл весит? сортировать все равно придется. это самый быстрый алгоритм.
Painkiller вне форума  
Старый 11.04.2013, 19:25   #9
Maximus325
Технодаун
 
Аватар для Maximus325
 
Регистрация: 11.05.2007
Сообщений: 10,036
Бабло: $1443220
По умолчанию

Самое простое башем заебашить
__________________
ноу криминалити ин раша
Maximus325 на форуме  
Старый 11.04.2013, 20:28   #10
truecolor
Ебланнед
 
Регистрация: 12.02.2013
Сообщений: 80
Бабло: $40695
По умолчанию

Цитата:
Сообщение от Painkiller Посмотреть сообщение
сколько файл весит? сортировать все равно придется. это самый быстрый алгоритм.
ни разу не придётся
и это ахуенно медленный алгоритм
truecolor вне форума  
Закрытая тема



Опции темы
Опции просмотра