Чем удалить дубли в очень больших файлах? - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.4409
BTC/USD66838.9066
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 11.03.2015, 05:41   #1
SEng
Senior Member
 
Аватар для SEng
 
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло: $27730
Отправить сообщение для SEng с помощью ICQ
Question Чем удалить дубли в очень больших файлах?

Есть несколько текстовых файлов размером по 40-50 гб.
Чем их слить в один файл без дублей строк?
Желательно под виндой (хотя не принципиально).
SEng вне форума  
Старый 11.03.2015, 07:35   #2
capturis
Senior Member
 
Аватар для capturis
 
Регистрация: 25.11.2013
Сообщений: 272
Бабло: $47235
Отправить сообщение для capturis с помощью Telegram Отправить сообщение для capturis с помощью Jabber
По умолчанию

Цитата:
Сообщение от SEng Посмотреть сообщение
Есть несколько текстовых файлов размером по 40-50 гб.
Чем их слить в один файл без дублей строк?
Желательно под виндой (хотя не принципиально).
если не принципиально, в консоль unix:
Код:
cat file1.txt file2.txt | sort -u > file3.txt
capturis вне форума  
Старый 11.03.2015, 16:39   #3
SEng
Senior Member
 
Аватар для SEng
 
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло: $27730
ТС -->
Отправить сообщение для SEng с помощью ICQ
автор темы ТС По умолчанию

Не очень шустрый способ, девятый час уже пошел.
SEng вне форума  
Старый 11.03.2015, 16:44   #4
Wonder
интересующийся
 
Аватар для Wonder
 
Регистрация: 16.06.2009
Сообщений: 784
Бабло: $153106
По умолчанию

Ну это нормально при таких объемах, скорость от проца зависит
Wonder вне форума  
Старый 11.03.2015, 17:39   #5
sellad
Senior Member
 
Регистрация: 20.02.2015
Сообщений: 296
Бабло: $40755
По умолчанию

kwk (не уверен, что осилит такие объемы) или textpipe
__________________
куплю ваш трафик - связь лс
sellad вне форума  
Старый 11.03.2015, 17:39   #6
proc3nt
el patron
 
Аватар для proc3nt
 
Регистрация: 17.04.2007
Сообщений: 486
Бабло: $2147483647
Отправить сообщение для proc3nt с помощью ICQ
По умолчанию

переделать как вставки в базу данных(например в монго), дублирующие ключи чтобы перезатирали друг друга, потом экспорт из бд в тхт
__________________
15+ лет на гофаке, хранитель традиций, летописец, легенда
proc3nt вне форума  
Старый 11.03.2015, 17:43   #7
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

Цитата:
Сообщение от proc3nt Посмотреть сообщение
переделать как вставки в базу данных(например в монго), дублирующие ключи чтобы перезатирали друг друга, потом экспорт из бд в тхт
+1 вообще не понял зачем такие объемы хранить в текстовом файле
Hector вне форума  
Старый 11.03.2015, 19:17   #8
SEng
Senior Member
 
Аватар для SEng
 
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло: $27730
ТС -->
Отправить сообщение для SEng с помощью ICQ
автор темы ТС По умолчанию

11 часов, конца не видно.
Прерывать или подождать?
SEng вне форума  
Старый 11.03.2015, 19:21   #9
proc3nt
el patron
 
Аватар для proc3nt
 
Регистрация: 17.04.2007
Сообщений: 486
Бабло: $2147483647
Отправить сообщение для proc3nt с помощью ICQ
По умолчанию

мне кажется что в базу ты бы намного быстрее все данные загнал, а потом там их обработать намного проще
__________________
15+ лет на гофаке, хранитель традиций, летописец, легенда
proc3nt вне форума  
Старый 11.03.2015, 19:25   #10
SEng
Senior Member
 
Аватар для SEng
 
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло: $27730
ТС -->
Отправить сообщение для SEng с помощью ICQ
автор темы ТС По умолчанию

еще часок и кильну

Цитата:
Сообщение от Hector Посмотреть сообщение
+1 вообще не понял зачем такие объемы хранить в текстовом файле
Да, просто имеющийся софт работает только с текстовыми базами.
SEng вне форума