Чем удалить дубли в очень больших файлах? - Форум успешных вебмастеров - GoFuckBiz.com - Страница 3
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.4082
BTC/USD69423.7343
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 11.03.2015, 05:41
Start Post: Чем удалить дубли в очень больших файлах? 
  #21
SEng
Senior Member
 
Аватар для SEng
 
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло: $27730
Отправить сообщение для SEng с помощью ICQ
Question

Есть несколько текстовых файлов размером по 40-50 гб.
Чем их слить в один файл без дублей строк?
Желательно под виндой (хотя не принципиально).
SEng вне форума  
Старый 20.03.2015, 13:57   #22
x999xx
xx999x
 
Аватар для x999xx
 
Регистрация: 20.12.2010
Сообщений: 2,215
Бабло: $473391
По умолчанию

если мыла - могу софтинку подсказать

70гб на уники за час
__________________
я знаю стабильный курс на будущее eur/(usd+0.001) + usd/(eur+0.00101) = 0 ( )
x999xx вне форума  
Старый 20.03.2015, 16:15   #23
SEng
Senior Member
 
Аватар для SEng
 
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло: $27730
ТС -->
Отправить сообщение для SEng с помощью ICQ
автор темы ТС По умолчанию

Цитата:
Сообщение от relonger Посмотреть сообщение
Ну что, еще актуально, помочь?
актуально. цена вопроса?

Цитата:
Сообщение от x999xx Посмотреть сообщение
если мыла - могу софтинку подсказать

70гб на уники за час
не мыла, ключевики
SEng вне форума  
Старый 20.03.2015, 16:35   #24
SEng
Senior Member
 
Аватар для SEng
 
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло: $27730
ТС -->
Отправить сообщение для SEng с помощью ICQ
автор темы ТС По умолчанию

Цитата:
Сообщение от SEng Посмотреть сообщение
актуально. цена вопроса?
Хотя нет, лучше я в формат бд переведу.
SEng вне форума  
Старый 20.03.2015, 19:16   #25
alkoustas
Senior Member
 
Аватар для alkoustas
 
Регистрация: 08.04.2011
Сообщений: 645
Бабло: $147264
По умолчанию

Чтобы не плодить новой темы.
Нужно рандомизировать строки файл 2 гига ~150кк строк
sort -R что-то долго думает
__________________
здесь могла быть ваша реклама
alkoustas вне форума  
Старый 23.03.2015, 16:34   #26
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

Цитата:
Сообщение от alkoustas
Нужно рандомизировать строки файл 2 гига ~150кк строк
sort -R что-то долго думает
если перефразировать, то ты в один заход пытаешься отсортировать все большое количество строк согласно последовательности случайных чисел, близкой к идеальной. Сложность сортировки в данном случае O(X*X), т.е. квадратично зависит от количества строк X.

если идеальность не так важна, то разбей файл на N-частей отсортируй той же командой и потом склей. Таким образом сложность будет N*O((X/N)*(X/N)), хотя на самом деле это также равно O(X*X), но при равных условиях эксплуатации (память, процессор), второй вариант отработает быстрее, т.к. X будет меньше в N раз, значит "абсолютная сложность" сортировки уменьшится в N*N раз, а процесс сортировки всего файла в N раз. Похожая ситуация с расходом памяти, а это актуально, если вдруг используется виртуальная.
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 23.03.2015, 16:41   #27
alkoustas
Senior Member
 
Аватар для alkoustas
 
Регистрация: 08.04.2011
Сообщений: 645
Бабло: $147264
По умолчанию

А вот та же утилита kwk
там она довольно быстро шурстит относительно большие файлы
тоесть там какая-то псевдорандомизация
вот чего-то такого хотелось бы.
хотя уже впринципе не актуально. но мб кому еще пригодится
__________________
здесь могла быть ваша реклама
alkoustas вне форума  
Старый 23.03.2015, 17:23   #28
ssoleg
Senior Member
 
Аватар для ssoleg
 
Регистрация: 26.01.2009
Адрес: Ленинград
Сообщений: 642
Бабло: $106689
По умолчанию

http://scrapeboxmarketplace.com/free...x-helper-tools
реально быстро делает, я чистил файлы 15-20 гигов.
ssoleg вне форума  
Старый 24.03.2015, 02:15   #29
doroven
Senior Member
 
Регистрация: 05.11.2009
Сообщений: 105
Бабло: $27775
По умолчанию

Цитата:
Сообщение от alkoustas Посмотреть сообщение
А вот та же утилита kwk
там она довольно быстро шурстит относительно большие файлы
тоесть там какая-то псевдорандомизация
вот чего-то такого хотелось бы.
хотя уже впринципе не актуально. но мб кому еще пригодится
Эта программа молча обрезает исходный файл и говорит все сделано.
doroven вне форума  
Старый 24.03.2015, 15:43   #30
alkoustas
Senior Member
 
Аватар для alkoustas
 
Регистрация: 08.04.2011
Сообщений: 645
Бабло: $147264
По умолчанию

кто что отрезает у кого ?
__________________
здесь могла быть ваша реклама
alkoustas вне форума  
Старый 24.03.2015, 17:07   #31
Zork
Senior Member
 
Регистрация: 21.06.2013
Сообщений: 492
Бабло: $94793
По умолчанию

Цитата:
Сообщение от doroven Посмотреть сообщение
Эта программа молча обрезает исходный файл и говорит все сделано.
Лол. Она работает с файлами до определенного размера по строкам и всего то. БОльшие просто не жрет.

По теме - либо сорт как выше писали и на несколько суток забить, либо через БД. С винды только одно решение находил еще года три назад - Amazing Keywords, текстпайп вис. Перегоняет в свой формат БД, ооочень долго, но потом выборки моментальные, относительно конечно )
Zork вне форума