Регистрация
Правила
Поиск
Сообщения за день
Все разделы прочитаны
Пользователи
Реклама
Форум успешных вебмастеров - GoFuckBiz.com
>
Бизнес-решения
>
Скрипты, программы и технические решения
Чем удалить дубли в очень больших файлах?
Дата
USD/RUB
93.7196
BTC/USD
63381.6152
Имя
Запомнить?
Пароль
Скрипты, программы и технические решения
Обсуждаем скрипты, программы и новые технологии.
Страница 1 из 5
1
2
3
4
5
>
Опции темы
Опции просмотра
11.03.2015, 05:41
#
1
SEng
Senior Member
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло
: $27730
Чем удалить дубли в очень больших файлах?
Есть несколько текстовых файлов размером по 40-50 гб.
Чем их слить в один файл без дублей строк?
Желательно под виндой (хотя не принципиально).
SEng
Посмотреть профиль
Отправить личное сообщение для SEng
Найти ещё сообщения от SEng
11.03.2015, 07:35
#
2
capturis
Senior Member
Регистрация: 25.11.2013
Сообщений: 272
Бабло
: $47235
Цитата:
Сообщение от
SEng
Есть несколько текстовых файлов размером по 40-50 гб.
Чем их слить в один файл без дублей строк?
Желательно под виндой (хотя не принципиально).
если не принципиально, в консоль unix:
Код:
cat file1.txt file2.txt | sort -u > file3.txt
Likes: 3
capturis
Посмотреть профиль
Отправить личное сообщение для capturis
Найти ещё сообщения от capturis
11.03.2015, 16:39
#
3
SEng
Senior Member
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло
: $27730
ТС
-->
ТС
Не очень шустрый способ, девятый час уже пошел.
SEng
Посмотреть профиль
Отправить личное сообщение для SEng
Найти ещё сообщения от SEng
11.03.2015, 16:44
#
4
Wonder
интересующийся
Регистрация: 16.06.2009
Сообщений: 784
Бабло
: $153066
Ну это нормально при таких объемах, скорость от проца зависит
__________________
🔥
TrueMed$
- Фарма партнерок много, но Тру только одна!
😉
Wonder
Посмотреть профиль
Отправить личное сообщение для Wonder
Найти ещё сообщения от Wonder
11.03.2015, 17:39
#
5
sellad
Senior Member
Регистрация: 20.02.2015
Сообщений: 296
Бабло
: $40755
kwk (не уверен, что осилит такие объемы) или textpipe
__________________
куплю ваш трафик - связь лс
sellad
Посмотреть профиль
Отправить личное сообщение для sellad
Найти ещё сообщения от sellad
11.03.2015, 17:39
#
6
proc3nt
el patron
Регистрация: 17.04.2007
Сообщений: 486
Бабло
: $2147483647
переделать как вставки в базу данных(например в монго), дублирующие ключи чтобы перезатирали друг друга, потом экспорт из бд в тхт
__________________
15+ лет на гофаке, хранитель традиций, летописец, легенда
Likes: 1
proc3nt
Посмотреть профиль
Отправить личное сообщение для proc3nt
Найти ещё сообщения от proc3nt
11.03.2015, 17:43
#
7
Hector
hustle
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло
: $1717315
Цитата:
Сообщение от
proc3nt
переделать как вставки в базу данных(например в монго), дублирующие ключи чтобы перезатирали друг друга, потом экспорт из бд в тхт
+1 вообще не понял зачем такие объемы хранить в текстовом файле
__________________
Reddit
- лайки, продвижение
в топ
Hector
Посмотреть профиль
Отправить личное сообщение для Hector
Найти ещё сообщения от Hector
11.03.2015, 19:17
#
8
SEng
Senior Member
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло
: $27730
ТС
-->
ТС
11 часов, конца не видно.
Прерывать или подождать?
SEng
Посмотреть профиль
Отправить личное сообщение для SEng
Найти ещё сообщения от SEng
11.03.2015, 19:21
#
9
proc3nt
el patron
Регистрация: 17.04.2007
Сообщений: 486
Бабло
: $2147483647
мне кажется что в базу ты бы намного быстрее все данные загнал, а потом там их обработать намного проще
__________________
15+ лет на гофаке, хранитель традиций, летописец, легенда
proc3nt
Посмотреть профиль
Отправить личное сообщение для proc3nt
Найти ещё сообщения от proc3nt
11.03.2015, 19:25
#
10
SEng
Senior Member
Регистрация: 28.07.2007
Адрес: Russia
Сообщений: 179
Бабло
: $27730
ТС
-->
ТС
еще часок и кильну
Цитата:
Сообщение от
Hector
+1 вообще не понял зачем такие объемы хранить в текстовом файле
Да, просто имеющийся софт работает только с текстовыми базами.
Likes: 1
SEng
Посмотреть профиль
Отправить личное сообщение для SEng
Найти ещё сообщения от SEng
Страница 1 из 5
1
2
3
4
5
>
Опции темы
Версия для печати
Отправить по электронной почте
Опции просмотра
Линейный вид
Комбинированный вид
Древовидный вид
Обратная связь
-
Архив
-
Вверх
-
RSS
-
Карта сайта
©
GoFuckBiz.com