Чем проверить на уникальность 20кк строк?
20кк кейвордов в одном файле, нужно проверить на уникальность.
Была идея порезать на мелкие файлы и в каждом сделать проверку, а потом объединить. но дубли все равно появятся после группировки.
Еще есть идея отсортировать по алфавиту , потом порезать на куски и так же почистить, но вопрос в том, что сортировка тоже трудоемкий процесс.
Может есть другие способы?
|