Скрипт удаления неявных дублей - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Объявления о покупке/продаже товаров и услуг
Дата
USD/RUB93.4409
BTC/USD66860.4151
Объявления о покупке/продаже товаров и услуг Также в этом разделе следует размещать и предложения о сотрудничестве.

Закрытая тема
Опции темы Опции просмотра
Старый 06.04.2016, 03:11   #1
And1
Senior Member
 
Регистрация: 13.03.2016
Сообщений: 115
Бабло: $23170
По умолчанию Скрипт удаления неявных дублей

Скрипт на php для удаления дублей ключевиков, как полностью одинаковых, так и тех, у которых одни и те же слова в разном порядке.
Также удаляются и те, у которых все слова одинаковы, но окончание может быть разным (окончание оставил из одной буквы, двухбуквенные или 3ех не включал, а то еще удалится лишнего).
Плюс удаление дублей ключевиков отличающихся только буквой ё/е.

Пример:
Цитата:
в.в. путин биография скачать
в в путин биография скачать
в.в.путин биография скачать
агентства недвижимости в сочи аренда
агентство аренды недвижимости в сочи
привет как дела
my friends hello
аренда в сочи агентство недвижимости
недвижимость в сочи агентство аренда
как дела привет
отличница лёгкого поведения
hello my friends
отличница легкого поведения
интернет магазин продуктов питания
интернет-магазин продуктов питания
купить мультиварку redmond
мультиварка redmond купить
На выходе:
Цитата:
в.в. путин биография скачать
агентства недвижимости в сочи аренда
привет как дела
my friends hello
отличница лёгкого поведения
интернет магазин продуктов питания
купить мультиварку redmond
Остается тот ключевик, который встретился первым.

Время выполнения:
10к - 0.5 сек
100к - 3-5 сек
1млн - 30-50 сек

Больше миллиона не пробовал, скрипт для выборок, а не для баз.

Кладете в файл keys.txt ключевики (файл в кодировке ANSI).
Запускаете скрипт. Получаете новый файл new_keys.txt, очищенный от дублей и неявных дублей.
Скрипт подходит преимущественно для ру кеев. Eng ключи тоже можно, но в кодировке ANSI.
upd: (для eng ключей сейчас сделал отдельно в utf8).

Версия 2:
Мультикей из дублей, далее можно оперировать такими ключами в доргене (например первый в title второй в h1, третий в текст и т.п.).
2 файла на выходе, 1 с удаленными дублями, другой мультикей

Пример мультикей:

Цитата:
в.в. путин биография скачать;в в путин биография скачать;в.в.путин биография скачать
агентства недвижимости в сочи аренда;агентство аренды недвижимости в сочи;аренда в сочи агентство недвижимости;недвижимость в сочи агентство аренда
привет как дела;как дела привет
my friends hello;hello my friends
купить что-то
тест
отличница лёгкого поведения;отличница легкого поведения
интернет магазин продуктов питания;интернет-магазин продуктов питания
купить мультиварку redmond;мультиварка redmond купить

Стоимость: 200р.
Пишите в личку, кого заинтересовал скрипт.
для связи также аська: 9495079
почта: Frontican знаксобаки gmail.com
And1 вне форума  
Старый 06.04.2016, 14:22   #2
masolit
Senior Member
 
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
По умолчанию

PHP код:
#!/usr/bin/env python2
# coding: utf-8

import os

lol 
u"""
в.в. путин биография скачать
в в путин биография скачать
в.в.путин биография скачать
агентства недвижимости в сочи аренда
агентство аренды недвижимости в сочи
привет как дела
my friends hello
аренда в сочи агентство недвижимости
недвижимость в сочи агентство аренда
как дела привет
отличница лёгкого поведения
hello my friends
отличница легкого поведения
интернет магазин продуктов питания
интернет-магазин продуктов питания
купить мультиварку redmond
мультиварка redmond купить
"""

def make_format(some_string):
    
replaces = {'.'' ''-'' 'u'е'u'ё'}
    for 
old, new, in replaces.items(): some_string some_string.replace(old, new)
    return 
' '.join(sorted(set([x.strip()[:-1] for x in some_string.split() if x])))


tmp = []
for 
v in lol.strip().split(os.linesep):
    if 
make_format(vnot in map(make_formattmp):
        
tmp.append(v)

print 
os.linesep.join(tmp
быдлокод на питоне, без файлов, можно сделать на файлах

пс: как не стыдно за такое просить деньги
masolit вне форума  
Старый 06.04.2016, 14:38   #3
And1
Senior Member
 
Регистрация: 13.03.2016
Сообщений: 115
Бабло: $23170
ТС -->
автор темы ТС По умолчанию

masolit, Сколько просить денег за свой скрипт я решу сам
Адекватная стоимость небольшого скрипта.
про мультикей не забудь.
And1 вне форума  
Старый 06.04.2016, 14:42   #4
masolit
Senior Member
 
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
По умолчанию

Цитата:
Сообщение от And1 Посмотреть сообщение
masolit, Сколько просить денег за свой скрипт я решу сам
Адекватная стоимость небольшого скрипта.
про мультикей не забудь.
ты реально хочешь чтобы я дописал скрипт до функционала который будет не только как твой, а ещё и круче и выложил это не только на питоне и на пыхе ?
masolit вне форума  
Старый 06.04.2016, 14:48   #5
And1
Senior Member
 
Регистрация: 13.03.2016
Сообщений: 115
Бабло: $23170
ТС -->
автор темы ТС По умолчанию

Упражняться в программировании желательно на форумах программистов, а не в моей теме по продаже скрипта на gofuckbiz.
Но ничего тебе запретить не могу, ты волен делать, что захочешь.
Можешь зайти во все темы где продают скрипты или программы, написать каждую и выложить код бесплатно
Вон например на самом верху раздела тебя ждет A-Parser
And1 вне форума  
Старый 06.04.2016, 14:48   #6
imgreen
Senior Member
 
Аватар для imgreen
 
Регистрация: 15.11.2008
Сообщений: 13,230
Бабло: $247845871
По умолчанию

masolit, ты че злой такой? Кому не надо мимо пройдут)
imgreen на форуме  
Старый 06.04.2016, 15:00   #7
masolit
Senior Member
 
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
По умолчанию

Цитата:
Сообщение от imgreen Посмотреть сообщение
masolit, ты че злой такой? Кому не надо мимо пройдут)
да не злой я )) просто тут не форум по продаже скриптов, а если и продают то достаточно сложные штуки, а не трех строчные скрипты, бесит когда занимаются наебаловом, вообще тут многие бесплатно пишут и помогают другим, вон какой кландайт в топике Топик взаимопомощи по IT вопросам, а ТС из серии я вчера выучил три функции на пыхе, продаю мое творени
masolit вне форума  
Старый 06.04.2016, 15:17   #8
And1
Senior Member
 
Регистрация: 13.03.2016
Сообщений: 115
Бабло: $23170
ТС -->
автор темы ТС По умолчанию

Цитата:
просто тут не форум по продаже скриптов
название раздела посмотри внимательно:
Объявления о покупке/продаже товаров и услуг

Если тебя претит сама мысль о том, что люди могут продавать что-то - не заходи в этот раздел.

Цитата:
ТС из серии я вчера выучил три функции на пыхе, продаю мое творени
За плечами несколько полноценных доргенов и бессчетное количество скриптов.

Цитата:
бесит когда занимаются наебаловом
Здесь это вообще не к месту.

masolit, я считаю ты не прав.
And1 вне форума  
Старый 06.04.2016, 15:39   #9
masolit
Senior Member
 
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
По умолчанию

Цитата:
Сообщение от And1 Посмотреть сообщение

masolit, я считаю ты не прав.
возможно я не прав, сорри

PHP код:
#!/usr/bin/env python2
# coding: utf-8

import os

with open
('keys.txt') as keys_file:
    
keys keys_file.read().decode('utf-8')


def make_format(some_string):
    
replaces = {'.'' ''-'' 'u'е'u'ё'}
    for 
old, new, in replaces.items(): some_string some_string.replace(old, new)
    return 
' '.join(sorted(set([x.strip()[:-1] for x in some_string.split() if x])))


tmp1tmp2 = [], {}
for 
v in keys.strip().split(os.linesep):
    if 
make_format(vnot in map(make_formattmp1):
        
tmp1.append(v)
    
tmp2.setdefault(make_format(v), []).append(v)

with open('doubles.txt''w') as doubles_fileopen('multi.txt''w') as multi_file:
    
doubles_file.write(os.linesep.join(tmp1).encode('utf-8'))
    
multi_file.write(os.linesep.join(([';'.join(x) for x in tmp2.values()])).encode('utf-8')) 
тут все как ты просил с мультипульти
masolit вне форума  
Старый 06.04.2016, 15:51   #10
And1
Senior Member
 
Регистрация: 13.03.2016
Сообщений: 115
Бабло: $23170
ТС -->
автор темы ТС По умолчанию

Ок, молодец
Теперь твоя душа успокоилась?
Если нет, то можешь дальше по списку пройтись, поиск по слову скрипт в этом разделе
http://www.gofuckbiz.com/search.php?searchid=11566477
And1 вне форума