|
| Дата |
|
USD/RUB | 93.4409 | BTC/USD | 63499.9477 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
10.04.2014, 14:08
|
#1
|
Fuck Yeah
Регистрация: 08.10.2009
Адрес: Ghetto
Сообщений: 2,689
Бабло: $1436314
|
Распределить равномерно базу
Есть база для хрумера в ней ~500к ссылок. Из них 50к в строке есть слово ReCaptcha.
Нужно распределить равномерно эти строки что бы каждая 10ая строка содержала слово ReCaptcha, соотевтственно если ссылок будет 500к, а со словом ReCaptcha 100к, то каждая 5ая строка.
|
|
|
10.04.2014, 14:49
|
#2
|
Ебланнед
Регистрация: 19.12.2013
Сообщений: 293
Бабло: $43415
|
делаешь выборку в экселе с рекапчей и без, сохраняешь в 2 разных файла
софтина Raptor, сплитишь файл с рекапчей на кол-во файлов, соответствующее кол-ву строк, пропорционально и файл без рекапчи
получилось в папке с рекапчей файлы
000001.txt
000002.txt и т.д
тотал коммандером групповое переименование, добавляешь нолик в конце имени каждого файла
а в папке без рекапчи добавляешь например единицу
кидаешь все в одну папку и собираешь тотал коммандером в один файл
должно получиться
|
|
|
10.04.2014, 15:25
|
#3
|
Fuck Yeah
Регистрация: 08.10.2009
Адрес: Ghetto
Сообщений: 2,689
Бабло: $1436314
ТС -->
|
ТС
А попроще нету?)))
|
|
|
10.04.2014, 16:51
|
#4
|
Member
Регистрация: 14.07.2013
Сообщений: 62
Бабло: $31915
|
Попроще - если тебе не прямо точно каждое десятое место нужно, а более менее равномерное распределение, то закидываешь в ексель все урлы, справа в колонке пишешь =СЛЧИС(), т.е. вставляешь рендомное число, сортируешь по этой колонке и готов твой список.
|
|
|
10.04.2014, 20:26
|
#5
|
Senior Member
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
|
Щас сбацаю скрипт на питоне
PHP код:
import re
ALL_LINKS_FILE = '/tmp/links.txt' MIXED_LINKS_FILE = '/tmp/result.txt' RE_SPECIAL_LINK = re.compile(r'recaptcha', re.I)
def main(): print 'Search for all special links' special_links = [] total_count = 0 for line in open(ALL_LINKS_FILE): total_count += 1 if RE_SPECIAL_LINK.search(line): special_links.append(line) special_count = len(special_links)
print 'Total links: %d, special links: %d' % (total_count, special_count) ratio = round(total_count / special_count)
count = 0 with open(MIXED_LINKS_FILE, 'w') as out: for line in open(ALL_LINKS_FILE): if RE_SPECIAL_LINK.search(line): pass else: count += 1 if count and count % ratio == 0: if special_links: out.write(special_links.pop())
count += 1 out.write(line) else: out.write(line)
if special_links: out.write(''.join(special_links))
if __name__ == '__main__': main()
__________________
TgScan - узнай Telegram группы, в которых состоит человек
Последний раз редактировалось lorien; 10.04.2014 в 20:37.
|
|
|
10.04.2014, 20:55
|
#6
|
Шучу на половину
Регистрация: 23.01.2011
Сообщений: 5,790
Бабло: $1159000
|
а смысл в этом какой?
|
|
|
10.04.2014, 21:24
|
#7
|
Ебланнед
Регистрация: 31.12.2009
Сообщений: 994
Бабло: $218740
|
наверно распределить нагрузку хрума с решением рекаптчи, ту что с числами он бьет неплохо а с буквами спотыкается, особенно если в настройках написать бить до победы
конечно хз что у тебя за база, но если скажем на части форумов хрум проводит больше времени разгадывания на части меньше просто рандомно перемешать строки. и так в много потоков шпаришь, в среднем каждая 5-я и будет рекаптча
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит!
|
|
|
10.04.2014, 21:35
|
#8
|
Шучу на половину
Регистрация: 23.01.2011
Сообщений: 5,790
Бабло: $1159000
|
ну весьма сомнительно, сам такую цель тоже предположил. просто пока он на рекапче будет висеть те что без проскочат со свистом и рекапчи в итоге пересикутся
как вариант прогнать рекапчи отдельно с меньшим количеством потоков
Последний раз редактировалось Sultan; 10.04.2014 в 21:45.
|
|
|
10.04.2014, 22:29
|
#9
|
Senior Member
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
|
Если пофантазировать, то чтобы распределить кол-во обращений с IP прокси-сети, которую он юзает для серверов-рекапчи. Я точно не знаю т.к спамом не занимаюсь.
__________________
TgScan - узнай Telegram группы, в которых состоит человек
|
|
|
11.04.2014, 12:27
|
#10
|
Fuck Yeah
Регистрация: 08.10.2009
Адрес: Ghetto
Сообщений: 2,689
Бабло: $1436314
ТС -->
|
ТС
lorien, Спасибо, дружище, выручил
Смысл, как заметили выше, что бы распределить нагрузку, т.к. если часто неправильно разгадываешь с одного ip, то она банит и вообще не показывает капчу.
|
|
|
|