Распределить равномерно базу - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.4409
BTC/USD63499.9477
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 10.04.2014, 14:08   #1
I love this game
Fuck Yeah
 
Аватар для I love this game
 
Регистрация: 08.10.2009
Адрес: Ghetto
Сообщений: 2,689
Бабло: $1436314
По умолчанию Распределить равномерно базу

Есть база для хрумера в ней ~500к ссылок. Из них 50к в строке есть слово ReCaptcha.
Нужно распределить равномерно эти строки что бы каждая 10ая строка содержала слово ReCaptcha, соотевтственно если ссылок будет 500к, а со словом ReCaptcha 100к, то каждая 5ая строка.
I love this game вне форума  
Старый 10.04.2014, 14:49   #2
Падла
Ебланнед
 
Регистрация: 19.12.2013
Сообщений: 293
Бабло: $43415
По умолчанию

делаешь выборку в экселе с рекапчей и без, сохраняешь в 2 разных файла
софтина Raptor, сплитишь файл с рекапчей на кол-во файлов, соответствующее кол-ву строк, пропорционально и файл без рекапчи
получилось в папке с рекапчей файлы
000001.txt
000002.txt и т.д
тотал коммандером групповое переименование, добавляешь нолик в конце имени каждого файла
а в папке без рекапчи добавляешь например единицу
кидаешь все в одну папку и собираешь тотал коммандером в один файл

должно получиться
Падла вне форума  
Старый 10.04.2014, 15:25   #3
I love this game
Fuck Yeah
 
Аватар для I love this game
 
Регистрация: 08.10.2009
Адрес: Ghetto
Сообщений: 2,689
Бабло: $1436314
ТС -->
автор темы ТС По умолчанию

А попроще нету?)))
I love this game вне форума  
Старый 10.04.2014, 16:51   #4
tmamedov
Member
 
Аватар для tmamedov
 
Регистрация: 14.07.2013
Сообщений: 62
Бабло: $31915
По умолчанию

Попроще - если тебе не прямо точно каждое десятое место нужно, а более менее равномерное распределение, то закидываешь в ексель все урлы, справа в колонке пишешь =СЛЧИС(), т.е. вставляешь рендомное число, сортируешь по этой колонке и готов твой список.
tmamedov вне форума  
Старый 10.04.2014, 20:26   #5
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
По умолчанию

Щас сбацаю скрипт на питоне

PHP код:
import re

ALL_LINKS_FILE 
'/tmp/links.txt'
MIXED_LINKS_FILE '/tmp/result.txt'
RE_SPECIAL_LINK re.compile(r'recaptcha're.I

def main():
    print 
'Search for all special links'
    
special_links = []
    
total_count 0
    
for line in open(ALL_LINKS_FILE):
        
total_count += 1
        
if RE_SPECIAL_LINK.search(line):
            
special_links.append(line)
    
    
special_count len(special_links)

    print 
'Total links: %d, special links: %d' % (total_countspecial_count)
    
ratio round(total_count special_count)

    
count 0
    with open
(MIXED_LINKS_FILE'w') as out:
        for 
line in open(ALL_LINKS_FILE):
            if 
RE_SPECIAL_LINK.search(line):
                
pass
            
else:
                
count += 1
                
if count and count ratio == 0:
                    if 
special_links:
                        
out.write(special_links.pop())

                    
count += 1
                    out
.write(line)
                else:
                    
out.write(line)

        if 
special_links:
            
out.write(''.join(special_links))


if 
__name__ == '__main__':
    
main() 
__________________
TgScan - узнай Telegram группы, в которых состоит человек

Последний раз редактировалось lorien; 10.04.2014 в 20:37.
lorien вне форума  
Старый 10.04.2014, 21:24   #7
satih
Ебланнед
 
Регистрация: 31.12.2009
Сообщений: 994
Бабло: $218740
Отправить сообщение для satih с помощью ICQ
По умолчанию

наверно распределить нагрузку хрума с решением рекаптчи, ту что с числами он бьет неплохо а с буквами спотыкается, особенно если в настройках написать бить до победы

конечно хз что у тебя за база, но если скажем на части форумов хрум проводит больше времени разгадывания на части меньше просто рандомно перемешать строки. и так в много потоков шпаришь, в среднем каждая 5-я и будет рекаптча
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит!
satih вне форума  
Старый 10.04.2014, 21:35   #8
Sultan
Шучу на половину
 
Аватар для Sultan
 
Регистрация: 23.01.2011
Сообщений: 5,790
Бабло: $1159000
По умолчанию

ну весьма сомнительно, сам такую цель тоже предположил. просто пока он на рекапче будет висеть те что без проскочат со свистом и рекапчи в итоге пересикутся

как вариант прогнать рекапчи отдельно с меньшим количеством потоков

Последний раз редактировалось Sultan; 10.04.2014 в 21:45.
Sultan вне форума  
Старый 10.04.2014, 22:29   #9
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
По умолчанию

Если пофантазировать, то чтобы распределить кол-во обращений с IP прокси-сети, которую он юзает для серверов-рекапчи. Я точно не знаю т.к спамом не занимаюсь.
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 11.04.2014, 12:27   #10
I love this game
Fuck Yeah
 
Аватар для I love this game
 
Регистрация: 08.10.2009
Адрес: Ghetto
Сообщений: 2,689
Бабло: $1436314
ТС -->
автор темы ТС По умолчанию

lorien, Спасибо, дружище, выручил

Смысл, как заметили выше, что бы распределить нагрузку, т.к. если часто неправильно разгадываешь с одного ip, то она банит и вообще не показывает капчу.
I love this game вне форума