Подсчет доменов в файле. - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.7196
BTC/USD63789.5561
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 29.02.2012, 14:36   #1
seroja
𝕾𝕰𝕽𝕺𝕵𝕬
 
Аватар для seroja
 
Регистрация: 23.11.2007
Сообщений: 2,005
Бабло: $294407
По умолчанию Подсчет доменов в файле.

Задача такая:
Есть у нас файл с таким содержанием

Код:
http://www.threechords.org/forum/index.php
http://musclezone.dk/forum/index.php
http://forum.guide-genealogie.com/recherche-lieu-dit-par-recherche-personnes-t16599.html
http://hdvideoclub.com/forum/index.php
http://www.trans7.co.id/forum/index.php
http://ec2.juantraverso.net/foro/index.php
http://blocsj.org/forum/index.php
http://www.iskald.net/forum/index.php
http://4gym.pl/topic216.html
http://chungweb.net23.net/index.php
http://forum.vologda18.ru/index.php
http://www.muskelfreaks.de/steroide-medikamente-f4/moderate-dose-short-cycle-die-andere-art-zu-kuren-t11362.html
http://forum.shabablibya.org/index.php
http://dipaola.org/forums445/index.php
http://www.mognet.net/forum/index.php
http://www.bestpricedietpills.com/generic-growth-pills/506870/MalcolmBanner9
http://skroids.com/index.php
http://w.sportbb.pl/index.php
http://forum.swiss-bb.ch/index.php
http://home.kku.ac.th/awilaw/webboard/view.php
http://mwdfmgijlihk.bloog.pl/id,5797472,title,Tuf-had-folded-his-hands-atop-his-paunch-patiently-as-various-computers-took-his-request-and-reviewed-it-relayed-it-checked-it-transferred-it-and-crossindexed-it,index.html
http://www.global-pills.com/generic-growth-pills/506868/viewtopic?p/81796
http://sportbb.pl/index.php
http://www.knrsys.com/eveboard/view.php?&bbs_id=test2&page=16&doc_num=8&PHPSESSID=7f19a93e736492b6ee8c58757e80cd86
http://vestal-2002.com/phpBB3/index.php
http://www.edebtsolutions.org/phpBB3/index.php
http://www.photographsofdreams.com/blog/2008/09/van-stone-from-guitar-hero-shoot-coming-soon/
http://www.mwrc.pl/News/News.php?d1=2005&d2=01&nr=11&kom=Dodaj
http://web302.login-1.loginserver.ch/forum/phpBB3/index.php
http://www.phpbb-se.com/forum/index.php
http://www.anddev.org/view-layout-resource-problems-f27/sell-isosorbide-mononitrate-20mg-buy-isosorbide-mononitrate-t330109.html
http://www.geo.gov.kg/forum/index.php
http://www.parapluesch.de/phpbb2/index.php
http://www.zelda.com.br/forum/index.php
http://www.msghelp.it/index.php
http://spam.altervista.org/index.php
http://personalitysucks.com/forum/index.php
http://cod.ae/index.php
http://www.westgatefitness.ca/forum/index.php
http://passionefinanza.ilbello.com/forum/index.php
http://www.dislessia.org/forum/index.php
http://empirea.com.ua/forum/index.php
http://www.i-doser.com/forum/index.php
http://www.blogs.123beginners.com/blogs/index.php
http://www.blendogames.com/forum/index.php
http://www.svcsaigon.com/forum/index.php
http://www.game-100.com/forum/index.php
http://bigbangtheoryforum.com/index.php
http://cct.cyclesvallieres.com/index.php
http://www.bullhorn-marketing.com/pe/index.php
http://gbooks1.melodysoft.com/app?ID=Beseit&DOC=2191
http://forum.horecaservice.rs/index.php
http://www.benzoexodus.com/forum/index.php
http://ns.1asig.ro/forum/index.php
http://www.zoubia.com/ForUM/nutrition/order-mycardis-online-no-script-biocotron-dextromethorphan-t494349.html
http://www.kohchangamazing.com/phpBB3/index.php
http://forum.studio-scrap.com/pas-confondre-kits-digital-crea-les-kits-studio-scr-t12448.html
http://forumtim08.jeanphilippelaroche.com/index.php
http://www.slackers.co.za/index.php
Выбираем этот файл, жмем Анализ на выходе в отдельный файл записывает
Домен1 - XXXX
Домен2 - XXX
Домен3 - XX
XXXX - число, сколько раз встретился этот домен в файле
Те скрипт/софт должен брать строку с линком, определить домен и проверить сколько раз он встретился в этом файле

*результаты упорядочить по убыванию
digg.com - 10 000
cnn.com - 9 000
foxnews.com - 8 999
....
На php наверное не пойдет, если в файле будет от 5 лямов строк? Если нет то что нибудь под винду.
В общем чтобы отрабатывало до конца и без косяков.
За денешку или может уже есть такое в природе?
seroja вне форума  
Старый 29.02.2012, 15:31   #2
huanpedro
Сеньер Член
 
Аватар для huanpedro
 
Регистрация: 03.04.2010
Сообщений: 1,738
Бабло: $280230
По умолчанию

можно сскриптом обработать файл и занести инфу в базу, а потом средствами базы например все подсчитать. Ну или вместо базы можно конечно использовать файлы, но...
как пример..
huanpedro вне форума  
Старый 29.02.2012, 15:32   #3
shoo
Member
 
Регистрация: 26.12.2011
Сообщений: 63
Бабло: $12170
По умолчанию

Питон. В links.txt твои ссылки, результат в stats.txt
PHP код:
#!/usr/bin/env python
import urlparsecollections

cnt 
collections.Counter()
open('links.txt','r')
for 
line in f:
    
domain urlparse.urlparse(line.strip()).netloc
    
if not domain: continue
    
cnt[domain] += 1

open
('stats.txt','w').write('\n'.join( ['%s - %s' % (d,s) for d,s in cnt.most_common()] )) 
__________________
Скрипты / #jabber [email protected] #icq 6ноль767два477
shoo вне форума  
Старый 29.02.2012, 16:03   #4
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

а вот более длинный вариант:

grep -o "://[A-Za-z0-9_.-]*" file.txt | sort | uniq -c
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 29.02.2012, 16:20   #5
huanpedro
Сеньер Член
 
Аватар для huanpedro
 
Регистрация: 03.04.2010
Сообщений: 1,738
Бабло: $280230
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
а вот более длинный вариант:

grep -o "://[A-Za-z0-9_.-]*" file.txt | sort | uniq -c
а он ведет подсчет совпадений?
huanpedro вне форума  
Старый 29.02.2012, 16:21   #6
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

Цитата:
Сообщение от huanpedro Посмотреть сообщение
а он ведет подсчет совпадений?
конечно, за это отвечает флаг -c
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 29.02.2012, 17:28   #7
masolit
Senior Member
 
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
По умолчанию

скрипт от shoo то что нужно ТС

Последний раз редактировалось admin; 29.02.2012 в 21:02.
masolit вне форума  
Старый 29.02.2012, 18:12   #8
seroja
𝕾𝕰𝕽𝕺𝕵𝕬
 
Аватар для seroja
 
Регистрация: 23.11.2007
Сообщений: 2,005
Бабло: $294407
ТС -->
автор темы ТС По умолчанию

Работает, спасибо shoo
закинь в лс кошель, скину на пиво
seroja вне форума  
Старый 29.02.2012, 20:31   #9
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
По умолчанию

Осмелюсь предложить свой вариант вышеприведённого кода. Код тот же, я просто оформил его более питонистично, на мой взгляд.

PHP код:
#!/usr/bin/env python 
import urlparsecollections 

cnt 
collections.Counter() 
for 
line in open('links.txt'): 
    
domain urlparse.urlparse(line.strip()).netloc 
    
if domain:
        
cnt[domain] += 

with open
('stats.txt','w') as out:
    for 
domaincount in cnt.most_common():
        
out.write('%s - %d\n' % (domaincount)) 
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 01.03.2012, 00:03   #10
mescalito
in.php
 
Аватар для mescalito
 
Регистрация: 16.04.2007
Адрес: СПб
Сообщений: 502
Бабло: $62500
По умолчанию

http://www.gofuckbiz.com/showthread....342#post256342
__________________
Money Making - earn up to 60% rev share or $50CPA
mescalito вне форума