Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.8660
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 10.07.2016, 14:20   #1
John
Senior Member
 
Регистрация: 08.10.2011
Сообщений: 166
Бабло: $44385
Question Сортировка базы ссылок по языкам.

Как можно отсортировать базу ссылок по языкам сайтов.

Можно конечно по зонам доменов, но результат выходит не достаточно точный. Много рушный сайтов на комовских доменах и тд. Может есть точнее метод?
John вне форума  
Старый 10.07.2016, 14:27   #2
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 879
Бабло: $177835
Отправить сообщение для lorien с помощью Skype™
По умолчанию

Скачивать документ по каждой ссылке и анализировать текстовое содержимое
lorien вне форума  
Старый 10.07.2016, 15:18   #3
alter13
В дурке выходные
 
Аватар для alter13
 
Регистрация: 09.09.2014
Сообщений: 1,354
Бабло: $183435
По умолчанию

Ну или в метатэгах обычно указывают язык, но не всегда...
alter13 вне форума  
Старый 10.07.2016, 16:10   #4
Dumpty
Senior Member
 
Аватар для Dumpty
 
Регистрация: 08.05.2008
Сообщений: 808
Бабло: $250950
Отправить сообщение для Dumpty с помощью ICQ
По умолчанию

как программно определить язык?
Dumpty вне форума  
Старый 10.07.2016, 18:01   #5
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 879
Бабло: $177835
Отправить сообщение для lorien с помощью Skype™
По умолчанию

Либы есть. Для каждого языка свои. Вот, например, для питона:

* https://github.com/saffsd/langid.py
* https://github.com/Mimino666/langdetect
lorien вне форума  
Старый 10.07.2016, 18:09   #6
Creolabs
Tomorrow
 
Аватар для Creolabs
 
Регистрация: 22.01.2013
Адрес: Баден-Баден
Сообщений: 1,172
Бабло: $197480
По умолчанию

Netpeak Checker
Creolabs на форуме  
Старый 10.07.2016, 18:31   #7
John
Senior Member
 
Регистрация: 08.10.2011
Сообщений: 166
Бабло: $44385
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Creolabs Посмотреть сообщение
Netpeak Checker
Он загибается от более-менее приличных баз, к сожалению.. Несколько миллионов им не прочекать.

У меня сейчас 170 000 урлов загружено. Сожрал на сервере 9 гигов оперативы и еле шевелиться с периодическими подвисаниями на несколько минут.

А вот сама технология интересна. Как он чекает язык технически?
John вне форума  
Старый 10.07.2016, 20:47   #8
Creolabs
Tomorrow
 
Аватар для Creolabs
 
Регистрация: 22.01.2013
Адрес: Баден-Баден
Сообщений: 1,172
Бабло: $197480
По умолчанию

Цитата:
Сообщение от John Посмотреть сообщение
Он загибается от более-менее приличных баз, к сожалению.. Несколько миллионов им не прочекать.

У меня сейчас 170 000 урлов загружено. Сожрал на сервере 9 гигов оперативы и еле шевелиться с периодическими подвисаниями на несколько минут.

А вот сама технология интересна. Как он чекает язык технически?
эт спрашивать надо у овнеров, я хз как))
А какие галочки ты ставишь при чеке? Если оставить, то что нужно и запихать прокси - то он быстрее работает.
Creolabs на форуме  
Старый 10.07.2016, 20:51   #9
capturis
Senior Member
 
Аватар для capturis
 
Регистрация: 25.11.2013
Сообщений: 219
Бабло: $36445
Отправить сообщение для capturis с помощью ICQ Отправить сообщение для capturis с помощью Yahoo
По умолчанию

апарсер же
170к для него это тьфу
capturis вне форума  
Старый 10.07.2016, 21:40   #10
John
Senior Member
 
Регистрация: 08.10.2011
Сообщений: 166
Бабло: $44385
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Creolabs Посмотреть сообщение
эт спрашивать надо у овнеров, я хз как))
А какие галочки ты ставишь при чеке? Если оставить, то что нужно и запихать прокси - то он быстрее работает.
moz pa в основном. Для него в проксях смысла нет, так как ограничения на аккаунт)
John вне форума  
Закрытая тема



Опции темы
Опции просмотра