Сортировка базы ссылок по языкам. - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB75.5535
BTC/USD56953.9500
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 10.07.2016, 14:20   #1
John
Senior Member
 
Регистрация: 08.10.2011
Сообщений: 167
Бабло: $45505
Question Сортировка базы ссылок по языкам.

Как можно отсортировать базу ссылок по языкам сайтов.

Можно конечно по зонам доменов, но результат выходит не достаточно точный. Много рушный сайтов на комовских доменах и тд. Может есть точнее метод?
John вне форума  
Старый 10.07.2016, 14:27   #2
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 899
Бабло: $188935
По умолчанию

Скачивать документ по каждой ссылке и анализировать текстовое содержимое
lorien вне форума  
Старый 10.07.2016, 15:18   #3
alter13
Senior Member
 
Аватар для alter13
 
Регистрация: 09.09.2014
Сообщений: 1,714
Бабло: $232865
По умолчанию

Ну или в метатэгах обычно указывают язык, но не всегда...
alter13 вне форума  
Старый 10.07.2016, 16:10   #4
Dumpty
Senior Member
 
Аватар для Dumpty
 
Регистрация: 08.05.2008
Сообщений: 834
Бабло: $258620
Отправить сообщение для Dumpty с помощью ICQ
По умолчанию

как программно определить язык?
Dumpty вне форума  
Старый 10.07.2016, 18:01   #5
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 899
Бабло: $188935
По умолчанию

Либы есть. Для каждого языка свои. Вот, например, для питона:

* https://github.com/saffsd/langid.py
* https://github.com/Mimino666/langdetect
lorien вне форума  
Старый 10.07.2016, 18:09   #6
Creolabs
Tomorrow
 
Аватар для Creolabs
 
Регистрация: 22.01.2013
Адрес: Баден-Баден
Сообщений: 1,441
Бабло: $234425
По умолчанию

Netpeak Checker
__________________

Creolabs вне форума  
Старый 10.07.2016, 18:31   #7
John
Senior Member
 
Регистрация: 08.10.2011
Сообщений: 167
Бабло: $45505
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Creolabs Посмотреть сообщение
Netpeak Checker
Он загибается от более-менее приличных баз, к сожалению.. Несколько миллионов им не прочекать.

У меня сейчас 170 000 урлов загружено. Сожрал на сервере 9 гигов оперативы и еле шевелиться с периодическими подвисаниями на несколько минут.

А вот сама технология интересна. Как он чекает язык технически?
John вне форума  
Старый 10.07.2016, 20:47   #8
Creolabs
Tomorrow
 
Аватар для Creolabs
 
Регистрация: 22.01.2013
Адрес: Баден-Баден
Сообщений: 1,441
Бабло: $234425
По умолчанию

Цитата:
Сообщение от John Посмотреть сообщение
Он загибается от более-менее приличных баз, к сожалению.. Несколько миллионов им не прочекать.

У меня сейчас 170 000 урлов загружено. Сожрал на сервере 9 гигов оперативы и еле шевелиться с периодическими подвисаниями на несколько минут.

А вот сама технология интересна. Как он чекает язык технически?
эт спрашивать надо у овнеров, я хз как))
А какие галочки ты ставишь при чеке? Если оставить, то что нужно и запихать прокси - то он быстрее работает.
__________________

Creolabs вне форума  
Старый 10.07.2016, 20:51   #9
capturis
Senior Member
 
Аватар для capturis
 
Регистрация: 25.11.2013
Сообщений: 272
Бабло: $47145
Отправить сообщение для capturis с помощью Telegram Отправить сообщение для capturis с помощью Jabber
По умолчанию

апарсер же
170к для него это тьфу
capturis вне форума  
Старый 10.07.2016, 21:40   #10
John
Senior Member
 
Регистрация: 08.10.2011
Сообщений: 167
Бабло: $45505
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Creolabs Посмотреть сообщение
эт спрашивать надо у овнеров, я хз как))
А какие галочки ты ставишь при чеке? Если оставить, то что нужно и запихать прокси - то он быстрее работает.
moz pa в основном. Для него в проксях смысла нет, так как ограничения на аккаунт)
John вне форума