|
| Дата |
|
USD/RUB | 88.6852 | BTC/USD | 68333.4256 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
18.06.2017, 05:54
|
Start Post: Чего бы интересного пропарсить из 9 млн. доменов?
|
Senior Member
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
|
Скачал морды 9млн доменов. Подскажите, что интересного оттуда можно выпарсить? Если кому-то что-то нужно, пишите, я могу пропарсить.
__________________
TgScan - узнай Telegram группы, в которых состоит человек
|
|
|
19.06.2017, 12:42
|
#12
|
Senior Member
Регистрация: 25.12.2013
Сообщений: 6,586
Бабло: $785925
|
Цитата:
Сообщение от digg
теперь все эти домены на позиции в гугле по всем кеям пропарсить и сделать семраш с ахрефсом в одном ))
|
Регулярно парсить на кеи и сделать так свой Гугл
А если без шуток, то есть такие сервисы, которые до ТСа уже пропарсили гораздо больше доменов, да еще и по куче параметров.
__________________
Надежный и отзывчивый VPS хостинг для серьезных проектов
Проверенная годами пуш партнерка с ежедневными выплатами
|
|
|
19.06.2017, 15:35
|
#13
|
$400
Регистрация: 17.05.2009
Сообщений: 14,051
Бабло: $1905990
|
Цитата:
Сообщение от Skyworker
Цитата:
Сообщение от digg
теперь все эти домены на позиции в гугле по всем кеям пропарсить и сделать семраш с ахрефсом в одном ))
|
Регулярно парсить на кеи и сделать так свой Гугл
А если без шуток, то есть такие сервисы, которые до ТСа уже пропарсили гораздо больше доменов, да еще и по куче параметров.
|
а у тс-а будет бесплатный сервис
|
|
|
19.06.2017, 19:33
|
#14
|
околодорвеев
Регистрация: 19.10.2009
Сообщений: 1,841
Бабло: $229513
|
кто знает сервисы по определению тематики сайтов ?
ты ему список доменов, он тебе какой домен какой тематики
|
|
|
19.06.2017, 20:32
|
#15
|
Senior Member
Регистрация: 25.11.2013
Сообщений: 272
Бабло: $47245
|
Цитата:
Сообщение от kezz
кто знает сервисы по определению тематики сайтов ?
ты ему список доменов, он тебе какой домен какой тематики
|
http://zennolab.com/wiki/ru:context-recognizer
|
|
|
21.06.2017, 12:28
|
#16
|
Юниор
|
Что парсить:
- движок
- возможно, тематику, на основе текстов на сайте
- какие рекламные блоки установлены
- ссылки на другие домены
- насобирать текстов с морд, чтобы лепить дорвеи
дополнительно можно парсить
- данные хуиза (из них - контакты админов, иногда они есть)
- IP сервера
на такой бигдате можно поэкспериментировать с нейронной сетью, например, скормить контент в самоорганизующуюся карту, тогда данные можно кластеризовать и дальше как-то использовать (к, примеру, договариваться об обмене ссылками с сайтами определенного кластера и т.п.)
но 9 млн - это как-то мало вообще
если пройтись по мордам и пособирать линки, то из 9 млн получится гораздо больше доменов.
затем, можно насобирать брошенные домены (ссылки на которые есть, но они проэкспарились), и зарегать их
вообще, можно много чего с этим сделать, зависит от целей)
как-то парсил сопоставимый объем, даже где-то база валялась
запилил потом локальный поисковичок на эластике и через формы обратной связи (там, где они были), выцеплял вебмастеров
|
|
|
21.06.2017, 12:43
|
#17
|
Senior Member
Регистрация: 08.01.2016
Сообщений: 279
Бабло: $82515
|
Цитата:
Сообщение от kezz
кто знает сервисы по определению тематики сайтов ?
ты ему список доменов, он тебе какой домен какой тематики
|
https://goo.gl/aw7tPJ
|
|
|
21.06.2017, 17:35
|
#18
|
Senior Member
Регистрация: 28.09.2013
Сообщений: 511
Бабло: $74655
|
Попробуй сделать спаилку для арбитражников. Но это не просто "попарсить". По ФБ не так много предложений и индексом слабенько, например.
|
|
|
21.06.2017, 23:25
|
#19
|
Senior Member
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
|
|
|
|
22.06.2017, 00:54
|
#20
|
Senior Member
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
ТС -->
|
ТС
Там не всё, а лишь некоторая часть интернета. Вот тут можно посмотреть, сколько страниц с каждого домена спарсено: http://urlsearch.commoncrawl.org/
__________________
TgScan - узнай Telegram группы, в которых состоит человек
|
|
|
11.07.2017, 23:43
|
#21
|
Senior Member
Регистрация: 28.03.2011
Сообщений: 419
Бабло: $81005
|
Хз, а-парсером такие объёмы морд дербаню за пару дней, даже прокси не нужны, даже не храню их. Бэки так бесполезно искать все самое интересное не на мордах. Идей что собирать ищи в апарсере) единственное чем ты можешь отличиться - это собирать и хранить историю изменения всего что сможешь парсить.
|
|
|
|