Мега-сканер интернета - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Реклама и анонсы партнерок и сервисов
Дата
USD/RUB89.2589
BTC/USD68515.0693
Реклама и анонсы партнерок и сервисов Анонсы партнерских программ и реклама полезных сервисов.

Закрытая тема
Опции темы Опции просмотра
Старый 05.03.2009, 19:09
Start Post: Мега-сканер интернета 
  #11
SillyMamont
Юниор
 
Аватар для SillyMamont
 
Регистрация: 30.11.2008
Сообщений: 5
Бабло: $500
Отправить сообщение для SillyMamont с помощью ICQ Отправить сообщение для SillyMamont с помощью Skype™
Thumbs up

Скажите уважаемые, а вам никогда не хотелось иметь своего собственного
поискового паука, скажем вроде тех, что есть у Гугла? Который ходил бы
по всему тырнету и заботливо просеивал его выбирая крупицы действительно
нужной информации. Я имею в виду не глобальную индексацию всего и вся, а
сбор конкретной интересующей вас информации и статистики.

Вот и мне такую штуку хотелось, поэтому я с еще парой единомышленников
разрабатываю такого паука. Как таковой он уже есть и занимается в данный
момент своими прямыми обязанностями.

Но пришел я сюда не только для того чтобы похвастаться этим фактом, а хочу
предложить вам услуги по его совместному использованию. Многие из присутствующих
здесь занимаются к примеру насилованием гугла на предмет собирания баз гостевух
и форумов. Так почему бы не подойти к этому процессу с обратной стороны, можно
ведь обойти все сайты и на каждом конкретном сайте найти гостевуху и форум.
Думаете обойти весь тырнет невозможно в принципе? Да ни боже мой, достаточно с
каждого сайта запросить лишь часть страниц чтобы узнать о нем практически все.
В данный момент мой краулер перелопачивает сайты со скоростью 30 миллионов штук
в сутки и это далеко не предел.

Как вы понимаете все это удовольствие требует
некоторых финансовых затрат на сервера, трафик и прочее. Итак как вы уже поняли
я предлагаю использовать моего паука для сбора нужной конкретно вам информации.
Ну к примеру, хотите напарсить форумов или блогов, пожалуйста, парсер уже сейчас
умеет определять более 100 популярных движков. Хотите собрать кейвордов, тоже
не трудно, все кейворды со всех сайтов в вашем распоряжении. Хотите собрать базу
совсем уж специфичной информации и сделать супер-пупер сервис, не вопрос, любой
каприз за ваши деньги.

Сколько денег? Скажем разовый пробег по всему рунету обойдется вам всего
в 100 долларов. А пробег по 50 миллионам буржуйских сайтов обойдется в 400, что
тоже вполне вменяемо. Вобщем все обсуждается. От вас требуется только
конкретное задание.

Вопросы можно задавать в топике или слать на почту [email protected],
ну или стучать в аську 884240, но в аське я редко бываю.
SillyMamont вне форума  
Старый 05.03.2009, 20:52   #12
reality
Senior Member
 
Регистрация: 07.04.2007
Сообщений: 171
Бабло: $8600
Отправить сообщение для reality с помощью ICQ
По умолчанию

Цитата:
Сообщение от Maximus325 Посмотреть сообщение
Например?
Мне не лень искать, интересно просто твой мнение какие из них суть серьёзные.
Nutch http://lucene.apache.org/nutch/. Очень серьезный продукт, сейчас уже вот вот насколько я слежу за развитием будет 1.0 версия.
Копался в его потрохах, и переделывал под свои нужды. В кластере из 4х компов работает на ура, сейчас правда не использую, т.к. пока нету надобности
reality вне форума  
Старый 05.03.2009, 22:24   #13
div72™
Патологоанатом
 
Аватар для div72™
 
Регистрация: 03.04.2007
Сообщений: 253
Бабло: $525
Отправить сообщение для div72™ с помощью ICQ
По умолчанию

jonn22 уже делал такой скрипт, ода называется, задумка не плохая, но реализация ....
div72™ вне форума  
Старый 05.03.2009, 22:55   #14
jonn22
Senior Member
 
Аватар для jonn22
 
Регистрация: 19.06.2007
Сообщений: 398
Бабло: $36496
По умолчанию

Ода совсем для другого. Абсолютно причем.
__________________
http://jonn22.com
jonn22 вне форума  
Старый 06.03.2009, 00:45   #15
zpromо
Ебланнед
 
Регистрация: 25.01.2009
Сообщений: 183
Бабло: $11760
По умолчанию

На базе wget можно соорудить вполне достойного бота. Опций, заложенных в wget достаточно для этого.
zpromо вне форума  
Старый 06.03.2009, 02:20   #16
hellman
Senior Member
 
Регистрация: 14.09.2007
Сообщений: 349
Бабло: $47895
Отправить сообщение для hellman с помощью ICQ
По умолчанию

Цитата:
Сообщение от zpromо Посмотреть сообщение
На базе wget можно соорудить вполне достойного бота. Опций, заложенных в wget достаточно для этого.
Написать паука которых ходит по инету - это достаточно простая задача.
Причем это можно сделать на том же перле с использованием любой событийной машины и скорость будет очень высока.

Другой вопрос в анализе и хранении данных, вот тут намного сложнее.
hellman вне форума  
Старый 06.03.2009, 03:36   #17
Oizo
aka Skam
 
Аватар для Oizo
 
Регистрация: 02.03.2007
Сообщений: 248
Бабло: $13515
Отправить сообщение для Oizo с помощью ICQ
По умолчанию

Ну для такой задачи гугль и открыл свою инфраструктуру. Цена вопроса на хранение в bigtable - 15 центов в месяц на гигабайт
Oizo вне форума  
Старый 06.03.2009, 03:38   #18
zpromо
Ебланнед
 
Регистрация: 25.01.2009
Сообщений: 183
Бабло: $11760
По умолчанию

Цитата:
Сообщение от hellman Посмотреть сообщение
Другой вопрос в анализе и хранении данных, вот тут намного сложнее.
Я себе шаблончик сделал. При помощи юниксовых утилит командной строки типа find, xargs, grep - по 30 и более параметрам, из большого объема данных (правда, в пределах одного сервера) довольно быстро вытягивает нужноую инфу.
zpromо вне форума  
Старый 06.03.2009, 03:42   #19
hellman
Senior Member
 
Регистрация: 14.09.2007
Сообщений: 349
Бабло: $47895
Отправить сообщение для hellman с помощью ICQ
По умолчанию

Цитата:
Сообщение от Oizo Посмотреть сообщение
Ну для такой задачи гугль и открыл свою инфраструктуру. Цена вопроса на хранение в bigtable - 15 центов в месяц на гигабайт
Вопрос даже не в том чтобы тупо все это хранить. Вопрос в обработке всего этого. А главное, быстрой обработке.

Тот же самый поиск гостевух - в терабайтах обычных страниц вы заебетесь искать гостевухи =))

Если же проводить анализ сразу - то скорость упадет в нереальные разы.
Тут парсинг бэков намного эффективней будет.

У нас есть в разработке подобная система, правда не для гостевух =) Так мы сейчас жутко бьемся именно над этим вопросом. Не могу сказать что нет вариантов, но они очень многозатратные, как и по фин, так и по физ запросам.


Повторюсь - скачать сколько угодно интернета на больших скоростях - вопрос хуйня.
hellman вне форума  
Старый 06.03.2009, 03:47   #20
hellman
Senior Member
 
Регистрация: 14.09.2007
Сообщений: 349
Бабло: $47895
Отправить сообщение для hellman с помощью ICQ
По умолчанию

Цитата:
А пробег по 50 миллионам буржуйских сайтов обойдется в 400
Я не хочу никак обидеть ТС, но вот у меня вопрос.
Что значит пробег?

Если меня интересует в данных страничках куча факторов, к примеру
а. кол-во ННых слов на странице.
б. Процент от общего кол-ва слов.
в. Источники внешних ссылок на 1. данную страницу, 2. данный домен (от уже "пройденных" пауком)
и т.д.
(но мне не нужен в конечно итоге сорс данной страницы)

За какой период времни будет такой анализ 50-млн. страниц?
hellman вне форума  
Старый 06.03.2009, 03:48   #21
Oizo
aka Skam
 
Аватар для Oizo
 
Регистрация: 02.03.2007
Сообщений: 248
Бабло: $13515
Отправить сообщение для Oizo с помощью ICQ
По умолчанию

Ну я ж не спроста упомянул bigtable Гугля им и сама пользуется для поискового сервиса.
Полнотекстового поиска там нет, да и bigtable нереляционная, посему не будет никогда скорее всего, но алгоритмику можно и придумать, не проблема. Все зависит от задачи, что ищем, критерии и т.п. А гугловская среда исполнения естественно абсолютно масштабиуема, вместе со всеми сервисами (bigtable, etc.)
Oizo вне форума  
Закрытая тема