Парсер Гугла - Форум успешных вебмастеров - GoFuckBiz.com - Страница 3
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB89.7026
BTC/USD67963.8672
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 11.07.2012, 21:23
Start Post: Парсер Гугла 
  #21
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953848
По умолчанию

Какие сейчас парсеры актуальны ?
__________________
sspy вне форума  
Старый 13.07.2012, 06:27   #22
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

бесплтно есть канешно годный софт в духе "DIY" (DO IT YOURSELF). то что предлагает форбидден это немного другого уровня софт, я так понимаю, своих денег он стоит.

кстати у меня была хрень которая собирает прокси с гугла, еще без граба в принципе может (вероятность низка) причешу (заменю urllib -> grab ну и там еще по мелочам) и выложу на гитхаб в опен сурц )

правда за работу такого софта ебут датацентры, хецнер во всяком случае высылает абузу (с требованием прекратить) достаточно оперативно.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 13.07.2012, 08:04   #23
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение
30лямов это 3.4 гига где-то только сами ссылки будут весить ) я уж боюсь представить размеры файлов кого "раз в n-цать больше"
за сколько по времени дубли удаляются с такого объема?
Да на лету он удаляет, че ты блин. Еще одна "супер-задачка" для разработчиков.
1een вне форума  
Старый 13.07.2012, 09:50   #24
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

кто "он"?
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 13.07.2012, 13:51   #25
sergeospb
коплю на феррари
 
Регистрация: 03.07.2008
Сообщений: 1,251
Бабло: $148195
По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение
да какая конкуренция ) все хотят круто и бесплатно. смысла нет разрабатывать такого плана софт. успешные вебмастера в основной массе неплатежеспособны.

ну и вероятно чаще всего нужны какие-то программы для решения специализированных задач, а не просто бессмысленный парсинг тучи урлов.

вообще вот есть https://bitbucket.org/lorien/grab/sr...ools/google.py в духе "СДЕЛАЙ САМ"
Не, не пойдет. Есть свои особенности в парсинге SE, этот класс немного не подходит. Я с автором говорил об этом классе, парсить в промышленных масштабах немного по другому надо.

Цитата:
Сообщение от WebNinja Посмотреть сообщение
бесплтно есть канешно годный софт в духе "DIY" (DO IT YOURSELF). то что предлагает форбидден это немного другого уровня софт, я так понимаю, своих денег он стоит.

кстати у меня была хрень которая собирает прокси с гугла, еще без граба в принципе может (вероятность низка) причешу (заменю urllib -> grab ну и там еще по мелочам) и выложу на гитхаб в опен сурц )

правда за работу такого софта ебут датацентры, хецнер во всяком случае высылает абузу (с требованием прекратить) достаточно оперативно.
Не самый удачный ДЦ для парсеров. Точнее один из самых неудачных.
Цитата:
Сообщение от 1een Посмотреть сообщение
Да на лету он удаляет, че ты блин. Еще одна "супер-задачка" для разработчиков.
Ты удивишься, наверное. Но удалять на лету дубликаты действительно не так просто, как может показаться. А именно:
1) "на лету"
2) не тормозить процесс парсинга
Лично я отказался от фильтровании дубликатов на лету. Смысла не вижу.
Цитата:
Сообщение от sspy Посмотреть сообщение
вот к нему я и склоняюсь, если с хреферером непрокатит
ты так говоришь как будто бесплатно это что-то плохое. сколько есть бесплатного и годного софта - это просто о...ть.

с одной стороны абонентка это залог что софт не сдохнет, а с другой это дибильное ограничение. и дело не в цене, а в принципе. просто сейчас многие хотят толкать свой софт как saas.

на том-же grab или любом другом подобном классе функционал проксифера пилится за пару дней.
Ну так запили, выложи. Сделай pull request в граб, пусть будет отдельная утилька. Порадуй народ.

Последний раз редактировалось sergeospb; 13.07.2012 в 14:01.
sergeospb вне форума  
Старый 13.07.2012, 14:06   #26
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953848
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от sergeospb Посмотреть сообщение
Не, не пойдет. Есть свои особенности в парсинге SE, этот класс немного не подходит. Я с автором говорил об этом классе, парсить в промышленных масштабах немного по другому надо.
Какие особенности ?

Цитата:
Сообщение от sergeospb Посмотреть сообщение
Ну так запили, выложи. Сделай pull request в граб, пусть будет отдельная утилька. Порадуй народ.
я питон оч хреново знаю
__________________
sspy вне форума  
Старый 13.07.2012, 14:19   #27
sergeospb
коплю на феррари
 
Регистрация: 03.07.2008
Сообщений: 1,251
Бабло: $148195
По умолчанию

Цитата:
Сообщение от sspy Посмотреть сообщение
Какие особенности ?
я питон оч хреново знаю
Хреново знаешь, и тем не менее достаточно для того, чтобы судить, что это плевое дело?
Особенности - с ними столкнется каждый, кто начнет писать парсер SE с профайлером в руках. Основная идея:
1) "не терять времени" - не выполнять ненужную работу. Например, если разбор dom занимает 20% времени от работы скрипта, думаю это как раз тот случай.
2) сильно не зависеть от "дизайна" поисковой выдачи.
3) продуманная архитектура. (сильно много писать, обычно по архитектуре можно "спалить" человека, кто учился на прогера и те, кто "учился" по книгам, но не всегда.)

Последний раз редактировалось sergeospb; 13.07.2012 в 14:28.
sergeospb вне форума  
Старый 13.07.2012, 14:30   #28
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953848
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от sergeospb Посмотреть сообщение
Хреново знаешь, и тем не менее достаточно для того, чтобы судить, что это плевое дело?
да

Цитата:
Сообщение от sergeospb Посмотреть сообщение
3) продуманная архитектура.
с этим реально у многих парсеров проблемы
__________________
sspy вне форума  
Старый 13.07.2012, 14:36   #29
sergeospb
коплю на феррари
 
Регистрация: 03.07.2008
Сообщений: 1,251
Бабло: $148195
По умолчанию

Цитата:
Сообщение от sspy Посмотреть сообщение

с этим реально у многих парсеров проблемы
Я думаю, что каков рынок - такие и предложения. Выше уже было сказано не мной, что у многих "успешных" вебмастеров проблемы с оценкой разумности затрат на парсер. Проще говоря -"это должно стоить дешевле и ниипет". Всем понятно, как должно разрабатываться ПО. И тем не менее, думаешь, что кто то найдется кто купит такой продукт? Когда в ПО вложено неимоверное кол-во $xxx и времени и сделано все "по уму" - он никому не будет нужен, потому что успешные вебмастера не могут/не хотят платить.
sergeospb вне форума  
Старый 13.07.2012, 14:38   #30
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

да есть много особенностей вообще с разработкой, вам так кажется все просто, на самом деле, вот например не так давно решал задачу ммммм... равномерного размазывания спайдеров по ядрам процессора + запуск/остановку с сохранением их state. это все на словах кажется элементарно, я сам бывало раньше думал, "ничего сложного", а последнее время аккуратнее стал подходить к оценке сложности, потому что когда начинаешь делать всплывают различные ньюансы, которые, бывает, сильно усложняют проект.

"на лету" чистить, как-нибудь через хэши и базу данных типа redis/mongo, но это еще один слой ) и повышение сложности (а с увеличением этой сложности затраты времени на проект растут не линейно, 100 скриптов по 200 строк написать гораздо быстрее чем один на 20000). так же сам этот процесс было бы неплохо вынести на другое ядро, взаимодействие процессов насколько мне известно (ну, помимо Queue) организуется, через key-value базы данных или какой-нибудь RabbitMQ в которой хранятся задания, откуда они вытаскиваются и последовательно исполняются, например, в отдельном процессе, может даже генерируя новые задания, которые так же помещаются в очередь откуда их вытаскивает другой процесс и все это продолжается до победного конца.

вообщем дешевым может быть только массовый софт вроде angry birds. штучные работы или ориентированные на узкую нишу будут естественно стоить значительно дороже.

P.S. не так давно в программировании рублюсь. раньше какое-то время думал, что "не нужно", "все уже сделано", "можно руками", но потом резко поменял точку зрения. вообщем программирование вторая грамотность, учитесь пацаны. пиздато когда можешь сам реализовать свои идеи, ну и это как бы реальные знания, востребованный опыт, а не мимолетная позиция в топе, полученная очень сильным колдунством.
__________________
www.imscraping.ninja
grablab.org | blog

Последний раз редактировалось WebNinja; 13.07.2012 в 14:50.
WebNinja вне форума  
Старый 13.07.2012, 14:43   #31
sergeospb
коплю на феррари
 
Регистрация: 03.07.2008
Сообщений: 1,251
Бабло: $148195
По умолчанию

Мое мнение - никому ничего не кажется, люди не привыкли платить. Мало кто соизмеряет доходы с расходами, например - я заработал в прошлом месяце 5К$, ага, что ж мне жалко 200$ на парсер? Мыслят так - это должно стоить дешевле, точка. Почему должно - да просто блять!
sergeospb вне форума