|
| Дата |
|
USD/RUB | 89.7026 | BTC/USD | 67963.8672 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
11.07.2012, 21:23
|
Start Post: Парсер Гугла
|
главный злодей гофака
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953848
|
Какие сейчас парсеры актуальны ?
__________________
|
|
|
13.07.2012, 06:27
|
#22
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
бесплтно есть канешно годный софт в духе "DIY" (DO IT YOURSELF). то что предлагает форбидден это немного другого уровня софт, я так понимаю, своих денег он стоит.
кстати у меня была хрень которая собирает прокси с гугла, еще без граба в принципе может (вероятность низка) причешу (заменю urllib -> grab ну и там еще по мелочам) и выложу на гитхаб в опен сурц )
правда за работу такого софта ебут датацентры, хецнер во всяком случае высылает абузу (с требованием прекратить) достаточно оперативно.
|
|
|
13.07.2012, 08:04
|
#23
|
Senior Member
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
|
Цитата:
Сообщение от WebNinja
30лямов это 3.4 гига где-то только сами ссылки будут весить ) я уж боюсь представить размеры файлов кого "раз в n-цать больше"
за сколько по времени дубли удаляются с такого объема?
|
Да на лету он удаляет, че ты блин. Еще одна "супер-задачка" для разработчиков.
|
|
|
13.07.2012, 09:50
|
#24
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
кто "он"?
|
|
|
13.07.2012, 13:51
|
#25
|
коплю на феррари
Регистрация: 03.07.2008
Сообщений: 1,251
Бабло: $148195
|
Цитата:
Сообщение от WebNinja
да какая конкуренция ) все хотят круто и бесплатно. смысла нет разрабатывать такого плана софт. успешные вебмастера в основной массе неплатежеспособны.
ну и вероятно чаще всего нужны какие-то программы для решения специализированных задач, а не просто бессмысленный парсинг тучи урлов.
вообще вот есть https://bitbucket.org/lorien/grab/sr...ools/google.py в духе "СДЕЛАЙ САМ"
|
Не, не пойдет. Есть свои особенности в парсинге SE, этот класс немного не подходит. Я с автором говорил об этом классе, парсить в промышленных масштабах немного по другому надо.
Цитата:
Сообщение от WebNinja
бесплтно есть канешно годный софт в духе "DIY" (DO IT YOURSELF). то что предлагает форбидден это немного другого уровня софт, я так понимаю, своих денег он стоит.
кстати у меня была хрень которая собирает прокси с гугла, еще без граба в принципе может (вероятность низка) причешу (заменю urllib -> grab ну и там еще по мелочам) и выложу на гитхаб в опен сурц )
правда за работу такого софта ебут датацентры, хецнер во всяком случае высылает абузу (с требованием прекратить) достаточно оперативно.
|
Не самый удачный ДЦ для парсеров. Точнее один из самых неудачных.
Цитата:
Сообщение от 1een
Да на лету он удаляет, че ты блин. Еще одна "супер-задачка" для разработчиков.
|
Ты удивишься, наверное. Но удалять на лету дубликаты действительно не так просто, как может показаться. А именно:
1) "на лету"
2) не тормозить процесс парсинга
Лично я отказался от фильтровании дубликатов на лету. Смысла не вижу.
Цитата:
Сообщение от sspy
вот к нему я и склоняюсь, если с хреферером непрокатит
ты так говоришь как будто бесплатно это что-то плохое. сколько есть бесплатного и годного софта - это просто о...ть.
с одной стороны абонентка это залог что софт не сдохнет, а с другой это дибильное ограничение. и дело не в цене, а в принципе. просто сейчас многие хотят толкать свой софт как saas.
на том-же grab или любом другом подобном классе функционал проксифера пилится за пару дней.
|
Ну так запили, выложи. Сделай pull request в граб, пусть будет отдельная утилька. Порадуй народ.
Последний раз редактировалось sergeospb; 13.07.2012 в 14:01.
|
|
|
13.07.2012, 14:06
|
#26
|
главный злодей гофака
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953848
ТС -->
|
ТС
Цитата:
Сообщение от sergeospb
Не, не пойдет. Есть свои особенности в парсинге SE, этот класс немного не подходит. Я с автором говорил об этом классе, парсить в промышленных масштабах немного по другому надо.
|
Какие особенности ?
Цитата:
Сообщение от sergeospb
Ну так запили, выложи. Сделай pull request в граб, пусть будет отдельная утилька. Порадуй народ.
|
я питон оч хреново знаю
__________________
|
|
|
13.07.2012, 14:19
|
#27
|
коплю на феррари
Регистрация: 03.07.2008
Сообщений: 1,251
Бабло: $148195
|
Цитата:
Сообщение от sspy
Какие особенности ?
я питон оч хреново знаю
|
Хреново знаешь, и тем не менее достаточно для того, чтобы судить, что это плевое дело?
Особенности - с ними столкнется каждый, кто начнет писать парсер SE с профайлером в руках. Основная идея:
1) "не терять времени" - не выполнять ненужную работу. Например, если разбор dom занимает 20% времени от работы скрипта, думаю это как раз тот случай.
2) сильно не зависеть от "дизайна" поисковой выдачи.
3) продуманная архитектура. (сильно много писать, обычно по архитектуре можно "спалить" человека, кто учился на прогера и те, кто "учился" по книгам, но не всегда.)
Последний раз редактировалось sergeospb; 13.07.2012 в 14:28.
|
|
|
13.07.2012, 14:30
|
#28
|
главный злодей гофака
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953848
ТС -->
|
ТС
Цитата:
Сообщение от sergeospb
Хреново знаешь, и тем не менее достаточно для того, чтобы судить, что это плевое дело?
|
да
Цитата:
Сообщение от sergeospb
3) продуманная архитектура.
|
с этим реально у многих парсеров проблемы
__________________
|
|
|
13.07.2012, 14:36
|
#29
|
коплю на феррари
Регистрация: 03.07.2008
Сообщений: 1,251
Бабло: $148195
|
Цитата:
Сообщение от sspy
с этим реально у многих парсеров проблемы
|
Я думаю, что каков рынок - такие и предложения. Выше уже было сказано не мной, что у многих "успешных" вебмастеров проблемы с оценкой разумности затрат на парсер. Проще говоря -"это должно стоить дешевле и ниипет". Всем понятно, как должно разрабатываться ПО. И тем не менее, думаешь, что кто то найдется кто купит такой продукт? Когда в ПО вложено неимоверное кол-во $xxx и времени и сделано все "по уму" - он никому не будет нужен, потому что успешные вебмастера не могут/не хотят платить.
|
|
|
13.07.2012, 14:38
|
#30
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
да есть много особенностей вообще с разработкой, вам так кажется все просто, на самом деле, вот например не так давно решал задачу ммммм... равномерного размазывания спайдеров по ядрам процессора + запуск/остановку с сохранением их state. это все на словах кажется элементарно, я сам бывало раньше думал, "ничего сложного", а последнее время аккуратнее стал подходить к оценке сложности, потому что когда начинаешь делать всплывают различные ньюансы, которые, бывает, сильно усложняют проект.
"на лету" чистить, как-нибудь через хэши и базу данных типа redis/mongo, но это еще один слой ) и повышение сложности (а с увеличением этой сложности затраты времени на проект растут не линейно, 100 скриптов по 200 строк написать гораздо быстрее чем один на 20000). так же сам этот процесс было бы неплохо вынести на другое ядро, взаимодействие процессов насколько мне известно (ну, помимо Queue) организуется, через key-value базы данных или какой-нибудь RabbitMQ в которой хранятся задания, откуда они вытаскиваются и последовательно исполняются, например, в отдельном процессе, может даже генерируя новые задания, которые так же помещаются в очередь откуда их вытаскивает другой процесс и все это продолжается до победного конца.
вообщем дешевым может быть только массовый софт вроде angry birds. штучные работы или ориентированные на узкую нишу будут естественно стоить значительно дороже.
P.S. не так давно в программировании рублюсь. раньше какое-то время думал, что "не нужно", "все уже сделано", "можно руками", но потом резко поменял точку зрения. вообщем программирование вторая грамотность, учитесь пацаны. пиздато когда можешь сам реализовать свои идеи, ну и это как бы реальные знания, востребованный опыт, а не мимолетная позиция в топе, полученная очень сильным колдунством.
Последний раз редактировалось WebNinja; 13.07.2012 в 14:50.
|
|
|
13.07.2012, 14:43
|
#31
|
коплю на феррари
Регистрация: 03.07.2008
Сообщений: 1,251
Бабло: $148195
|
Мое мнение - никому ничего не кажется, люди не привыкли платить. Мало кто соизмеряет доходы с расходами, например - я заработал в прошлом месяце 5К$, ага, что ж мне жалко 200$ на парсер? Мыслят так - это должно стоить дешевле, точка. Почему должно - да просто блять!
|
|
|
|