|
| Дата |
|
USD/RUB | 93.4409 | BTC/USD | 64104.4306 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
24.03.2013, 06:41
|
#1
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
Скрипты для Твиттера
Написал для клиента (UK) небольшой скрипт для майнинга данных из твиттера (через API), собирает практически все данные по аккаунту (статистика - кол-во фалловеров, друзей, кол-во твиттов и т.д.) - список твиттов (хэштеги, время, ретвит/не ретвит и т.д. всего не более 2500 для аккаунта - ограничение самого твиттера), друзей и фалловеров.
Ему это нужно было для построения социального графа между аккаунтами. На данный момент в скриптах имеется фатальный недостаток - не масштабируются, т.к. следуют правильным таймингам, чтобы не превышать лимиты API, и это очень медленно. Что можно сделать? Например написать реализацию oauth используя grab, чтобы каждому апи ключу можно было сопоставить отдельный прокси. Вынести работу с каждым апи-ключом в отдельный процесс или использовать асинхронный стиль.
В результате это позволит с большой скоростью собирать данные для большого кол-ва аккаунтов.
Кому может быть такое интересно?
|
|
|
24.03.2013, 09:47
|
#2
|
true
Регистрация: 26.09.2007
Сообщений: 234
Бабло: $44615
|
1 поток - 1 апи-кей с верными таймаутами
есть возможность зделать 100 потоков с разными апи кеями ?
|
|
|
24.03.2013, 10:16
|
#3
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
ТС -->
|
ТС
да, я собственно это и хочу сделать. каждый поток/процесс будет работать через свою проксю.
хз только какая практическая польза может быть с этого.
Последний раз редактировалось WebNinja; 24.03.2013 в 10:29.
|
|
|
24.03.2013, 12:04
|
#4
|
Senior Member
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
|
сможешь построить красивую инфографику
или барыжить безотказными фолловерами, давать выборки из твитов по кею (неплохо лезут по НЧ), сам скрипт вряд ли сможет заинтересовать многих, в отличие от намайненных данных
__________________
Апарсер охрененен
|
|
|
24.03.2013, 15:03
|
#5
|
Senior Member
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
|
Как раз что-то похожее у меня у меня на ГАЕ работает. Особо лимитов не ощущаю, вытаскиваю данные до миллиона. Вот примеры БД под катом.
|
|
|
24.03.2013, 15:21
|
#6
|
главный злодей гофака
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953648
|
Цитата:
Сообщение от Venya Tolinov
|
количество продаж данных баз отчетливо отвечает на вопрос тс, что никому оно нафиг не надо
__________________
|
|
|
24.03.2013, 15:24
|
#7
|
Senior Member
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
|
Цитата:
Сообщение от sspy
количество продаж данных баз отчетливо отвечает на вопрос тс, что никому оно нафиг не надо
|
Не говори за всех, мне например нужно - я делал для себя.
|
|
|
24.03.2013, 15:32
|
#8
|
Senior Member
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
|
Цитата:
количество продаж данных баз отчетливо отвечает на вопрос тс, что никому оно нафиг не надо
|
это ты зря. селлер просто неадекватный прайс выкатил, фолловеры парсятся просто и непринужденно
и те, кто работают в тви, обычно имеют собственные подобные листы, так как в курсе, куда и зачем запользовать
__________________
Апарсер охрененен
|
|
|
24.03.2013, 15:37
|
#9
|
Senior Member
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
|
Цитата:
Сообщение от xealey
это ты зря. селлер просто неадекватный прайс выкатил, фолловеры парсятся просто и непринужденно
и те, кто работают в тви, обычно имеют собственные подобные листы, так как в курсе, куда и зачем запользовать
|
4.6 WMZ за 300к+ строчную базу? Ну пиздец ты нищеброд.
|
|
|
24.03.2013, 21:21
|
#10
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
ТС -->
|
ТС
Ну вот нужно было социальный граф строить и заниматься анализом твиттер акков мед-клиник, чтобы находить корелляцию между нагрузкой на клинику по параметрам твиттера аккакунта. Но таких походу единицы.
Цитата:
Как раз что-то похожее у меня у меня на ГАЕ работает. Особо лимитов не ощущаю, вытаскиваю данные до миллиона. Вот примеры БД под катом.
|
Как это "особо не ощущаю"? там конкретно прописано 180 реквестов в таймфрэйме 15 минут для одних вызовов API и 15 для других.
Цитата:
так как в курсе, куда и зачем запользовать
|
я не в курсе, расскажи! =)
|
|
|
|