|
| Дата |
|
USD/RUB | 90.2486 | BTC/USD | 69335.5762 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
24.03.2013, 06:41
|
Start Post: Скрипты для Твиттера
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
Написал для клиента (UK) небольшой скрипт для майнинга данных из твиттера (через API), собирает практически все данные по аккаунту (статистика - кол-во фалловеров, друзей, кол-во твиттов и т.д.) - список твиттов (хэштеги, время, ретвит/не ретвит и т.д. всего не более 2500 для аккаунта - ограничение самого твиттера), друзей и фалловеров.
Ему это нужно было для построения социального графа между аккаунтами. На данный момент в скриптах имеется фатальный недостаток - не масштабируются, т.к. следуют правильным таймингам, чтобы не превышать лимиты API, и это очень медленно. Что можно сделать? Например написать реализацию oauth используя grab, чтобы каждому апи ключу можно было сопоставить отдельный прокси. Вынести работу с каждым апи-ключом в отдельный процесс или использовать асинхронный стиль.
В результате это позволит с большой скоростью собирать данные для большого кол-ва аккаунтов.
Кому может быть такое интересно?
|
|
|
24.03.2013, 21:42
|
#12
|
Senior Member
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
|
тикет, парсить базу не обязательно через апи.
использовать - анализ: палево сеток, сбор аудитории, всякие прикладные задачи...
Venya Tolinov,
Цитата:
4.6 WMZ за 300к+ строчную базу? Ну пиздец ты нищеброд.
|
судя по числу прод, нищебродишь здесь как раз ты.
а уж раскиданная по паре десятков лотов база "на 300К" намекает, что на завтраки не хватает
следующим этапом будет база рандомных чисел на 0.5М строк?
__________________
Апарсер охрененен
|
|
|
24.03.2013, 23:10
|
#13
|
Senior Member
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
|
Цитата:
Сообщение от WebNinja
Как это "особо не ощущаю"? там конкретно прописано 180 реквестов в таймфрэйме 15 минут для одних вызовов API и 15 для других.
я не в курсе, расскажи! =)
|
Такие вызовы (GET followers/ids и GET users/lookup). Плюс у меня несколько приложений поднято для разных целей. На сбор базы уходит от нескольких часов до суток (на Медведева), это кстати, к слову о цене.
Цитата:
Сообщение от xealey
фолловеры парсятся просто и непринужденно
и те, кто работают в тви, обычно имеют собственные подобные листы, так как в курсе, куда и зачем запользовать
|
Цитата:
Сообщение от xealey
судя по числу прод, нищебродишь здесь как раз ты.
а уж раскиданная по паре десятков лотов база "на 300К" намекает, что на завтраки не хватает
следующим этапом будет база рандомных чисел на 0.5М строк?
|
У тебя я вообще смотрю ни баз, ни даже 4.6 WMZ нет, только язык длинный - иди им улицу мети. Потом приходи за базой я тебе 50% скидку сделаю.
|
|
|
24.03.2013, 23:20
|
#14
|
Senior Member
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
|
а ты не смотри, иди лучше ботов парси, это у тебя лучше получается, профессионал x
__________________
Апарсер охрененен
|
|
|
25.03.2013, 00:10
|
#15
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
ТС -->
|
ТС
Цитата:
Сообщение от xealey
тикет, парсить базу не обязательно через апи.
использовать - анализ: палево сеток, сбор аудитории, всякие прикладные задачи...
|
не через апи это хуета а не база, у меня есть и парсер через вебинтерфейс. API дает много того, что по другому не вытащить.
Цитата:
Такие вызовы (GET followers/ids и GET users/lookup). Плюс у меня несколько приложений поднято для разных целей. На сбор базы уходит от нескольких часов до суток (на Медведева), это кстати, к слову о цене.
|
они по 5000 отдают, statuses/timeline отдает по 200 твиттов и иммет предел 2500 твиттов для аккаунта.
|
|
|
25.03.2013, 00:17
|
#16
|
Senior Member
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
|
здесь же логика любого парсера - работа с подстановками
__________________
Апарсер охрененен
|
|
|
25.03.2013, 00:25
|
#17
|
Senior Member
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
|
Цитата:
Сообщение от WebNinja
они по 5000 отдают, statuses/timeline отдает по 200 твиттов и иммет предел 2500 твиттов для аккаунта.
|
statuses/timeline - эти? (GET statuses/mentions_timeline, GET statuses/user_timeline, GET statuses/home_timeline)
Ну у меня нет инфы по твитам, я только данные по пользователям собираю.
Цитата:
Сообщение от xealey
здесь же логика любого парсера - работа с подстановками
|
Вот ты дятел.
|
|
|
25.03.2013, 01:05
|
#18
|
Senior Member
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
|
ты с тви со вчерашнего дня начал работать, про лимиты на отдачу им фолловеров через веб-интерфейс не слышал?
иди, собирай недосягаемые 20К акков, потом расскажешь, как твой софт с ними справится.
ппц, спомони и то компетентнее тебя выглядит, хотя бы молчит последнее время
__________________
Апарсер охрененен
|
|
|
|