Скрипты для Твиттера - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.2486
BTC/USD68724.6319
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 24.03.2013, 06:41
Start Post: Скрипты для Твиттера 
  #11
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

Написал для клиента (UK) небольшой скрипт для майнинга данных из твиттера (через API), собирает практически все данные по аккаунту (статистика - кол-во фалловеров, друзей, кол-во твиттов и т.д.) - список твиттов (хэштеги, время, ретвит/не ретвит и т.д. всего не более 2500 для аккаунта - ограничение самого твиттера), друзей и фалловеров.

Ему это нужно было для построения социального графа между аккаунтами. На данный момент в скриптах имеется фатальный недостаток - не масштабируются, т.к. следуют правильным таймингам, чтобы не превышать лимиты API, и это очень медленно. Что можно сделать? Например написать реализацию oauth используя grab, чтобы каждому апи ключу можно было сопоставить отдельный прокси. Вынести работу с каждым апи-ключом в отдельный процесс или использовать асинхронный стиль.

В результате это позволит с большой скоростью собирать данные для большого кол-ва аккаунтов.

Кому может быть такое интересно?
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 24.03.2013, 21:42   #12
xealey
Senior Member
 
Аватар для xealey
 
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
По умолчанию

тикет, парсить базу не обязательно через апи.
использовать - анализ: палево сеток, сбор аудитории, всякие прикладные задачи...

Venya Tolinov, Offtopic
__________________
Апарсер охрененен
xealey вне форума  
Старый 24.03.2013, 23:10   #13
Venya Tolinov
Senior Member
 
Аватар для Venya Tolinov
 
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
Отправить сообщение для Venya Tolinov с помощью Skype™
По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение
Как это "особо не ощущаю"? там конкретно прописано 180 реквестов в таймфрэйме 15 минут для одних вызовов API и 15 для других.

я не в курсе, расскажи! =)
Такие вызовы (GET followers/ids и GET users/lookup). Плюс у меня несколько приложений поднято для разных целей. На сбор базы уходит от нескольких часов до суток (на Медведева), это кстати, к слову о цене.

Цитата:
Сообщение от xealey
фолловеры парсятся просто и непринужденно
и те, кто работают в тви, обычно имеют собственные подобные листы, так как в курсе, куда и зачем запользовать
Цитата:
Сообщение от xealey Посмотреть сообщение
судя по числу прод, нищебродишь здесь как раз ты.
а уж раскиданная по паре десятков лотов база "на 300К" намекает, что на завтраки не хватает
следующим этапом будет база рандомных чисел на 0.5М строк?
У тебя я вообще смотрю ни баз, ни даже 4.6 WMZ нет, только язык длинный - иди им улицу мети. Потом приходи за базой я тебе 50% скидку сделаю.
__________________
Amazon Graffiti - монетизация страниц в Facebook
Venya Tolinov вне форума  
Старый 24.03.2013, 23:20   #14
xealey
Senior Member
 
Аватар для xealey
 
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
По умолчанию

Offtopic
__________________
Апарсер охрененен
xealey вне форума  
Старый 25.03.2013, 00:10   #15
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
ТС -->
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
автор темы ТС По умолчанию

Цитата:
Сообщение от xealey Посмотреть сообщение
тикет, парсить базу не обязательно через апи.
использовать - анализ: палево сеток, сбор аудитории, всякие прикладные задачи...
не через апи это хуета а не база, у меня есть и парсер через вебинтерфейс. API дает много того, что по другому не вытащить.

Цитата:
Такие вызовы (GET followers/ids и GET users/lookup). Плюс у меня несколько приложений поднято для разных целей. На сбор базы уходит от нескольких часов до суток (на Медведева), это кстати, к слову о цене.
они по 5000 отдают, statuses/timeline отдает по 200 твиттов и иммет предел 2500 твиттов для аккаунта.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 25.03.2013, 00:17   #16
xealey
Senior Member
 
Аватар для xealey
 
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
По умолчанию

здесь же логика любого парсера - работа с подстановками
__________________
Апарсер охрененен
xealey вне форума  
Старый 25.03.2013, 00:25   #17
Venya Tolinov
Senior Member
 
Аватар для Venya Tolinov
 
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
Отправить сообщение для Venya Tolinov с помощью Skype™
По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение
они по 5000 отдают, statuses/timeline отдает по 200 твиттов и иммет предел 2500 твиттов для аккаунта.
statuses/timeline - эти? (GET statuses/mentions_timeline, GET statuses/user_timeline, GET statuses/home_timeline)
Ну у меня нет инфы по твитам, я только данные по пользователям собираю.

Цитата:
Сообщение от xealey
здесь же логика любого парсера - работа с подстановками
Вот ты дятел.
__________________
Amazon Graffiti - монетизация страниц в Facebook
Venya Tolinov вне форума  
Старый 25.03.2013, 01:05   #18
xealey
Senior Member
 
Аватар для xealey
 
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
По умолчанию

ты с тви со вчерашнего дня начал работать, про лимиты на отдачу им фолловеров через веб-интерфейс не слышал?
иди, собирай недосягаемые 20К акков, потом расскажешь, как твой софт с ними справится.

ппц, спомони и то компетентнее тебя выглядит, хотя бы молчит последнее время
__________________
Апарсер охрененен
xealey вне форума