Скрипты для Твиттера - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.4409
BTC/USD64104.4306
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 24.03.2013, 06:41   #1
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию Скрипты для Твиттера

Написал для клиента (UK) небольшой скрипт для майнинга данных из твиттера (через API), собирает практически все данные по аккаунту (статистика - кол-во фалловеров, друзей, кол-во твиттов и т.д.) - список твиттов (хэштеги, время, ретвит/не ретвит и т.д. всего не более 2500 для аккаунта - ограничение самого твиттера), друзей и фалловеров.

Ему это нужно было для построения социального графа между аккаунтами. На данный момент в скриптах имеется фатальный недостаток - не масштабируются, т.к. следуют правильным таймингам, чтобы не превышать лимиты API, и это очень медленно. Что можно сделать? Например написать реализацию oauth используя grab, чтобы каждому апи ключу можно было сопоставить отдельный прокси. Вынести работу с каждым апи-ключом в отдельный процесс или использовать асинхронный стиль.

В результате это позволит с большой скоростью собирать данные для большого кол-ва аккаунтов.

Кому может быть такое интересно?
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 24.03.2013, 09:47   #2
false
true
 
Регистрация: 26.09.2007
Сообщений: 234
Бабло: $44615
По умолчанию

1 поток - 1 апи-кей с верными таймаутами
есть возможность зделать 100 потоков с разными апи кеями ?
false вне форума  
Старый 24.03.2013, 10:16   #3
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
ТС -->
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
автор темы ТС По умолчанию

да, я собственно это и хочу сделать. каждый поток/процесс будет работать через свою проксю.
хз только какая практическая польза может быть с этого.
__________________
www.imscraping.ninja
grablab.org | blog

Последний раз редактировалось WebNinja; 24.03.2013 в 10:29.
WebNinja вне форума  
Старый 24.03.2013, 12:04   #4
xealey
Senior Member
 
Аватар для xealey
 
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
По умолчанию

сможешь построить красивую инфографику

или барыжить безотказными фолловерами, давать выборки из твитов по кею (неплохо лезут по НЧ), сам скрипт вряд ли сможет заинтересовать многих, в отличие от намайненных данных
__________________
Апарсер охрененен
xealey вне форума  
Старый 24.03.2013, 15:03   #5
Venya Tolinov
Senior Member
 
Аватар для Venya Tolinov
 
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
Отправить сообщение для Venya Tolinov с помощью Skype™
По умолчанию

Как раз что-то похожее у меня у меня на ГАЕ работает. Особо лимитов не ощущаю, вытаскиваю данные до миллиона. Вот примеры БД под катом.

Offtopic
__________________
Amazon Graffiti - монетизация страниц в Facebook
Venya Tolinov вне форума  
Старый 24.03.2013, 15:24   #7
Venya Tolinov
Senior Member
 
Аватар для Venya Tolinov
 
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
Отправить сообщение для Venya Tolinov с помощью Skype™
По умолчанию

Цитата:
Сообщение от sspy Посмотреть сообщение
количество продаж данных баз отчетливо отвечает на вопрос тс, что никому оно нафиг не надо
Не говори за всех, мне например нужно - я делал для себя.
__________________
Amazon Graffiti - монетизация страниц в Facebook
Venya Tolinov вне форума  
Старый 24.03.2013, 15:32   #8
xealey
Senior Member
 
Аватар для xealey
 
Регистрация: 04.09.2007
Сообщений: 1,267
Бабло: $254000
По умолчанию

Цитата:
количество продаж данных баз отчетливо отвечает на вопрос тс, что никому оно нафиг не надо
это ты зря. селлер просто неадекватный прайс выкатил, фолловеры парсятся просто и непринужденно
и те, кто работают в тви, обычно имеют собственные подобные листы, так как в курсе, куда и зачем запользовать
__________________
Апарсер охрененен
xealey вне форума  
Старый 24.03.2013, 15:37   #9
Venya Tolinov
Senior Member
 
Аватар для Venya Tolinov
 
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
Отправить сообщение для Venya Tolinov с помощью Skype™
По умолчанию

Цитата:
Сообщение от xealey Посмотреть сообщение
это ты зря. селлер просто неадекватный прайс выкатил, фолловеры парсятся просто и непринужденно
и те, кто работают в тви, обычно имеют собственные подобные листы, так как в курсе, куда и зачем запользовать
4.6 WMZ за 300к+ строчную базу? Ну пиздец ты нищеброд.
__________________
Amazon Graffiti - монетизация страниц в Facebook
Venya Tolinov вне форума  
Старый 24.03.2013, 21:21   #10
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
ТС -->
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
автор темы ТС По умолчанию

Ну вот нужно было социальный граф строить и заниматься анализом твиттер акков мед-клиник, чтобы находить корелляцию между нагрузкой на клинику по параметрам твиттера аккакунта. Но таких походу единицы.

Цитата:
Как раз что-то похожее у меня у меня на ГАЕ работает. Особо лимитов не ощущаю, вытаскиваю данные до миллиона. Вот примеры БД под катом.
Как это "особо не ощущаю"? там конкретно прописано 180 реквестов в таймфрэйме 15 минут для одних вызовов API и 15 для других.

Цитата:
так как в курсе, куда и зачем запользовать
я не в курсе, расскажи! =)
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума