|
| Дата |
|
USD/RUB | 88.6852 | BTC/USD | 68446.3164 |
|
|
|
Объявления о покупке/продаже товаров и услуг Также в этом разделе следует размещать и предложения о сотрудничестве. |
05.03.2015, 17:40
|
Start Post: Продаю онлайн сервис
|
Senior Member
Регистрация: 04.06.2008
Сообщений: 466
Бабло: $172376
|
Всем привет.
Решил разобраться с некоторыми проектами, которые в данный момент не в приоритете.
В общем, неспешно продаю сервис для поиска сайтов по общим признакам.
Под признаками подразумевается: - id Google Adsense и Analytics
- id счетчика liveinternet
- домен статистики piwik
- домен openx
- id партнерки amazon
- utm меткам
- CMS
- id соц. кнопок addthis
- имена cookie
- и др.
Из того, что нигде не встречал: - домен, с которого подгружается javascript, iframe
- имена полей форм
- редиректы с сайта/на сайт
Все признаки разбиты по группам: - Реклама - все, чем монетизируется сайт.
- CMS,CMF и т.д. - системы управления сайтом, web платформы
- Аналитика - системы статистики, аналитики и оценки конверсии
- Технические параметры - виджеты различных серисов (vk, facebook, disqus, recaptcha и др.), наличие сайта в вебмастерских панелях google, yandex, bing и прочие элементы, относящиеся к функционированию сайта
- Cookies - cookie, устанавливаемые сайтом при посещении
- Элементы HTML - домен iframe, javascript и др.
- Редиректы
Статистика признаков по группам: - Реклама - 551 рекламных элементов
- CMS,CMF и т.д. - 94
- Аналитика - 62
- Технические параметры - 79
На каждый из признаков от 1 до нескольких паттернов для детекта (всего 1447 паттернов).
Например, для Google Analytics - 7 различных паттернов для поиска id аналитикса.
По piwik - 9, включая обфусцированные версии, когда домен получается в результате сложения строк 'piw' + 'ikdoma' + 'in.com'
и т.д.
Кроме результатов последней проверки можно смотреть историю. Данные по некоторым сайтам собираются с 2012.
Немного технических подробностей.
Web работает на фреймворке django.
Серверный бот первоначально был на python, но потом был переписан на golang, что дало 10x прирост скорости и смешном по сравнению с python потреблением памяти(так что, +1 к golang для своего серверного, сетевого софта).
Немного примеров, как можно использовать сервис кроме стандартного поиска по Google Analytics, Adsense и пр.
* Поиск лендингов.
Например, есть лендинг finkapro.ru. Вбиваем в поиск домен finkapro.ru и смотрим на имена полей форм.
email, name - эти имена слишком общие и могут встречаться в обычных формах. whatForm - а вот это имя более "уникальное". Кликаем по нему и получаем список сайтов (в данном случае лендингов), где это имя встречается.
* Часто вебмастера для удобного управления рекламой, слива трафика подгружают на страницы свой javascript код с домена-тдски. По данному домену можно найти остальные сайты/доры одного владельца.
* Поиск сайтов на wordpress, на joomla и пр.
* На сайтах, на которых стоит код тизернета, есть параметр обозначающий id площадки. Посмотрев этот id, можно отобрать нужные сайты для блеклиста/вайтлиста (не знаю как у тизернета устроена фильтрация, не покупал там траф). Пример 1 Пример 2 Пример 3
Контакты:
email,jabber: [email protected]
|
|
|
09.03.2015, 00:09
|
#12
|
Senior Member
Регистрация: 19.07.2014
Сообщений: 156
Бабло: $38184
|
сервис огонь. можно много чего спалить.
по поводу монетизаций по моему мало кто купит абонентку, может есть другие способы монетизаций?
"Показаны 10 записей из 211", остальные доступны по подписке или как?
+ сделай кнопку для перехода сразу на сайт (в списке сайтов иконку перехода и в карточке домена)
чтоб рефер не передовать можно через саповский редирект.
хttрs://123sdfsdfsdfsd.ru/r.html?r=httр://google.com
|
|
|
09.03.2015, 06:48
|
#13
|
n/a
Регистрация: 18.02.2009
Сообщений: 162
Бабло: $46620
|
хороший сервис.
Чем бот на python не угодил? Был на pycurl? Какая СУБД если не секрет?
|
|
|
09.03.2015, 07:07
|
#14
|
777
Регистрация: 21.09.2007
Сообщений: 1,406
Бабло: $304877
|
сервревый бот через прокси парсит?
|
|
|
09.03.2015, 10:55
|
#15
|
prospera
Регистрация: 03.01.2009
Сообщений: 882
Бабло: $198348
|
Цитата:
Сообщение от pepper
|
че сам тогда не замутишь?
походу тебе осталось кнопку оплаты поставить и все.
делов то? ))
|
|
|
09.03.2015, 16:36
|
#16
|
Senior Member
Регистрация: 04.06.2008
Сообщений: 466
Бабло: $172376
ТС -->
|
ТС
Цитата:
по поводу монетизаций по моему мало кто купит абонентку, может есть другие способы монетизаций?
"Показаны 10 записей из 211", остальные доступны по подписке или как?
|
Залогиненному пользователю показывается кнопка для экспорта результатов.
В меню пользователя "Отчёты" можно посмотреть сформированные отчёты и скачать их в архиве.
Есть лимит на количество результатов в отчёте(по умолчанию 20), на количество оставшихся отчётов и время до окончания подписки.
Вот вокруг этих параметров и подразумевается монетизация. В данный момент проверка подписки отключена, т.е. ограничения только в лимитах отчёта.
Если кто хочет, может мне стукнуть - подниму лимиты на потестить.
Цитата:
сервревый бот через прокси парсит?
|
Нет. Бот с UA firefox'а заходит.
Цитата:
Чем бот на python не угодил? Был на pycurl? Какая СУБД если не секрет?
|
Утечки памяти случаются, но тут я больше грешу на lxml, который используется для построения tree, и невалидный html.
Была обёртка для pycurl, был requests, был multiprocessing и threading. Субд - форк MySQL, MariaDB.
Цитата:
че сам тогда не замутишь?
походу тебе осталось кнопку оплаты поставить и все.
делов то? ))
|
По идее, оплата и тарифные планы, ну и может кое-какие мелкие доработки.
В первом посте писал.
|
|
|
09.03.2015, 21:14
|
#17
|
Senior Member
Регистрация: 05.08.2009
Сообщений: 423
Бабло: $94751
|
Цитата:
Сообщение от pepper
Утечки памяти случаются, но тут я больше грешу на lxml, который используется для построения tree, и невалидный html.
Была обёртка для pycurl, был requests, был multiprocessing и threading. Субд - форк MySQL, MariaDB.
|
Stream режим в requests не пробовал? Меня вроде спас от утечек при похожих задачах.
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит!
|
|
|
09.03.2015, 21:50
|
#18
|
Senior Member
Регистрация: 04.06.2008
Сообщений: 466
Бабло: $172376
ТС -->
|
ТС
Цитата:
Сообщение от ne0zx
Stream режим в requests не пробовал? Меня вроде спас от утечек при похожих задачах.
|
Да, этот режим всегда использую Уже не раз встречал "бесконечные" страницы с зацикленным выводом. Но, как писал выше, грешу на lxml. Я даже потом в самом скрипте делал проверку на резкое увеличение памяти и вручную пробовал вызывать сбощик мусора, но как-то не особо помогало
PHP код:
import gc
...
memsize = get_process_memory_usage()
if memsize > config.max_process_memory:
gc.collect()
|
|
|
10.03.2015, 00:56
|
#19
|
Senior Member
Регистрация: 27.09.2013
Сообщений: 697
Бабло: $101520
|
А в питоне при массовом парсинге и не поможет. GC в питоне хуевенький, циркулярные ссылки обрабатывает плохо, lxml течет. Надо запускать парсинг каждого сайта или даже страницы в отдельном процессе питона, на новую страницу запускать новый процесс. Затраты на запуск интерпретатора питона будут небольшими по сравнению со скачкой страниц. Память на каждый запущеный интерпретатор будет конечно отъедаться, но по крайней мере будет работать предсказуемо.
|
|
|
10.03.2015, 01:40
|
#20
|
Senior Member
Регистрация: 05.08.2009
Сообщений: 423
Бабло: $94751
|
Цитата:
Сообщение от editeur
А в питоне при массовом парсинге и не поможет. GC в питоне хуевенький, циркулярные ссылки обрабатывает плохо, lxml течет. Надо запускать парсинг каждого сайта или даже страницы в отдельном процессе питона, на новую страницу запускать новый процесс. Затраты на запуск интерпретатора питона будут небольшими по сравнению со скачкой страниц. Память на каждый запущеный интерпретатор будет конечно отъедаться, но по крайней мере будет работать предсказуемо.
|
Ага, сколько ни мучался с дебагом памяти, gc и т.д., понял что ничего особо не сделать с утечками. Но решение приемлемое более-менее нашел, схожее с описанным. Спавню воркеры с порцией задач по крону, пока хватает памяти\cpu.
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит!
Последний раз редактировалось ne0zx; 10.03.2015 в 01:45.
|
|
|
10.03.2015, 12:13
|
#21
|
Senior Member
Регистрация: 20.02.2015
Сообщений: 296
Бабло: $40755
|
что-то вы гоните.
монетизируется именно абонкой + кастом репортами.
проблема в том, что все эти сервисы - Г. Это на словах все выглядит классно. Самый неплохой индекс сейчас, на сколько мне известно, у нердидата. Но реальная их полезность - стремится к бесплатной версии симиларвеба или других сервисов, хоть тебе и запакупают ещё 50К сабов и попросят за них денег )
__________________
куплю ваш трафик - связь лс
|
|
|
|