Aura Proff: релиз нового SE Parser'a - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Реклама и анонсы партнерок и сервисов
Дата
USD/RUB93.4409
BTC/USD66573.3810
Реклама и анонсы партнерок и сервисов Анонсы партнерских программ и реклама полезных сервисов.

Закрытая тема
Опции темы Опции просмотра
Старый 25.02.2008, 16:08   #1
Dmi
Senior Member
 
Регистрация: 25.02.2008
Сообщений: 208
Бабло: $30875
Отправить сообщение для Dmi с помощью Telegram
Thumbs up Aura Proff: релиз нового SE Parser'a

Долгожданный релиз парсера
Скрипт абсолютно новый.
Ядро скрипта написано на языке - python.
Админка, для удобства устaновки на php.

Скрипт логически разделен на два типа: парсинг и фильтрации.

Модули парсинга:
Google: 1000 результатов с запроса, 100 страниц на выдаче, использование разных data центров.
Yahoo: 1000 результатов с запроса, 10 страниц на выдаче.
Yahoo site explorer: 1000 результатов с запроса, 100 страниц на выдаче. Операторы: link, linkdomain, site
Live: 1000 результатов с запроса, 200 страниц на выдаче.
Все модули поддерживают:
- многопоточность;
- парсинг с прокси, задержкой;
- маскировка под сотни браузеров;
- gzip сжатие (увеличивает скорость и снижает потребление трафика);
- все операторы языка запросов для каждого поисковика;
- возможность использовать любые языки для составления запросов;
- удаление дубликатов по домену и по строке;
- полное логирование всех действий.

Модули фильтрации:
Regexp match: Выборка url'ов по регулярным выражениям, возможность замены подстроки.
Ping: Отбирает url'ы по статусу ответа 200, 301, 302 и т.д.
PR: Производит выборку url'ов по google page rank.
Scan: Сканирует ресурсы на предмет вхождения искомой строки (регулярного выражения).
Все модули поддерживают:
- многопоточность (для некоторых не актуальна);
- полное логирование всех действий.

Кроме того:
Четкое разделение заданий: парсинг и фильтрация.
Система запросов и подзапросов (доп. запросов).
Легкое внедрение вариаторов - им может быть любой фаил.
Система профайлов.
Средство для роботы с файлами;
В скрипт встроено средство для роботы с прокси.
Его возможности:
- cкачивание прокси с url'ов;
- многопоточная проверка на активность - пинг;
- запуск вручную и через cron;

Требования:
- unix подобная ос - linux, freebsd, mac os и т.д.
- php 4.х или 5.х с необходимыми директивами php.ini (проверяются скриптом);
- python, желательно последней версии - 2.5.1;
- apache 1.3.x или 2.x.x;
- браузер для управления (рекомендуется firefox, opera, safari).

Цены:

Основной системный модуль (движок): 70$

Модули парсинга:
Google: 20$
Yahoo: 20$
Yahoo site explorer: 25$
Live: 25$

Модули фильтрации:
Regexp match: 20$
Ping: 20$
Check PR: 25$
Scan for match: 25$

Для старых клиентов бонус: модули, которые у вас были - бесплатно (кроме системного)
Для владельцев dmii доргена скидка 15%.

Контакты:
e-mail: aura.proff at gmail dot com
сайт проекта: http://auraproff.biz

Последний раз редактировалось Dmi; 07.09.2008 в 17:15.
Dmi вне форума  
Старый 25.02.2008, 17:07   #2
kiwi
Senior Member
 
Регистрация: 30.03.2007
Сообщений: 13,553
Бабло: $22677065
По умолчанию

чочо потестить?
kiwi вне форума  
Старый 25.02.2008, 19:45   #3
Jordan
DINAmo
 
Аватар для Jordan
 
Регистрация: 26.08.2007
Сообщений: 117
Бабло: $21140
По умолчанию

Да, не помешало бы кому-то потестить и отписаться, т.к. Аура 2 так толком и не работала, и не у меня одного.
__________________
Jordan вне форума  
Старый 25.02.2008, 23:46   #4
Barbados
Senior Member
 
Аватар для Barbados
 
Регистрация: 01.02.2008
Адрес: Perm
Сообщений: 627
Бабло: $18225
По умолчанию

Python стандартные модули использует? Всмысле не придется pycurl напр. ставить?
Barbados вне форума  
Старый 26.02.2008, 11:10   #5
Dmi
Senior Member
 
Регистрация: 25.02.2008
Сообщений: 208
Бабло: $30875
ТС -->
Отправить сообщение для Dmi с помощью Telegram
автор темы ТС По умолчанию

1. Парсер все стандартное использует, ставить ничего не надо,
толькос сам python если его нет.
2. Протестить - пожалуйста. Вообще:
Если у кого были проблемы с предыдущими версиями - на период теста парсер можно бесплатно, а потом уже решать oб обновлении. Главной проблемой было то что тот софт был не мой, в отличии от aura proff. С автором оригинала связаться с осени нельзя
Dmi вне форума  
Старый 26.02.2008, 11:24   #6
Dmi
Senior Member
 
Регистрация: 25.02.2008
Сообщений: 208
Бабло: $30875
ТС -->
Отправить сообщение для Dmi с помощью Telegram
автор темы ТС По умолчанию

Люди постоянно спрашивают о нагрузке.
Python большего всего грузит virtual memory.
Вот скрин 100 потков, парсинг с прокси гугла:
http://picasaweb.google.com/aura.pro...92343781806610
Dmi вне форума  
Старый 06.03.2008, 20:45   #7
Dmi
Senior Member
 
Регистрация: 25.02.2008
Сообщений: 208
Бабло: $30875
ТС -->
Отправить сообщение для Dmi с помощью Telegram
автор темы ТС По умолчанию

Готово первое обновление парсера.

Основные изменения

- Увеличилась “интеллектуальность” парсинга: скрипт в процессе работы определяет перспективность запросов, например, если по запросу blabla нет результатов, то и их и не будет на blabla site:com; более глубоко распознает ответы поисковиков, что помогает ускорить парсинг.

- В связи с этим - более подробное логирование, а так же конечный анализ парсинга, где определяется скорость, качество запросов и эффективность прокси.

- По окончанию процесса как парсинга, так и фильтрации, скрипт посылает оповещение на e-mail (это и было в первой версии, но не было упомянуто)

- Модуль Scan был существенно обновлен: теперь скрипт может проследовать по ссылкам на странице, и, если новые страницы подходят по критерию поиска - добавить их; критерий отбора ссылок для изучения задается регулярным выражением, что в совокупности дает отличный инструмент для поиска чего либо на сайте, например форм.

- В панели управления добавлены инструменты для работы с файлами, такие как соединение, разделение, уникализация файлов, удаление по подмаске и др.

- Исправлены недочеты, обновлен установщик.

Так же появился новый модуль/бонус: Snipets - он собирает первые 100 снипетов у гугла по запросу; модуль бесплатный, для тех у кого есть модуль Google.

Обновление доступно клиентам: для получении новой версии нужно нажать большую серую кнопку Download в зоне для клиентов
Dmi вне форума  
Старый 30.03.2008, 20:19   #8
Dmi
Senior Member
 
Регистрация: 25.02.2008
Сообщений: 208
Бабло: $30875
ТС -->
Отправить сообщение для Dmi с помощью Telegram
автор темы ТС По умолчанию

Закончено очередное обновление парсера

1. Введены подробные настройки для каждого модуля фильтрации и парсинга.

2. Проверка PR возможна с прокси, введены соответствующие настройки.

3. Обновлен скрипт сбора прокси, теперь он может работать с очень большим количеством прокси.

4. Установщик скрипта стал более гибок и универсален.

Готовится большое обновление, изменения коснуться парсинга, а так же будет создан новый модуль Trust - траст чекер.
Dmi вне форума  
Старый 30.03.2008, 22:11   #9
DAnik
Member
 
Аватар для DAnik
 
Регистрация: 08.05.2007
Сообщений: 60
Бабло: $2725
По умолчанию

Цитата:
Сообщение от Jordan Посмотреть сообщение
Да, не помешало бы кому-то потестить и отписаться, т.к. Аура 2 так толком и не работала, и не у меня одного.
скрипт полная противоположность ауре 2.
DAnik вне форума  
Старый 30.03.2008, 23:44   #10
Mr. Style
Forever Young
 
Аватар для Mr. Style
 
Регистрация: 01.10.2007
Сообщений: 2,502
Бабло: $644647
Exclamation

Цитата:
Сообщение от DAnik Посмотреть сообщение
скрипт полная противоположность ауре 2.
Да и DMI - тоже полная противоположность Synthetix'у, который оказался безответственным человеком.
__________________
Stimul-Cash и RX-Partners - лидеры фарма бизнеса!
Фарма Блог №1 - Мега акция "Спалил тему - платим смело!"
Mr. Style вне форума