Конвейер ⃰ по парсингу баз ключевиков - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.2486
BTC/USD69013.1554
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 03.03.2018, 14:19   #1
Lord_Alfred
Хитрожопый
 
Аватар для Lord_Alfred
 
Регистрация: 15.07.2008
Сообщений: 599
Бабло: $93800
Lightbulb Конвейер ⃰ по парсингу баз ключевиков

Всем привет )

Недавно, в рамках конкурса на зеннолабе, запилил интересный парсер заголовков статей для сбора баз ключевиков под доры, решение вышло крайне любопытное и полезное, решил и тут поделиться, т.к. думаю, что здешнему народу оно больше нужно )

Краткая суть конвейера в том, что необходимо собрать A-Parser'ом ссылки по топ50-топ100 страниц, которые находятся в вашей нише, скормить эти ссылки в шаблон под зенку и он там с помощью магии C# выкачает все содержимое тегов title, og:title, twitter:title, h1, h2, h3, h4, h5, h6, очистит из первых трех названия сайтов, а из последних шести - все названия разделов и прочий хлам, который собрался вместе с необходимыми данными. Идея проста и интереса тем, что если у нас есть несколько ссылок с одного сайта, то с очень большой вероятностью мы можем удалить повторы, которые будут лишними (название сайта в заголовке или имена разделов).

Данный парсер я уже погонял по нишам, с которыми работаю, и собрал базы заголовков, которых нету ни в одной платной/бесплатной базе, т.к. практически все они очень чистые и написаны людьми, а не сгенерированы с помощью spintax

Жаль, что на гфб нельзя в BB-коде оформить табличку, поэтому попробую более-менее визуально красиво показать пример сбора базы по "pancakes" (блинчикам), которую я выкладывал на зеннолабе:
  • Точное количество ссылок в базе: 33 769
  • Количество строк для фильтрации: 0
  • Уникальных доменов: 10 698
  • Всего заголовков в базе (с повторами!): 428 450
  • Получено заголовков в результате: 111 116
  • Уникальных заголовков в результате: 97 771
  • Уникальных заголовков, отфильтровано по "pancake": 26 710​
  • Количество выполнений шаблона в ZP: 80 906
  • Размер SQLite базы: 45 МБ
  • Примерное время работы: 8 часов
  1. Файл с запросами для парсинга урлов с гугла: https://yadi.sk/i/kbwTTnq73Sma8B
  2. Список урлов, спаршенных с гугла: https://yadi.sk/d/-mIJvsdX3SmaEX
  3. Итоговая sqlite база (можно открыть через SQLiteStudio): https://yadi.sk/d/78S54z0m3SmaHr
  4. Объединенные итоговые заголовки (с повторами): https://yadi.sk/i/SSvtoSe_3SmaMr
  5. Объединенные итоговые заголовки (без повторов): https://yadi.sk/i/jFmMobRg3SmaQw
  6. Объединенные итоговые заголовки (без повторов, отфильтровано по "pancake"): https://yadi.sk/i/i79qUOIj3SmaRe
  7. Заголовки по тегу title (с повторами): https://yadi.sk/i/lJyGRNmG3Smasp
  8. Заголовки по мета-тегу og:title (с повторами): https://yadi.sk/i/c3-ICK0B3Smaty
  9. Заголовки по мета-тегу twitter:title (с повторами): https://yadi.sk/i/QLRRKn9Y3SmayC
  10. Заголовки по тегу h1 (с повторами): https://yadi.sk/i/J0FMw6-P3Smb5D
  11. Заголовки по тегу h2 (с повторами): https://yadi.sk/i/nnz6ckH03Smb5h
  12. Заголовки по тегу h3 (с повторами): https://yadi.sk/i/YySKC2WE3Smb66
  13. Заголовки по тегу h4 (с повторами): https://yadi.sk/i/9-sOKsjy3Smb6k
  14. Заголовки по тегу h5 (с повторами): https://yadi.sk/i/yZHEuAyR3Smb7q
  15. Заголовки по тегу h6 (с повторами): https://yadi.sk/i/tqQ-TKwb3Smb8X

Да, конечно, не вышло без небольшой "ложки дегтя", но тут уж никак) Есть некоторые ограничения, которые влияют на язык для парсинга и скорость работы, но при должном желании их можно исправить самостоятельно, благо шаблон полностью откомментирован (я заебался писать комментарии практически к каждой строке кода ).

Если хотите затестить у себя или почитать подробнее об этом парсере под зенку - велкам (всё бесплатно): http://zennolab.com/discussion/threads/46636/

В первую очередь такой парсер можно юзать под читаемые заголовки/столбики/текстовку для доров, но и для белого сео будет полезно - можно собрать большую базу ключевиков, сделать хорошее семантическое ядро или кластеризовать запросы и юзать у себя на белом проекте. Вообщем, применения данному парсеру при желании можно найти много, к тому же он там настолько кастомизируем, что можете спарсить и meta description / meta keywords / strong / em / li и другие теги, только поменяв конфиг.
__________________
Мой блог в Telegram: https://tglink.ru/Lord_Alfred
Тесты производительности VPS: https://tglink.ru/VPSBench - присылайте с рефкой

Последний раз редактировалось Lord_Alfred; 03.03.2018 в 14:27.
Lord_Alfred вне форума  
Старый 03.03.2018, 14:27   #2
AloneSlamer
Senior Member
 
Аватар для AloneSlamer
 
Регистрация: 06.12.2014
Сообщений: 1,291
Бабло: $220895
Отправить сообщение для AloneSlamer с помощью ICQ Отправить сообщение для AloneSlamer с помощью Skype™
По умолчанию

А почему в своей статье ты не упомянул такой замечательный софт как апарсер ? ))
AloneSlamer вне форума  
Старый 03.03.2018, 14:28   #3
Lord_Alfred
Хитрожопый
 
Аватар для Lord_Alfred
 
Регистрация: 15.07.2008
Сообщений: 599
Бабло: $93800
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от AloneSlamer Посмотреть сообщение
А почему в своей статье ты не упомянул такой замечательный софт как апарсер ? ))
Тебе ли не знать почему
__________________
Мой блог в Telegram: https://tglink.ru/Lord_Alfred
Тесты производительности VPS: https://tglink.ru/VPSBench - присылайте с рефкой
Lord_Alfred вне форума  
Старый 03.03.2018, 14:32   #4
AloneSlamer
Senior Member
 
Аватар для AloneSlamer
 
Регистрация: 06.12.2014
Сообщений: 1,291
Бабло: $220895
Отправить сообщение для AloneSlamer с помощью ICQ Отправить сообщение для AloneSlamer с помощью Skype™
По умолчанию

Цитата:
Сообщение от Lord_Alfred Посмотреть сообщение
Цитата:
Сообщение от AloneSlamer Посмотреть сообщение
А почему в своей статье ты не упомянул такой замечательный софт как апарсер ? ))
Тебе ли не знать почему
Моя то знать )

Но почему бы не приложить туда парсер гугла на запросах на шарпе тогда ?
AloneSlamer вне форума  
Старый 03.03.2018, 14:34   #5
Lord_Alfred
Хитрожопый
 
Аватар для Lord_Alfred
 
Регистрация: 15.07.2008
Сообщений: 599
Бабло: $93800
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от AloneSlamer Посмотреть сообщение
Но почему бы не приложить туда парсер гугла на запросах на шарпе тогда ?
Думал пильнуть такое и выложить, но в итоге не стал, т.к. мне проще заюзать другой софт и не тратить время на это, а кому нужно и кто не имеет а-парсера - могут самостоятельно запилить такой шаблон, хотя бы в рамках самообучения
__________________
Мой блог в Telegram: https://tglink.ru/Lord_Alfred
Тесты производительности VPS: https://tglink.ru/VPSBench - присылайте с рефкой
Lord_Alfred вне форума  
Старый 03.03.2018, 20:22   #6
AloneSlamer
Senior Member
 
Аватар для AloneSlamer
 
Регистрация: 06.12.2014
Сообщений: 1,291
Бабло: $220895
Отправить сообщение для AloneSlamer с помощью ICQ Отправить сообщение для AloneSlamer с помощью Skype™
По умолчанию

Цитата:
Сообщение от Lord_Alfred Посмотреть сообщение
Цитата:
Сообщение от AloneSlamer Посмотреть сообщение
Но почему бы не приложить туда парсер гугла на запросах на шарпе тогда ?
Думал пильнуть такое и выложить, но в итоге не стал, т.к. мне проще заюзать другой софт и не тратить время на это, а кому нужно и кто не имеет а-парсера - могут самостоятельно запилить такой шаблон, хотя бы в рамках самообучения
А почему не сделал сразу все на апарсере ?

Он такое умеет и думаю будет пошустрее зенки )
AloneSlamer вне форума  
Старый 03.03.2018, 20:23   #7
Lord_Alfred
Хитрожопый
 
Аватар для Lord_Alfred
 
Регистрация: 15.07.2008
Сообщений: 599
Бабло: $93800
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от AloneSlamer Посмотреть сообщение
А почему не сделал сразу все на апарсере ?

Он такое умеет и думаю будет пошустрее зенки )
Потому что это не реализовать на а-парсере ;-)
__________________
Мой блог в Telegram: https://tglink.ru/Lord_Alfred
Тесты производительности VPS: https://tglink.ru/VPSBench - присылайте с рефкой
Lord_Alfred вне форума  
Старый 03.03.2018, 20:53   #8
AloneSlamer
Senior Member
 
Аватар для AloneSlamer
 
Регистрация: 06.12.2014
Сообщений: 1,291
Бабло: $220895
Отправить сообщение для AloneSlamer с помощью ICQ Отправить сообщение для AloneSlamer с помощью Skype™
По умолчанию

Цитата:
Сообщение от Lord_Alfred Посмотреть сообщение
Цитата:
Сообщение от AloneSlamer Посмотреть сообщение
А почему не сделал сразу все на апарсере ?

Он такое умеет и думаю будет пошустрее зенки )
Потому что это не реализовать на а-парсере ;-)
А почему нет ? Forbidden

Цитата:
Сообщение от Lord_Alfred Посмотреть сообщение
Цитата:
Сообщение от AloneSlamer Посмотреть сообщение
А почему не сделал сразу все на апарсере ?

Он такое умеет и думаю будет пошустрее зенки )
Потому что это не реализовать на а-парсере ;-)
А почему нет ? @Forbidden
AloneSlamer вне форума  
Старый 04.03.2018, 10:24   #9
Forbidden
Senior Member
 
Аватар для Forbidden
 
Регистрация: 23.10.2007
Сообщений: 258
Бабло: $43299
По умолчанию

Цитата:
Сообщение от AloneSlamer
А почему нет ? Forbidden
все можно, особенно то что описано в статье, но тогда топикстартер не попал бы в зенно-конкурс
Forbidden вне форума  
Старый 04.03.2018, 11:49   #10
Lord_Alfred
Хитрожопый
 
Аватар для Lord_Alfred
 
Регистрация: 15.07.2008
Сообщений: 599
Бабло: $93800
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Forbidden Посмотреть сообщение
все можно, особенно то что описано в статье, но тогда топикстартер не попал бы в зенно-конкурс
В апарсере же нельзя получить доступ ко всему списку запросов, можно получить только текущий запрос, разве я не прав?
__________________
Мой блог в Telegram: https://tglink.ru/Lord_Alfred
Тесты производительности VPS: https://tglink.ru/VPSBench - присылайте с рефкой
Lord_Alfred вне форума