Конвейер ⃰ по парсингу баз ключевиков - Форум успешных вебмастеров

Lord_Alfred · 03.03.2018, 14:19

Всем привет )

Недавно, в рамках конкурса на зеннолабе, запилил интересный парсер заголовков статей для сбора баз ключевиков под доры, решение вышло крайне любопытное и полезное, решил и тут поделиться, т.к. думаю, что здешнему народу оно больше нужно )

Краткая суть конвейера в том, что необходимо собрать A-Parser'ом ссылки по топ50-топ100 страниц, которые находятся в вашей нише, скормить эти ссылки в шаблон под зенку и он там с помощью магии C# выкачает все содержимое тегов title, og:title, twitter:title, h1, h2, h3, h4, h5, h6, очистит из первых трех названия сайтов, а из последних шести - все названия разделов и прочий хлам, который собрался вместе с необходимыми данными. Идея проста и интереса тем, что если у нас есть несколько ссылок с одного сайта, то с очень большой вероятностью мы можем удалить повторы, которые будут лишними (название сайта в заголовке или имена разделов).

Данный парсер я уже погонял по нишам, с которыми работаю, и собрал базы заголовков, которых нету ни в одной платной/бесплатной базе, т.к. практически все они очень чистые и написаны людьми, а не сгенерированы с помощью spintax

Жаль, что на гфб нельзя в BB-коде оформить табличку, поэтому попробую более-менее визуально красиво показать пример сбора базы по "pancakes" (блинчикам), которую я выкладывал на зеннолабе:

Точное количество ссылок в базе: 33 769
Количество строк для фильтрации: 0
Уникальных доменов: 10 698
Всего заголовков в базе (с повторами!): 428 450
Получено заголовков в результате: 111 116
Уникальных заголовков в результате: 97 771
Уникальных заголовков, отфильтровано по "pancake": 26 710
Количество выполнений шаблона в ZP: 80 906
Размер SQLite базы: 45 МБ
Примерное время работы: 8 часов

Файл с запросами для парсинга урлов с гугла: https://yadi.sk/i/kbwTTnq73Sma8B
Список урлов, спаршенных с гугла: https://yadi.sk/d/-mIJvsdX3SmaEX
Итоговая sqlite база (можно открыть через SQLiteStudio): https://yadi.sk/d/78S54z0m3SmaHr
Объединенные итоговые заголовки (с повторами): https://yadi.sk/i/SSvtoSe_3SmaMr
Объединенные итоговые заголовки (без повторов): https://yadi.sk/i/jFmMobRg3SmaQw
Объединенные итоговые заголовки (без повторов, отфильтровано по "pancake"): https://yadi.sk/i/i79qUOIj3SmaRe
Заголовки по тегу title (с повторами): https://yadi.sk/i/lJyGRNmG3Smasp
Заголовки по мета-тегу og:title (с повторами): https://yadi.sk/i/c3-ICK0B3Smaty
Заголовки по мета-тегу twitter:title (с повторами): https://yadi.sk/i/QLRRKn9Y3SmayC
Заголовки по тегу h1 (с повторами): https://yadi.sk/i/J0FMw6-P3Smb5D
Заголовки по тегу h2 (с повторами): https://yadi.sk/i/nnz6ckH03Smb5h
Заголовки по тегу h3 (с повторами): https://yadi.sk/i/YySKC2WE3Smb66
Заголовки по тегу h4 (с повторами): https://yadi.sk/i/9-sOKsjy3Smb6k
Заголовки по тегу h5 (с повторами): https://yadi.sk/i/yZHEuAyR3Smb7q
Заголовки по тегу h6 (с повторами): https://yadi.sk/i/tqQ-TKwb3Smb8X

Да, конечно, не вышло без небольшой "ложки дегтя", но тут уж никак) Есть некоторые ограничения, которые влияют на язык для парсинга и скорость работы, но при должном желании их можно исправить самостоятельно, благо шаблон полностью откомментирован (я заебался писать комментарии практически к каждой строке кода

).

Если хотите затестить у себя или почитать подробнее об этом парсере под зенку - велкам (всё бесплатно): http://zennolab.com/discussion/threads/46636/

В первую очередь такой парсер можно юзать под читаемые заголовки/столбики/текстовку для доров, но и для белого сео будет полезно - можно собрать большую базу ключевиков, сделать хорошее семантическое ядро или кластеризовать запросы и юзать у себя на белом проекте. Вообщем, применения данному парсеру при желании можно найти много, к тому же он там настолько кастомизируем, что можете спарсить и meta description / meta keywords / strong / em / li и другие теги, только поменяв конфиг.

AloneSlamer · 03.03.2018, 14:27

А почему в своей статье ты не упомянул такой замечательный софт как апарсер ? ))

Lord_Alfred · 03.03.2018, 14:28

Цитата:

Сообщение от AloneSlamer

А почему в своей статье ты не упомянул такой замечательный софт как апарсер ? ))

Тебе ли не знать почему

AloneSlamer · 03.03.2018, 14:32

Цитата:

Сообщение от Lord_Alfred

Цитата:

Сообщение от AloneSlamer

А почему в своей статье ты не упомянул такой замечательный софт как апарсер ? ))

Тебе ли не знать почему

Моя то знать )

Но почему бы не приложить туда парсер гугла на запросах на шарпе тогда ?

Lord_Alfred · 03.03.2018, 14:34

Цитата:

Сообщение от AloneSlamer

Но почему бы не приложить туда парсер гугла на запросах на шарпе тогда ?

Думал пильнуть такое и выложить, но в итоге не стал, т.к. мне проще заюзать другой софт и не тратить время на это, а кому нужно и кто не имеет а-парсера - могут самостоятельно запилить такой шаблон, хотя бы в рамках самообучения

AloneSlamer · 03.03.2018, 20:22

Цитата:

Сообщение от Lord_Alfred

Цитата:

Сообщение от AloneSlamer

Но почему бы не приложить туда парсер гугла на запросах на шарпе тогда ?

Думал пильнуть такое и выложить, но в итоге не стал, т.к. мне проще заюзать другой софт и не тратить время на это, а кому нужно и кто не имеет а-парсера - могут самостоятельно запилить такой шаблон, хотя бы в рамках самообучения

А почему не сделал сразу все на апарсере ?

Он такое умеет и думаю будет пошустрее зенки )

Lord_Alfred · 03.03.2018, 20:23

Цитата:

Сообщение от AloneSlamer

А почему не сделал сразу все на апарсере ?

Он такое умеет и думаю будет пошустрее зенки )

Потому что это не реализовать на а-парсере ;-)

AloneSlamer · 03.03.2018, 20:53

Цитата:

Сообщение от Lord_Alfred

Цитата:

Сообщение от AloneSlamer

А почему не сделал сразу все на апарсере ?

Он такое умеет и думаю будет пошустрее зенки )

Потому что это не реализовать на а-парсере ;-)

А почему нет ? Forbidden

Цитата:

Сообщение от Lord_Alfred

Цитата:

Сообщение от AloneSlamer

А почему не сделал сразу все на апарсере ?

Он такое умеет и думаю будет пошустрее зенки )

Потому что это не реализовать на а-парсере ;-)

А почему нет ? @Forbidden

Forbidden · 04.03.2018, 10:24

Цитата:

Сообщение от AloneSlamer

А почему нет ? Forbidden

все можно, особенно то что описано в статье, но тогда топикстартер не попал бы в зенно-конкурс

Lord_Alfred · 04.03.2018, 11:49

Цитата:

Сообщение от Forbidden

все можно, особенно то что описано в статье, но тогда топикстартер не попал бы в зенно-конкурс

В апарсере же нельзя получить доступ ко всему списку запросов, можно получить только текущий запрос, разве я не прав?