Всем привет )
Недавно, в рамках конкурса на зеннолабе, запилил интересный парсер заголовков статей для сбора баз ключевиков под доры, решение вышло крайне любопытное и полезное, решил и тут поделиться, т.к. думаю, что здешнему народу оно больше нужно )
Краткая суть конвейера в том, что необходимо собрать A-Parser'ом ссылки по топ50-топ100 страниц, которые находятся в вашей нише, скормить эти ссылки в шаблон под зенку и он там с помощью магии C# выкачает все содержимое тегов title, og:title, twitter:title, h1, h2, h3, h4, h5, h6, очистит из первых трех названия сайтов, а из последних шести - все названия разделов и прочий хлам, который собрался вместе с необходимыми данными. Идея проста и интереса тем, что если у нас есть несколько ссылок с одного сайта, то с очень большой вероятностью мы можем удалить повторы, которые будут лишними (название сайта в заголовке или имена разделов).
Данный парсер я уже погонял по нишам, с которыми работаю, и собрал базы заголовков, которых нету ни в одной платной/бесплатной базе, т.к. практически все они очень чистые и написаны людьми, а не сгенерированы с помощью spintax
Жаль, что на гфб нельзя в BB-коде оформить табличку, поэтому попробую более-менее визуально красиво показать пример сбора базы по "pancakes" (блинчикам), которую я выкладывал на зеннолабе:
- Точное количество ссылок в базе: 33 769
- Количество строк для фильтрации: 0
- Уникальных доменов: 10 698
- Всего заголовков в базе (с повторами!): 428 450
- Получено заголовков в результате: 111 116
- Уникальных заголовков в результате: 97 771
- Уникальных заголовков, отфильтровано по "pancake": 26 710
- Количество выполнений шаблона в ZP: 80 906
- Размер SQLite базы: 45 МБ
- Примерное время работы: 8 часов
- Файл с запросами для парсинга урлов с гугла: https://yadi.sk/i/kbwTTnq73Sma8B
- Список урлов, спаршенных с гугла: https://yadi.sk/d/-mIJvsdX3SmaEX
- Итоговая sqlite база (можно открыть через SQLiteStudio): https://yadi.sk/d/78S54z0m3SmaHr
- Объединенные итоговые заголовки (с повторами): https://yadi.sk/i/SSvtoSe_3SmaMr
- Объединенные итоговые заголовки (без повторов): https://yadi.sk/i/jFmMobRg3SmaQw
- Объединенные итоговые заголовки (без повторов, отфильтровано по "pancake"): https://yadi.sk/i/i79qUOIj3SmaRe
- Заголовки по тегу title (с повторами): https://yadi.sk/i/lJyGRNmG3Smasp
- Заголовки по мета-тегу og:title (с повторами): https://yadi.sk/i/c3-ICK0B3Smaty
- Заголовки по мета-тегу twitter:title (с повторами): https://yadi.sk/i/QLRRKn9Y3SmayC
- Заголовки по тегу h1 (с повторами): https://yadi.sk/i/J0FMw6-P3Smb5D
- Заголовки по тегу h2 (с повторами): https://yadi.sk/i/nnz6ckH03Smb5h
- Заголовки по тегу h3 (с повторами): https://yadi.sk/i/YySKC2WE3Smb66
- Заголовки по тегу h4 (с повторами): https://yadi.sk/i/9-sOKsjy3Smb6k
- Заголовки по тегу h5 (с повторами): https://yadi.sk/i/yZHEuAyR3Smb7q
- Заголовки по тегу h6 (с повторами): https://yadi.sk/i/tqQ-TKwb3Smb8X
Да, конечно, не вышло без небольшой "ложки дегтя", но тут уж никак) Есть некоторые ограничения, которые влияют на язык для парсинга и скорость работы, но при должном желании их можно исправить самостоятельно, благо шаблон полностью откомментирован (я заебался писать комментарии практически к каждой строке кода
).
Если хотите затестить у себя или почитать подробнее об этом парсере под зенку - велкам (всё бесплатно): http://zennolab.com/discussion/threads/46636/
В первую очередь такой парсер можно юзать под читаемые заголовки/столбики/текстовку для доров, но и для белого сео будет полезно - можно собрать большую базу ключевиков, сделать хорошее семантическое ядро или кластеризовать запросы и юзать у себя на белом проекте. Вообщем, применения данному парсеру при желании можно найти много, к тому же он там настолько кастомизируем, что можете спарсить и meta description / meta keywords / strong / em / li и другие теги, только поменяв конфиг.