Цитата:
Сообщение от digg
выходит, что гугловский парсер хтмл страниц тупо по банальной регулярке хуярит? href="|'
|
Как устроен парсер не знаю, но если посмотреть гуглёвские патенты на тему учёта ссылок, возникает мысль, что Гугль - сука хитрая.
Есть патент Google 2004 года "
Ranking documents based on user behavior and/or feature data"
(осторожно, английский), который описывает модель “reasonable surfer” (разумный серфер).
Согласно этого патента, ссылки могут передавать разный вес в зависимости от:
- их кликабельности (данные берутся из браузера, плагинов к браузеру, тулбаров, G.Аналитики)
- от размера шрифта и цвета ссылки
- числа слов в анкоре ссылки
- фактических слов в якоре и степени их "коммерции" (ссылки "Лицензионное соглашение" и "разработано в веб-студии XXX") передают меньший вес, чем ссылка "скачать программу"
- текстовая ссылка или ссылка-картинка
- текста до и после ссылки
- ведёт ли ссылка на этот же хост или домен
- степени соответствия тематики анкора ссылки, текста документа и кластера, в котором находится документ.
источник на английском
PS: Так, что на примитивную регулярку я бы не надеялся. Тем более, что даже браузер сам добавляет тэги <html> и <head> если они пропущены в документе.
А по теме топика - желающие могут
посмотреть результаты эксперимента Деваки, только именно посмотреть и проанализировать, а не прочитать описание, тк с 2009 года многое изменилось.