Актуальная регулярка для гугла - Форум успешных вебмастеров - GoFuckBiz.com - Страница 4
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB89.2589
BTC/USD68480.5436
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 21.03.2012, 17:16
Start Post: Актуальная регулярка для гугла 
  #31
Rombl4
Ромыч
 
Аватар для Rombl4
 
Регистрация: 16.07.2008
Сообщений: 1,293
Бабло: $154950
По умолчанию

Накатайте кто-нибудь регулярку для парсинга урлов гугла. Запарился ее уже подбирать самостоятельно.
Rombl4 вне форума  
Старый 22.03.2012, 22:49   #32
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,348
Бабло: $470735
По умолчанию

Цитата:
Сообщение от dancer Посмотреть сообщение
ну так я поэтому и спрашиваю примеры уже 2 раза
тут речь вообще-то о сложностях парсинга гугла, ввиду его "сложной" выдачи, а не о каких то там эфимерных "нуждах"
ты почитай сначала, прежде чем врываться то. Ёпта! alcy:
проблема ТС была решена на первой странице. Дальше пошел флуд, в том числе и мой. Я заговорил с нинзей о философии парсинга.
http://gofuckbiz.com/showpost.php?p=634096&postcount=18 - вот, например, про парсинг телефонов, емейлов и тд - это не про гугл. дальше я написал про дом.

И тут ты пишешь:
Цитата:
Сообщение от dancer Посмотреть сообщение
а что, регулярки к дому не применимы уже?
сам факт, что ты написал эту фразу именно так - уже говорит о твоей не компетенции в вопросах парсинга. Ты не понимаешь смысл терминов, которыми оперируешь.
Я тебе несколько раз сказал, что все мои сообщения были про парсинг, про его основы, теорию и тд. А не про то, что "сеошники" привыкли называть парсингом.

Цитата:
Сообщение от dancer Посмотреть сообщение
да ты не слюнями брызгай, а моск включи свой уже. модель эта состоит из элементов, которые созданы для того, чтобы за них цепляться жабоскриптами и регулярками.
1) элементы не создаются для того, чтобы за них цеплялись. Они создаются/существуют сами по себе, вне зависимости от целей парсинга. Это важно. И не элементы, а объекты. Это не важно
2) Технически невозможно "цепляться регулярками" за объекты

пусть я придрался к этому еще раз, но ты, видимо, эту разницу не улавливаешь.

и я так понял тебе не интересно вникать в смысл моих слов. Возможно, это моя вина и я мало говорю слово хуй

Цитата:
Сообщение от dancer Посмотреть сообщение
ну так я дождусь уже примера то или ты так и будешь заумную хуйню нести?
и покажи мне конкретное место, которые ты спарсить не можешь
да: получи продукты парсинга контента(html код): весь контент без содержимого тегов ul/ol/li/head/div/p/....тут можно перечислять любые теги. Задачу решать в общем виде для произвольной веб-страницы. В google-serp также можно найти интересные сочетания тегов, которые вызовут нерешаемые проблемы. Поэтому можно сказать, что парсим гугл тоже.
Невозможно сделать однопроходный регулярный парсер для этой задачи. Можно не пробовать даже, а то попробуешь, напишешь а окажется, что ты написал много-проходный со сложностью O(N^M)

Offtopic
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 22.03.2012, 23:16   #33
dancer
Ебланнед
 
Регистрация: 29.02.2012
Сообщений: 11
Бабло: $14315
По умолчанию

бля, chesser, опять ты воды налил
Цитата:
сам факт, что ты написал эту фразу именно так - уже говорит о твоей не компетенции в вопросах парсинга. Ты не понимаешь смысл терминов, которыми оперируешь.
Я тебе несколько раз сказал, что все мои сообщения были про парсинг, про его основы, теорию и тд. А не про то, что "сеошники" привыкли называть парсингом.
вариант, что это ты не понял фразу и не можешь уяснить элементарные вещи - не канает? ну ок, тада ты прав, да

вообще, вот нахуя ты влез со своей водой, а?
хотя бы на этот вопрос сможешь ответить без воды?

забей, он риторический.

там человек писал:
Цитата:
Сообщение от WebNinja Посмотреть сообщение
html не поддается разбору регулярными выражениями!

html - не регулярная грамматика, а регулярные выражения парсят только регулярные.

сейчас не 2007 год парсить гугл регулярками нормально не получится.

но у гугла щаз слишком сложная выдача чтобы там было удобно работать регулярками.
я смотрю в выдачу гугла, куча зацепок - парси хоть побуквенно, спрашиваю - в чём сложность?
тут влетаешь ты блять со своими вёдрами: "философия парсинга", "классический парсинг", "регулярные грамматики", DOM парсить нельзя, xml парсить нельзя, html парсить нельзя (вообще в принципе), "я всё знаю, ты нихуя не знаешь, нихуя ты не понимаешь всю сложность парсинга гугла и нихуя не поймёшь"..
другими словами: наливаешь ёбаное озеро ВОДЫ на 10 экранов ниачём вообще.

тебе простой вопрос задают - ГДЕ, в каком блять МЕСТЕ у тебя вызывает сложность парсинга гугла.. ну раз уж ты влёз то туда, где тебя не спрашивали вообще, ну так давай уже до конца иди и покажи КОНКРЕТНОЕ место.
спрашивал я вообще другого человека, хоть я и не обращался конкретно к нему, но влез ты.
тот человек оказался вообще неадекватной школотой, у тебя сказать нечего по теме абсолютно.
получается, что тема утонула в озере "тут не умеют парсить HTML"
ну и хуй с ней.

Цитата:
Сообщение от chesser Посмотреть сообщение
Offtopic
Offtopic
dancer вне форума  
Старый 22.03.2012, 23:31   #34
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,891
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

DOM он парсит регулярками, ну молодец, чо.

Offtopic
__________________
www.imscraping.ninja
grablab.org | blog

Последний раз редактировалось Moderator; 23.03.2012 в 13:22.
WebNinja вне форума  
Старый 22.03.2012, 23:44   #35
Credo
Senior Member
 
Регистрация: 11.04.2007
Сообщений: 371
Бабло: $58903
По умолчанию

вы слишком усложнили примитивную задачу по парсингу гугля для нужд "пересічного" сеошника

ну поменяет он формат выдачи.. регулярку подправил и все. за последние пару лет, я регулярку может 2 раза правил ))
Credo вне форума  
Старый 23.03.2012, 00:39   #36
inkubus
Senior Member
 
Аватар для inkubus
 
Регистрация: 11.02.2010
Сообщений: 928
Бабло: $176835
По умолчанию

срачЪ между программистами для меня самый интересный т.к. обычно конструктивный
продолжайте пожалуйста, не только вам интересно
inkubus вне форума