Глюки при парсинге - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.4409
BTC/USD63870.2868
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 10.04.2008, 10:53   #1
pina
хде мой компот?!
 
Регистрация: 07.01.2008
Сообщений: 327
Бабло: $31276
Отправить сообщение для pina с помощью ICQ
По умолчанию Глюки при парсинге

Странная хня, вроде бы все правильно с моей точки зрения... но не работает

<?php
$data=file_get_contents('http://epavel.ru/blog/fid-dorgen/');
preg_match_all('|<body(.*)>(.*)</body>|isU', $data, $data2);// выдираем тело документа
print '<pre>';
print_r($data2);
?>

Глюк заключается в том что выводит пустой массив...
Если открыть страницу http://epavel.ru/blog/fid-dorgen/ в браузере и сохранить исходный код в какой нить файл, и уже его парсить - все ок...

PS: Я за Пашей не гоняюсь просто когда тестил один скриптик, он запаролся как раз на этой странице...
pina вне форума  
Старый 10.04.2008, 11:08   #2
proc3nt
el patron
 
Аватар для proc3nt
 
Регистрация: 17.04.2007
Сообщений: 486
Бабло: $2147483647
Отправить сообщение для proc3nt с помощью ICQ
По умолчанию

file_get_contents - уверен что эта функция работает верно, не лучше ли забирать контент страницы через сокеты, имхо надежнее
__________________
15+ лет на гофаке, хранитель традиций, летописец, легенда
proc3nt вне форума  
Старый 10.04.2008, 11:20   #3
pina
хде мой компот?!
 
Регистрация: 07.01.2008
Сообщений: 327
Бабло: $31276
ТС -->
Отправить сообщение для pina с помощью ICQ
автор темы ТС По умолчанию

<?php
$data=file_get_contents('http://epavel.ru/blog/fid-dorgen/');
print $data;
preg_match_all('|<body(.*)>(.*)</body>|isU', $data, $data2);// выдираем тело документа
print '<pre>';
print_r($data2);
?>
Контент забирает... В чем проблема не пойму? На других сайтах работает и все ок...
pina вне форума  
Старый 10.04.2008, 11:21   #4
deschain
Senior Member
 
Аватар для deschain
 
Регистрация: 01.11.2007
Сообщений: 2,269
Бабло: $288535
По умолчанию

Сделай
echo $data;
и посмотри, что тебе выдаст.

и error_log посмотри, кстати.
deschain вне форума  
Старый 10.04.2008, 11:36   #5
pina
хде мой компот?!
 
Регистрация: 07.01.2008
Сообщений: 327
Бабло: $31276
ТС -->
Отправить сообщение для pina с помощью ICQ
автор темы ТС По умолчанию

В логе все нормально.

Злая мысль меня посетила... может глюк в кодировках?
pina вне форума  
Старый 10.04.2008, 14:49   #6
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

трендсы у епавла парсишь? =)
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 10.04.2008, 17:01   #7
pina
хде мой компот?!
 
Регистрация: 07.01.2008
Сообщений: 327
Бабло: $31276
ТС -->
Отправить сообщение для pina с помощью ICQ
автор темы ТС По умолчанию

По его рецепту трендсы я делал, получилось вкусно

Но сейчас дело не в этом, это просто единичный случай парсинга, при котором вылетает ошибка... Когда парсинг уйдет на полный автомат я не смогу отслеживать ошибки, и могут появиться глюки в работе парсера...

Надо понять, почему не срабатывает регулярное выражение...
pina вне форума  
Старый 10.04.2008, 18:42   #8
smsm
Member
 
Аватар для smsm
 
Регистрация: 20.05.2007
Сообщений: 60
Бабло: $6715
По умолчанию

может это наглость, а я этого не понял?
нихуя несмешно.
smsm вне форума  
Старый 10.04.2008, 19:08   #9
pina
хде мой компот?!
 
Регистрация: 07.01.2008
Сообщений: 327
Бабло: $31276
ТС -->
Отправить сообщение для pina с помощью ICQ
автор темы ТС По умолчанию

ты про что? какая наглость? и где должно быть смешно?
pina вне форума  
Старый 10.04.2008, 19:14   #10
smsm
Member
 
Аватар для smsm
 
Регистрация: 20.05.2007
Сообщений: 60
Бабло: $6715
По умолчанию

после слова "лопата".
в аську стукнись.
smsm вне форума