Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.9640
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 12.04.2011, 05:32   #1
παφ
накидка-антиблик адидас
 
Аватар для παφ
 
Регистрация: 20.11.2010
Сообщений: 2,153
Бабло: $361580
По умолчанию Вытащить урлы из страницы

Мужики такой вопрос, есть сохраненая страница html в ней куча тегов и прочего мусора.
Хотелось бы из тегов что ниже, вытащить все урлы
Цитата:
<a target="_new" href="http://site1.com">Go!</a>
<a target="_new" href="http://site2.com">Go!</a>
Как реализовать чтобы все урлы
http://site1.com
http://site2.com
Легли в отдельный текстовичек? Очень нужно, спасибо
παφ вне форума  
Старый 12.04.2011, 05:46   #2
xcrew
Senior Member
 
Регистрация: 25.06.2009
Сообщений: 807
Бабло: $135565
По умолчанию

вчера как раз подобную задачу решал=)
Код:
function get_link($text)
{
    $count = preg_match_all("/<a[^>]+href=([\"']?)([^\\s\"'>]+)\\1/is", $text, $matches, PREG_SET_ORDER);
	//print_r($matches);
	for($i=0; $i < count($matches); $i++) {
           print $matches[$i][2]."<br>";
        } 
    return $matches;
}
xcrew вне форума  
Старый 12.04.2011, 05:50   #3
sydoow
Senior Member
 
Аватар для sydoow
 
Регистрация: 26.09.2008
Сообщений: 3,918
Бабло: $488249
Отправить сообщение для sydoow с помощью ICQ Отправить сообщение для sydoow с помощью Skype™
По умолчанию

В проге TextPipe есть такая функция, вроде, называется чтото типа "извлечь все урлы"
sydoow вне форума  
Старый 12.04.2011, 13:49   #4
παφ
накидка-антиблик адидас
 
Аватар для παφ
 
Регистрация: 20.11.2010
Сообщений: 2,153
Бабло: $361580
ТС -->
автор темы ТС По умолчанию

Спасибо, выручили
παφ вне форума  
Старый 13.04.2011, 20:52   #5
crunchar
Member
 
Регистрация: 27.02.2009
Сообщений: 33
Бабло: $9285
По умолчанию

aggress parser'ом тоже можно.
а так, действительно, TextPipe рулит, всем советую для обработки больших и не только файлов
crunchar вне форума  
Старый 13.04.2011, 21:09   #6
I love this game
Fuck Yeah
 
Аватар для I love this game
 
Регистрация: 08.10.2009
Адрес: Ghetto
Сообщений: 2,653
Бабло: $1426649
Отправить сообщение для I love this game с помощью ICQ
По умолчанию

Эксель
I love this game вне форума  
Старый 13.04.2011, 21:25   #7
benzole
Senior Member
 
Аватар для benzole
 
Регистрация: 25.06.2007
Сообщений: 1,493
Бабло: $490772
По умолчанию

есть хороший плагин для ФФ - https://addons.mozilla.org/en-us/fir...n/link-gopher/
__________________
Talitha kumi!
benzole вне форума  
Старый 13.04.2011, 21:42   #8
παφ
накидка-антиблик адидас
 
Аватар для παφ
 
Регистрация: 20.11.2010
Сообщений: 2,153
Бабло: $361580
ТС -->
автор темы ТС По умолчанию

Спасибо, воспользовался TextPipe, а можно узнать каким образом из сорца хтмл страницы выдрать урлы с помощью экселя?
παφ вне форума  
Старый 13.04.2011, 22:05   #9
RedHead
Senior Member
 
Аватар для RedHead
 
Регистрация: 26.08.2008
Адрес: UA
Сообщений: 2,946
Бабло: $402755
По умолчанию

извлекаю такой регуляркой:
Цитата:
preg_match_all("/<[Aa][ rnt]{1}[^>]*[Hh][Rr][Ee][Ff][^=]*=[ '\"nrt]*([^ \"'>rnt#]+)[^>]*>/",$response,$urls);
RedHead вне форума  
Старый 13.04.2011, 22:48   #10
παφ
накидка-антиблик адидас
 
Аватар для παφ
 
Регистрация: 20.11.2010
Сообщений: 2,153
Бабло: $361580
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от RedHead Посмотреть сообщение
извлекаю такой регуляркой:
И это вариант запишу в текстовик, сенкс
παφ вне форума  
Закрытая тема



Опции темы
Опции просмотра