чем чекнуть контент на странице? - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.2486
BTC/USD68464.4396
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 16.01.2013, 10:25
Start Post: чем чекнуть контент на странице? 
  #11
qvent
Сеньйор Помидор
 
Аватар для qvent
 
Регистрация: 28.08.2007
Сообщений: 2,008
Бабло: $421625
Отправить сообщение для qvent с помощью ICQ
По умолчанию

Есть база, довольно большая, около 400к УРЛов.
на урле надо найти или не найти определённый контент, слово или словосочитание.
Пробовал хрумеровским анализатором ссылок, но он такую базу будет неделю лопатить, даже во много потоков.
Мож какие нибудь альтернативы есть как быстро это сделать?
qvent вне форума  
Старый 16.01.2013, 15:22   #12
submitter
Member
 
Регистрация: 02.10.2009
Сообщений: 32
Бабло: $11670
По умолчанию

Цитата:
Сообщение от 1een Посмотреть сообщение
Быстрее хрумеровского вряд ли найдешь - ставь максимальное дозволенное твоей виндой потоков (500-700), вернее сколько она потянет. А дальше все упирается в канал и dns по сути. Так что имеет смысл наверное и с сервака (если хостер не против).
гг ты я вижу большой спец. У 32 битной винды в рапоряжении 2гб пространтва под стек потоков. по дефолту 1поток - 1 мб. можно подкрутить. и все это кол-во она потянет. Но надо юзать неблок. сокеты, а не плодить кучу потоков.
submitter вне форума  
Старый 16.01.2013, 15:54   #13
mlu
Senior Member
 
Аватар для mlu
 
Регистрация: 17.02.2011
Сообщений: 153
Бабло: $26940
Отправить сообщение для mlu с помощью ICQ
По умолчанию

Цитата:
Сообщение от submitter Посмотреть сообщение
гг ты я вижу большой спец. У 32 битной винды в рапоряжении 2гб пространтва под стек потоков.
Хех, еще один спец 8)

http://msdn.microsoft.com/en-us/libr...=vs.85%29.aspx

Цитата:
On 32-bit versions of Windows, the /3GB parameter enables 4 GT RAM Tuning, a feature that enlarges the user-mode virtual address space to 3 GB and restricts the kernel-mode components to the remaining 1 GB.
mlu вне форума  
Старый 16.01.2013, 16:35   #14
submitter
Member
 
Регистрация: 02.10.2009
Сообщений: 32
Бабло: $11670
По умолчанию

Цитата:
Сообщение от mlu Посмотреть сообщение
Хех, еще один спец 8)

http://msdn.microsoft.com/en-us/libr...=vs.85%29.aspx
а ты я смотрю спец во всем. чо не в школе?
lol. 3 гига под стёк, а 0.5 оставить под хип .

Ты эту ссыль засунь себе в одно место. По дефолту 2 гига. Вопрос: где я сказал что нельзя это кол-во увеличить? Но признаю честно, я не знал . Потому что 2 гига должно хватать за глаза. Потоков вообще не должно быть больше чем ядер у процессора, потому что будет тратиться процессорное время впустую на переключение контекста.

Еще раз: заводить отдельный поток для каждого соединения - не правильно. Это говно архитектура. Интересно в твоём парсере используется такой подход ? судя по твоей начитанности, это именно так

я ж кодер, а не сис. админ - извращенец
submitter вне форума  
Старый 16.01.2013, 17:06   #15
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
По умолчанию

Лишь бы посраться на ровном месте

Цитата:
Потоков вообще не должно быть больше чем ядер у процессора, потому что будет тратиться процессорное время впустую на переключение контекста.
Вот это, бля вообще пушка. Какое переключение ядер, если тащим пакеты из интернетов? Скорости не сопоставимы ни разу.

Цитата:
Еще раз: заводить отдельный поток для каждого соединения - не правильно. Это говно архитектура.
Ты дурак или как? Уругвайский сервер отдает пакет 30 секунд, а русский - 0,01 сек. Нахера ждать уругвайца по твоей логике?

ps И да, checkparams тоже охуенен в данной ситуации.
pps Не кодер ни разу
1een вне форума  
Старый 16.01.2013, 17:10   #16
inkubus
Senior Member
 
Аватар для inkubus
 
Регистрация: 11.02.2010
Сообщений: 928
Бабло: $176835
По умолчанию

если одноразово и небольшое количество то хрумер.

если постоянно и много то чекпарамс.
inkubus вне форума  
Старый 16.01.2013, 19:11   #17
Botmaster
Senior Member
 
Аватар для Botmaster
 
Регистрация: 01.07.2007
Сообщений: 1,005
Бабло: $142100
По умолчанию

Цитата:
Пробовал хрумеровским анализатором ссылок, но он такую базу будет неделю лопатить, даже во много потоков.
Какой канал-то, собственно?
400к на нормальном канале вполне за несколько часов можно прогнать. Могу продемонстрировать, если интересно
Botmaster вне форума