Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Общий раздел > Мысли, идеи и полезные статьи
Дата
USD/RUB58.7570
BTC/USD0.0000
Мысли, идеи и полезные статьи Интересные статьи, а также креативные идеи в сфере онлайн бизнеса.

Закрытая тема
Опции темы Опции просмотра
Старый 15.09.2011, 13:00   #1
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,382
Бабло: $470735
По умолчанию Каталоги с описанием товаров где взять?

Ищу каталоги с большим кол-вом товаров и хорошим описанием, подробными характеристиками, и чем больше всяких фич - тем лучше.
Желательно чтобы был человеческий способ доступа к инфе, типа xml-фида, или другого апи. Вообще, распарсить то не проблема, но чем проще вариант, тем лучше.

Знаю что есть Amazon и там полно инструментов. А еще?
Надо что-нибудь на англ или мультиязычный, поэтому яндекс.маркет не катит
можно, конечно, все подряд шопы парсить, но это сколько времени надо


ps: это будут мои первые реальные шаги в датамайнинг, поддержи меня
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 15.09.2011, 13:19   #2
qvent
Сеньйор Помидор
 
Аватар для qvent
 
Регистрация: 28.08.2007
Сообщений: 1,745
Бабло: $376705
Отправить сообщение для qvent с помощью ICQ
По умолчанию

CJ, GAN
Там ваще ВСЁ шо хочеш есть, и с описаниями и с XML
__________________
Я- МОЙВА!!!
qvent на форуме  
Старый 15.09.2011, 13:37   #3
Cookie Monster
prospera
 
Аватар для Cookie Monster
 
Регистрация: 03.01.2009
Сообщений: 862
Бабло: $193208
По умолчанию

Цитата:
Сообщение от qvent Посмотреть сообщение
CJ, GAN
Там ваще ВСЁ шо хочеш есть, и с описаниями и с XML
в CJ что бы получить шо хочеш, надо сначала апрув пройти на каждом из всего что хочешь. А там ебанутая система в деклайн сразу все заявки, те что не сразу то чуть позже. Сути не меняет.
Пали как ты вытягиваешь оттуда хмл фиды
Cookie Monster вне форума  
Старый 15.09.2011, 13:52   #4
Cookie Monster
prospera
 
Аватар для Cookie Monster
 
Регистрация: 03.01.2009
Сообщений: 862
Бабло: $193208
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
ps: это будут мои первые реальные шаги в датамайнинг, поддержи меня
что ты там искать собрался? начни с постановки цели.

У меня неделю уже работает скрипт. Можно сказать по датамайнингу: собирает "никакую" инфу, разбирает, анализирует по алгоритму, раскладывает по категориям и частотности. В базе уже 900к позиций. Думаю копать по каждой позиции глубже, но это приблизительно 100кб доп.инфы на каждую позицию. Принимая во внимание что позиций будет на несколько порядков больше, я думаю как сохранять вторую итерацию в мускуль или файловую структуру. Думаю файловая структура будет лучше. Как считаешь?
Cookie Monster вне форума  
Старый 15.09.2011, 14:01   #5
Юнга
white powder
 
Аватар для Юнга
 
Регистрация: 29.04.2007
Сообщений: 2,649
Бабло: $351090
По умолчанию

для промышленных объемов - только в подходящую БД.
__________________
господин мойва любит вас
Юнга на форуме  
Старый 15.09.2011, 15:38   #6
Grut
Senior Member
 
Аватар для Grut
 
Регистрация: 23.04.2007
Сообщений: 2,053
Бабло: $321475
Отправить сообщение для Grut с помощью Skype™
По умолчанию

icecat.biz - не оно?
__________________
SGManaged - хостинг для успешного вебмастера! | Партнерская программа под студенческий трафик.
Grut вне форума  
Старый 15.09.2011, 15:54   #7
Reach
Senior Member
 
Регистрация: 21.02.2008
Сообщений: 143
Бабло: $145175813
По умолчанию

Цитата:
Сообщение от Grut Посмотреть сообщение
icecat.biz - не оно?
Всего 300к товаров, маловато
__________________
___
Reach вне форума  
Старый 15.09.2011, 15:56   #8
Reach
Senior Member
 
Регистрация: 21.02.2008
Сообщений: 143
Бабло: $145175813
По умолчанию

Цитата:
Сообщение от Cookie Monster Посмотреть сообщение
что ты там искать собрался? начни с постановки цели.

У меня неделю уже работает скрипт. Можно сказать по датамайнингу: собирает "никакую" инфу, разбирает, анализирует по алгоритму, раскладывает по категориям и частотности. В базе уже 900к позиций. Думаю копать по каждой позиции глубже, но это приблизительно 100кб доп.инфы на каждую позицию. Принимая во внимание что позиций будет на несколько порядков больше, я думаю как сохранять вторую итерацию в мускуль или файловую структуру. Думаю файловая структура будет лучше. Как считаешь?
Откуда парсишь?
__________________
___
Reach вне форума  
Старый 15.09.2011, 16:01   #9
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,382
Бабло: $470735
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Cookie Monster Посмотреть сообщение
что ты там искать собрался? начни с постановки цели.
да у меня давно уж трудятся некоторые скрипты, которые собирают историю изменений цен на определенные виды товаров в эл.магазинах Нидерландов.
Вот надо бы расширятся.
А в датамайнинге меня интересует регрессионный анализ некоторых факторов, на основе чего можно предсказывать какие-то события в екомерсе.
Но история цен точно мне нужна.

Цитата:
Сообщение от Cookie Monster Посмотреть сообщение
У меня неделю уже работает скрипт. Можно сказать по датамайнингу: собирает "никакую" инфу, разбирает, анализирует по алгоритму, раскладывает по категориям и частотности. В базе уже 900к позиций. Думаю копать по каждой позиции глубже, но это приблизительно 100кб доп.инфы на каждую позицию. Принимая во внимание что позиций будет на несколько порядков больше, я думаю как сохранять вторую итерацию в мускуль или файловую структуру. Думаю файловая структура будет лучше. Как считаешь?
ну сам смотри там по обстановке. У меня мускул и 1ккк держит. Но мне не нравится кое-что, поэтому я перехожу на redis.
mysql нужен для реляционных данных, когда атомарные элементы данных имеют связи друг с другом, образуя новые элементы, которые также относятся др с др, но при этом есть некоторая закономерность. + индексы, ускоряющие поиском. В редисе индексов нет, самому надо об этом заботится.
когда у тебя закончится место, можно сделать партицирование и тд. Так то мускул нормальное решение, но всему свое. Тот функционал, которым обвешен мускул, он его и друг и враг.

Цитата:
Сообщение от Юнга Посмотреть сообщение
для промышленных объемов - только в подходящую БД.
так...
Тут я предлагаю поднимать Riak кластер из 30 машин, оно и по отказоустойчивости норм. будет, и протокол там хош REST, хош HTTP, а хош в json
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 15.09.2011, 18:12   #10
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,382
Бабло: $470735
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Cookie Monster Посмотреть сообщение
что ты там искать собрался? начни с постановки цели.
Ладно, спалю, один хер всем срать

Мне интересно, как меняются цены на рынке электронной коммерции, возможно там есть какие-то законы, интересные зависимости.
Можно попробовать откопать такие зависимости и применив регрессионный анализ, можно будет предсказывать те или иные события/тенденции.
Так же можно будет выполнять многофакторный анализ, в котором одним из факторов будет тоже цена, а точнее ее функция.

И главная моя цель: сделать пророчитель

__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Закрытая тема



Опции темы
Опции просмотра