|
| Дата |
|
USD/RUB | 93.7196 | BTC/USD | 61477.7880 |
|
|
|
Мысли, идеи и полезные статьи Интересные статьи, а также креативные идеи в сфере онлайн бизнеса. |
15.09.2011, 13:00
|
#1
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
|
Каталоги с описанием товаров где взять?
Ищу каталоги с большим кол-вом товаров и хорошим описанием, подробными характеристиками, и чем больше всяких фич - тем лучше.
Желательно чтобы был человеческий способ доступа к инфе, типа xml-фида, или другого апи. Вообще, распарсить то не проблема, но чем проще вариант, тем лучше.
Знаю что есть Amazon и там полно инструментов. А еще?
Надо что-нибудь на англ или мультиязычный, поэтому яндекс.маркет не катит
можно, конечно, все подряд шопы парсить, но это сколько времени надо
ps: это будут мои первые реальные шаги в датамайнинг, поддержи меня
|
|
|
15.09.2011, 13:19
|
#2
|
Сеньйор Помидор
Регистрация: 28.08.2007
Сообщений: 2,008
Бабло: $421625
|
CJ, GAN
Там ваще ВСЁ шо хочеш есть, и с описаниями и с XML
__________________
Я- МОЙВА!!!
|
|
|
15.09.2011, 13:37
|
#3
|
prospera
Регистрация: 03.01.2009
Сообщений: 882
Бабло: $198348
|
Цитата:
Сообщение от qvent
CJ, GAN
Там ваще ВСЁ шо хочеш есть, и с описаниями и с XML
|
в CJ что бы получить шо хочеш, надо сначала апрув пройти на каждом из всего что хочешь. А там ебанутая система в деклайн сразу все заявки, те что не сразу то чуть позже. Сути не меняет.
Пали как ты вытягиваешь оттуда хмл фиды
|
|
|
15.09.2011, 13:52
|
#4
|
prospera
Регистрация: 03.01.2009
Сообщений: 882
Бабло: $198348
|
Цитата:
Сообщение от chesser
ps: это будут мои первые реальные шаги в датамайнинг, поддержи меня
|
что ты там искать собрался? начни с постановки цели.
У меня неделю уже работает скрипт. Можно сказать по датамайнингу: собирает "никакую" инфу, разбирает, анализирует по алгоритму, раскладывает по категориям и частотности. В базе уже 900к позиций. Думаю копать по каждой позиции глубже, но это приблизительно 100кб доп.инфы на каждую позицию. Принимая во внимание что позиций будет на несколько порядков больше, я думаю как сохранять вторую итерацию в мускуль или файловую структуру. Думаю файловая структура будет лучше. Как считаешь?
|
|
|
15.09.2011, 14:01
|
#5
|
white powder
Регистрация: 29.04.2007
Сообщений: 2,692
Бабло: $370670
|
для промышленных объемов - только в подходящую БД.
|
|
|
15.09.2011, 15:38
|
#6
|
Senior Member
Регистрация: 23.04.2007
Сообщений: 2,118
Бабло: $337995
|
icecat.biz - не оно?
|
|
|
15.09.2011, 15:54
|
#7
|
Senior Member
Регистрация: 21.02.2008
Сообщений: 199
Бабло: $145188803
|
Цитата:
Сообщение от Grut
icecat.biz - не оно?
|
Всего 300к товаров, маловато
|
|
|
15.09.2011, 15:56
|
#8
|
Senior Member
Регистрация: 21.02.2008
Сообщений: 199
Бабло: $145188803
|
Цитата:
Сообщение от Cookie Monster
что ты там искать собрался? начни с постановки цели.
У меня неделю уже работает скрипт. Можно сказать по датамайнингу: собирает "никакую" инфу, разбирает, анализирует по алгоритму, раскладывает по категориям и частотности. В базе уже 900к позиций. Думаю копать по каждой позиции глубже, но это приблизительно 100кб доп.инфы на каждую позицию. Принимая во внимание что позиций будет на несколько порядков больше, я думаю как сохранять вторую итерацию в мускуль или файловую структуру. Думаю файловая структура будет лучше. Как считаешь?
|
Откуда парсишь?
|
|
|
15.09.2011, 16:01
|
#9
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
ТС -->
|
ТС
Цитата:
Сообщение от Cookie Monster
что ты там искать собрался? начни с постановки цели.
|
да у меня давно уж трудятся некоторые скрипты, которые собирают историю изменений цен на определенные виды товаров в эл.магазинах Нидерландов.
Вот надо бы расширятся.
А в датамайнинге меня интересует регрессионный анализ некоторых факторов, на основе чего можно предсказывать какие-то события в екомерсе.
Но история цен точно мне нужна.
Цитата:
Сообщение от Cookie Monster
У меня неделю уже работает скрипт. Можно сказать по датамайнингу: собирает "никакую" инфу, разбирает, анализирует по алгоритму, раскладывает по категориям и частотности. В базе уже 900к позиций. Думаю копать по каждой позиции глубже, но это приблизительно 100кб доп.инфы на каждую позицию. Принимая во внимание что позиций будет на несколько порядков больше, я думаю как сохранять вторую итерацию в мускуль или файловую структуру. Думаю файловая структура будет лучше. Как считаешь?
|
ну сам смотри там по обстановке. У меня мускул и 1ккк держит. Но мне не нравится кое-что, поэтому я перехожу на redis.
mysql нужен для реляционных данных, когда атомарные элементы данных имеют связи друг с другом, образуя новые элементы, которые также относятся др с др, но при этом есть некоторая закономерность. + индексы, ускоряющие поиском. В редисе индексов нет, самому надо об этом заботится.
когда у тебя закончится место, можно сделать партицирование и тд. Так то мускул нормальное решение, но всему свое. Тот функционал, которым обвешен мускул, он его и друг и враг.
Цитата:
Сообщение от Юнга
для промышленных объемов - только в подходящую БД.
|
так...
Тут я предлагаю поднимать Riak кластер из 30 машин, оно и по отказоустойчивости норм. будет, и протокол там хош REST, хош HTTP, а хош в json
|
|
|
15.09.2011, 18:12
|
#10
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
ТС -->
|
ТС
Цитата:
Сообщение от Cookie Monster
что ты там искать собрался? начни с постановки цели.
|
Ладно, спалю, один хер всем срать
Мне интересно, как меняются цены на рынке электронной коммерции, возможно там есть какие-то законы, интересные зависимости.
Можно попробовать откопать такие зависимости и применив регрессионный анализ, можно будет предсказывать те или иные события/тенденции.
Так же можно будет выполнять многофакторный анализ, в котором одним из факторов будет тоже цена, а точнее ее функция.
И главная моя цель: сделать пророчитель
|
|
|
Опции темы |
|
Опции просмотра |
Линейный вид
|
|