|
| Дата |
|
USD/RUB | 88.6852 | BTC/USD | 67751.1020 |
|
|
|
Мысли, идеи и полезные статьи Интересные статьи, а также креативные идеи в сфере онлайн бизнеса. |
15.09.2011, 13:00
|
Start Post: Каталоги с описанием товаров где взять?
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,356
Бабло: $470735
|
Ищу каталоги с большим кол-вом товаров и хорошим описанием, подробными характеристиками, и чем больше всяких фич - тем лучше.
Желательно чтобы был человеческий способ доступа к инфе, типа xml-фида, или другого апи. Вообще, распарсить то не проблема, но чем проще вариант, тем лучше.
Знаю что есть Amazon и там полно инструментов. А еще?
Надо что-нибудь на англ или мультиязычный, поэтому яндекс.маркет не катит
можно, конечно, все подряд шопы парсить, но это сколько времени надо
ps: это будут мои первые реальные шаги в датамайнинг, поддержи меня
|
|
|
15.09.2011, 19:58
|
#12
|
prospera
Регистрация: 03.01.2009
Сообщений: 882
Бабло: $198348
|
Цитата:
Сообщение от Reach
Откуда парсишь?
|
2 первоисточника + контрольный в гугл
Цитата:
Сообщение от chesser
цель: сделать пророчитель
|
у меня тоже
|
|
|
15.09.2011, 20:28
|
#13
|
Ебланнед
Регистрация: 12.09.2011
Сообщений: 74
Бабло: $9570
|
Цитата:
Сообщение от chesser
Ладно, спалю, один хер всем срать
И главная моя цель: сделать пророчитель
|
Ты серьезно думаешь,что сможешь сделать нечто подобное?
А как же быть с принципом неопределенности Гейзенберга?
__________________
Войны нельзя избежать, её можно лишь отсрочить к выгоде вашего противника.
Ребиллы на страхе - работаем в команде
|
|
|
15.09.2011, 21:33
|
#14
|
конверчу-хуеверчу
Регистрация: 16.09.2009
Сообщений: 605
Бабло: $103180
|
Принцип неопределенности(а в народе-принцип менжуя) ставил под сомнение еще Эйнштейн, хотя действительно возникают сомнения насчет полезности полученной инфы, если брать ее как функции свойств от событий. Даже несмотря на то, что берется она с временной корреляцией, сложно утверждать, что именно рождаемость альбиносов повлияла на продажи 4 яблофона во втором квартале. Но даже все предыдущее можно поставить под сомнение, поэтому имхо
необходим фундаментальный подход при проектировании прорицателя, с выделением основных свойств/событий/факторов/etc иначе получится простой коллектор для статистического анализа, который ничего кроме циферей не даст.
update:
но при всем этом, дико хочется поглядеть на это все в красивых чартах.
|
|
|
16.09.2011, 05:10
|
#15
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,356
Бабло: $470735
ТС -->
|
ТС
датамайнинг может и пока слишком громкое слово.
нужно набрать данные для многофакторного анализа, а дальше посмотрим как там что.
ресы еще давайте палите
|
|
|
16.09.2011, 05:22
|
#16
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,891
Бабло: $322264
|
redis вроде в память проецируется полностью, не?
для товаров думаю хорошим решением будет MongoDB, товары разные, характеристики тоже, реляционные БД плохо подходят для такой информации.
матан нужно учить для датамайнинга, я подписан на группу в linkedln вникаю потихоньку.
http://www.membrana.ru/particle/16033 вот люди делают норм. штуки ) а так прикладных применений масса, от екоммерц до трейдботов.
|
|
|
16.09.2011, 05:45
|
#17
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,356
Бабло: $470735
ТС -->
|
ТС
Цитата:
Сообщение от WebNinja
redis вроде в память проецируется полностью, не?
для товаров думаю хорошим решением будет MongoDB, товары разные, характеристики тоже, реляционные БД плохо подходят для такой информации.
|
в редисе два режима: RAM и виртуальная память, последняя жопа, но куда деваться.
Редис держит все в отведенной ему RAM, если кластер, то в рамах всего кластера. Но если в друг память заканчивается, то он сбрасывает не уместившиеся данные на диск. Причем, наименее используемые. Редис - это продвинутый(имхо) аналог мемкешеда, т.е. nosql key-value БД
MongoDB не видел, но читал, вроде норм. Но надо смотреть алгоритм использования и структуру данных. Редис пошустрее в любом случае, но функционала меньше
Цитата:
Сообщение от WebNinja
матан нужно учить для датамайнинга, я подписан на группу в linkedln вникаю потихоньку.
http://www.membrana.ru/particle/16033 вот люди делают норм. штуки ) а так прикладных применений масса, от екоммерц до трейдботов.
|
да я тоже в ней недели 3 уже, скачал несколько пдф книжек, почитываю - видел наверно, там они постили бесплатные.
+ у меня в универе вроде люди занимаются датамайнингом, надо сходить поспрашать че как, хочу развернуть свой диссер в этом направлении. У меня было "Автоматизация процессов объектно-ориентированной интеграции Интернет-ресурсов" - добавлю сюда побольше анализа и будет нормальный компот
|
|
|
17.09.2011, 16:50
|
#20
|
Аццкий хостер
Регистрация: 02.05.2007
Сообщений: 2,976
Бабло: $1733930993
|
А в чем смысл, если Google это сделает все равно быстрее, лучше и бесплатно -))
__________________
Inferno Solutions: Выделенные серверы и VPS с абсолютно бесплатным администрированием. Более 19 лет с вами. Любые конфигурации под заказ.
|
|
|
17.09.2011, 17:36
|
#21
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,356
Бабло: $470735
ТС -->
|
ТС
Цитата:
Сообщение от inferno[DGT]
А в чем смысл, если Google это сделает все равно быстрее, лучше и бесплатно -))
|
1) какой смысл делать сайты, если уже и так их полно? - но люди все равно делают ведь
2) откуда гуглу знать, что нужно именно мне?
3) датамайнинг - он более разнообразный, нежели собрать статистику с разных направлений и тупо ее скрестить, построить графики и тд. Тут тема более тонкая и многообразная.
Но вообще да, у гугла шикарные возможности для подобных вещей.
Я тут думал-думал(может лучше и не стоило этого делать) и пришел к выводу, что в будущем интернет может хорошо подхватить это направление. По сути, то что мы сейчас имеем в интернете это:
- большие хранилища информации (уже существующие и накопленные), можно назвать их статикой
- также есть динамика в виде коммуникативных потоков
- набор сервисов, основанных на статических данных и (реже) на динамических
Это все доступно и отлично работает. Но скоро мы достигнем(или уже) критической массы как статики, так и динамики, но развитие все равно будет, куда?
чего же не хватает? не хватает:
- _доступного_ глубокого анализа статич. и динамич. данных
- автоматизации этого анализа
- а также оптимизация
- также неплохо бы автоматизировать появление новых изобретений/открытие закономерностей и тд
датамайнинг тут поможет
почему его раньше не было и все молчали об этом? потому что ресурсы для анализа больших выборок были только у гос корпораций, а сейчас оно все более стремительно спускается до частников, включая мелкие группы.
Короче, кто быстрее укротит датамайнинг, тот победит
а конкретно товары парсить - я их уже 3 года паршу, просто хотел узнать может появилось что-то новенькое и датамайнинг тут больше как "попробовать". И вот с рынками цен поэкспериментировать вполне реально
|
|
|
|