Парсинг Амазона - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.4082
BTC/USD69401.0752
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 20.03.2019, 20:32   #1
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию Парсинг Амазона



После энного кол-ва запросов выдает "Sorry! Something went wrong!".
Как обойти или только прокси?

Последний раз редактировалось Hector; 20.03.2019 в 20:47.
Hector вне форума  
Старый 20.03.2019, 21:26   #2
Dor
Senior Member
 
Регистрация: 24.01.2013
Сообщений: 1,562
Бабло: $213445
По умолчанию

Цитата:
Сообщение от Hector Посмотреть сообщение


После энного кол-ва запросов выдает "Sorry! Something went wrong!".
Как обойти или только прокси?
а по апи нет нужных данных?
Dor вне форума  
Старый 20.03.2019, 21:36   #3
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953828
По умолчанию

Цитата:
Сообщение от Hector
Как обойти или только прокси?
много прокси и большой таймаут между запросами

Цитата:
Сообщение от Dor
а по апи нет нужных данных?
по апи там тоже жесткие лимиты
__________________
sspy вне форума  
Старый 20.03.2019, 21:41   #4
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
ТС -->
Отправить сообщение для Hector с помощью Jabber
автор темы ТС По умолчанию

Цитата:
Сообщение от Dor
а по апи нет нужных данных?
я решил что проще попарсить но наверное не получится))))))
Hector вне форума  
Старый 20.03.2019, 22:13   #5
PanteraSoft
Senior Member
 
Аватар для PanteraSoft
 
Регистрация: 19.02.2012
Сообщений: 2,804
Бабло: $501900
По умолчанию

Вот хороший коммент по поводу.

Цитата:
Занимаюсь парсингом Амазона в промышленных масштабах (сотни тысяч страниц в день). Самая большая проблема не в библиотеках, а в том, что Амазон очень умело выявляет попытки парсинга и при этом постоянно совершенствует собственную технику обнаружения таких попыток. Поэтому самый действенный способ - это иметь в своем распоряжении приличный набор качественных прокси (с теми у которых отличается только последняя секция и номер порта долго работать не получится - попадут в черный список на срок от часа до суток, в зависимости от того как интенсивно будете через них слать запросы).
По поводу библиотек - выбирайте их в соответствии с вашими потребностями, отталкиваясь от объема запросов которые нужно слать. Самые простые - это всякие requests, urllib, pycurl, multycurl. Ими целесообразно пользоваться в однопоточном и синхронном типе парсеров. Но практически всю работу будете писать руками. Если хотите чуть больше мощности и удобства - посмотрите в сторону Grab. Он может многое, в т.ч. удобно работает с прокси и т.д. Если нужен большой объем и скорость - используйте Scrapy. Крутая штука, но со своими правилами. Однако если нужно будет затачивать под себя - в сети много информации по нему.
С API Амазон можно и нужно работать. Но есть несколько проблем:
1. Существует лимит на кол-во обращений(тут подробнее, но можно в одном запросе слать до 10-ти ASIN).
2. Самое неприятное, что по некоторым товарам (при использовании lookup-методов) инфа не приходит либо отличается от оригинала(сайта). Т.е. не нужно полагаться на то, что АПИ будет возвращать информацию полностью идентичную с их сайтом.
3. Ограничение на кол-во товаров по которым возвращается инфа (при использовании search-методов). 100 товаров. Дальше - только парсинг. Такое ограничение не только у Амазон, у Ebay так же. Без этого - кол-во всяких дропшиперов и прочих посредников просто зашкалило бы.
Несколько нюансов:
-Не пытайтесь выдавать себя за Google Bot, ничего хорошего не выйдет, только потратите время.
-Использование всяких браузерных технологий, наподобие PhantomJS или даже Selenium, толку не принесет. Там к проблеме IP еще добавятся куки и т.п. По скорости будет медленно, для больших объемов не подойдет.
-Главное, как уже понятно, обойти систему которая определяет ботов и краулеры. Поэтому импровизируйте, экспериментируйте, думайте головой и ищите свои решения. На том конце сидят тоже люди ) В сети масса советов по этому поводу (можете начать с последнего раздела здесь).
Источник https://toster.ru/q/466798
PanteraSoft вне форума  
Старый 20.03.2019, 23:40   #7
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
ТС -->
Отправить сообщение для Hector с помощью Jabber
автор темы ТС По умолчанию

sim0n, с проксями?

PanteraSoft, читал, да.
Hector вне форума  
Старый 21.03.2019, 08:39   #8
Barada
Распиздяй еще тот
 
Аватар для Barada
 
Регистрация: 16.01.2019
Адрес: www
Сообщений: 222
Бабло: $26390
По умолчанию

Парсит норм в 200 потоков. Самопис
Barada вне форума  
Старый 21.03.2019, 11:52   #9
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
ТС -->
Отправить сообщение для Hector с помощью Jabber
автор темы ТС По умолчанию

Barada, рад за тебя но твой комментарий бесполезен.
Hector вне форума  
Старый 21.03.2019, 12:00   #10
Barada
Распиздяй еще тот
 
Аватар для Barada
 
Регистрация: 16.01.2019
Адрес: www
Сообщений: 222
Бабло: $26390
По умолчанию

Цитата:
Сообщение от Hector Посмотреть сообщение
Barada, рад за тебя но твой комментарий бесполезен.
Это я вот к чему:

Цитата:
Поэтому импровизируйте, экспериментируйте, думайте головой и ищите свои решения.
Что найти дыру в Амазоне можно

Работаю через фри прокси
Barada вне форума