И вправду обидно, что зажопили заопенсорсить это...
Правда, не представляю какой большой кластер нужен для обучения 40ГБ датасета - поэтому вряд ли получилось бы заюзать эту архитектуру даже при желании..
UPD:
Цитата:
(похоже, что они обучали ее на 256 TPU несколько дней, и по предварительным подсчетам это обошлось им около 45 тыс. $)
|