Сбербанк и SberCloud сделали облачную платформу ML Space доступной для всех разработчиков приложений и сервисов на базе технологий ИИ. На ML Space можно запускать процессы распределенного машинного обучения более чем на тысяче GPU.
Платформа станет доступна с 12 декабря. Разработчики смогут выполнять различные операции — от ввода данных до автоматического развертывания обученных моделей в облаке SberCloud.
Параллельно Сбербанк запускает программу грантов «ML Space для бизнеса». Она предусматривает грант в размере до 1 млн рублей для российских предпринимателей и компаний на создание ML-технологий и внедрение их в свои ИИ-продукты.
ML Space позволяет проводить полный цикл разработки прикладных решений на базе машинного обучения и ориентирована на совместную работу команд специалистов по данным над созданием и развертыванием моделей.
Архитектура ML Space сформирована на базе суперкомпьютера «Кристофари», который выполнен на базе вычислительных узлов Nvidia DGX-2. Каждый из узлов включает два процессора Intel Xeon Platinum 8168 24C 2,7 ГГц и поддерживает до 16 графических ускорителей Nvidia Tesla V100 с 32 ГБ памяти HBM2. Суммарная производительность суперкомпьютера составляет 6,7 петафлопс. Он находится на 36 месте в топ-500 самых высокопроизводительных систем мира.
Технология LAMA со специальным модулем AutoML позволяет создавать модели машинного обучения в автоматическом режиме. Модуль Environments предназначен для запуска процесса обучения нейросетей и доступа к утилитам для мониторинга потребления ресурсов, моделей и эксперимент-менеджмента, с отслеживанием загрузки ресурсов по разрезам CPU, GPU, RAM в любой момент времени. Модуль Data Catalog отвечает за сбор и управление данными и моделями машинного обучения в многопользовательском режиме для распределенных команд. С помощью модуля AutoDeploy готовые модели можно автоматически в несколько кликов развернуть на мощностях облака SberCloud. Также пользователям доступен сервис TagMe для разметки данных.
На платформе настроены популярные фреймворки и библиотеки для ML-разработки, а в качестве среды обучения можно использовать любой Docker-образ.
Платформа поддерживает препроцессинг данных GPU с применением Spark, Pandas, NumPy, Scikit-Learn, Matplotlib. Пользователи могут переносить большие данные из файловых систем AmazonS3, Google Cloud Storage и баз данных PostgreSQL, MS-SQL, My SQL, Oracle.
Оплата использования модулей ML Space и потребление вычислительных ресурсов платформы будут тарифицироваться по принципу Pay-As-You-Go («Оплата по мере потребления»). Цена за обучение и препроцессинг будет начинаться от 3 рублей за одну GPU-минуту и от 0,12 рубля за одну CPU-минуту. Инференс будет стоить 0,054 копейки, деплой — от 0,05 рублей за GPU-секунду и от 0,12 рублей за СPU-минуту. Хранение данных будет стоить от 1,2 рубля.