Google представила свой ответ ChatGPT

Как утверждают в компании, модель Gemini чуть ли не во всем превосходит любую из других нейросетей. Что известно...

Новая насосная станция интегрирована в систему диспетчеризации Саранских теплосетей

Компанией «КРУГ» автоматизирована вновь построенная насосная станция ТМ-3 и интегрирована в существующую автоматизированную систему диспетчерского управления (АСДУ) Саранских тепловых сетей....

Автоматизация промышленности. Как искусственный интеллект помогает предприятиям в Москве

Искусственный интеллект (ИИ) помогает существенно упростить рабочие процессы и сократить затраты на производстве. Например, столичная компания, выпускающая кабельную продукцию, внедрила...

ОДК-Сатурн внедрил новую цифровую платформу для поддержки заказчиков своей продукции

В ОДК-Сатурн (входит в Объединенную двигателестроительную корпорацию Ростеха) внедрена в эксплуатацию новая цифровая платформа — портал поддержки заказчиков (https://cwp.uecrus.com). © www.uecrus.com Это важный...

Цифровая копия Владимира Путина задала ему вопрос о двойниках и опасности ИИ

Студент СПбГУ во время большой пресс-конференции главы государства обратился к нему в образе дипфейка. Как отреагировал на это...

Число спам-звонков в РФ стремительно растет

По данным «Мегафона», их стало больше на треть менее чем за год. При этом речь в статистике только...

«КАМАЗ» внедрил автоматическую систему управления и контроля кузнечного производства

В ПАО «КАМАЗ» завершено внедрение автоматической системы контроля и управления производством ПИФИ в кузнечно-прессовом корпусе кузнечного завода в Набережных Челнах. © kamaz.ru Комплексное...

Цифровой тренажёр компании КРУГ обучает персонал котлотурбинного цеха Салаватской ТЭЦ

С целью повышения эффективности управления оборудованием ТЭЦ и снижения аварийной опасности руководством Башкирской генерирующей компании принята программа подготовки оперативного персонала...

Российский инструмент совместной работы sBoard выпустил большое обновление

В новом iPhone усилят защиту из-за волны краж

Пользователи смогут подключить новую опцию в разделе настроек «Face ID и пароль». При обнаружении отклонений от типичных маршрутов...

Разработан первый российский программируемый чип для квантовых вычислений

Котел БКЗ-320-140/ГМ Уфимской ТЭЦ-2 оснащен полномасштабной АСУ ТП

Произведено расширение до полномасштабной автоматизированной системы управления технологическим процессом парового котла БКЗ-320-140/ГМ ст. № 6 Уфимской ТЭЦ-2 существующей системы автоматического...

Минздрав России разработал проект создания базы данных граждан по группам заболеваний

Это будет федеральный регистр, содержащий в себе медицинскую информацию о заболеваниях граждан, статистические данные, которыми можно оперировать, чтобы...

Все гениальное — Simply! Встречаем обновленную ОС Simply Linux семейства «Альт»

«Базальт СПО» выпустила версию операционной системы Simply Linux 10.2 на 10-й платформе. Эта ОС отличается от других в семействе «Альт». Она бесплатна,...

Михаил Липатов: «Этот год — год организации производства дронов»

Генеральный директор компании «Майнд», или «М-Индастриз», рассказал о разнице между МФТИ и Принстоном, о том, чем уникальны дроны...

В Нью-Йорке могут запретить дипфейки сексуального характера

Законопроект об уголовной ответственности за распространение отредактированных изображений такого типа внесен в конгресс штата Фото: Elnur/Фотобанк Лори Дипфейк...

В Саранске началось массовое производство отечественного смартфона «Р-фон»

По заявлениям разработчиков, отечественный аппарат будет очень хорошо защищен от доступа к данным на нем со стороны других...

ММК запустил в промышленную эксплуатацию систему цифрового двойника в доменном цехе

Инновационное решение Магнитогорский металлургический комбинат разработал и внедрил для снижения расхода топливо-энергетических ресурсов, в частности — кокса, необходимого для производства чугуна....

Количество фишинговых сайтов, которые маскируются под СПб биржу, возросло до нескольких тысяч

Это произошло после введения санкций. «Ъ» пишет, что мошенники обещают легкую прибыль или верификацию аккаунта и пытаются выманить...

Amazon пытается угнаться за Starlink при помощи «проекта Койпера»

Amazon буквально пару дней назад успешно запустила два спутника-прототипа в рамках своего «проекта Койпера», подразумевающего создание собственной спутниковой...

Виктор
07.10.2024
Статьи

Российские ученые создали самый эффективный алгоритм для обучения и адаптации ИИ

Ученые из лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта.

Новый метод, названный ReBRAC (Revisited Behavior Regularized Actor Critic — пересмотренный актор-критик с контролируемым поведением), обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу.

Разработка российских ученых в области повышения эффективности алгоритмов обучения ИИ может способствовать преодолению технологического и цифрового разрыва в мире между разными странами — более эффективные алгоритмы требуют меньше вычислительных ресурсов. Страны с ограниченными вычислительными мощностями смогут создавать и развивать передовые технологии, адаптировать ИИ под конкретные прикладные задачи, существенно экономя на дорогостоящих экспериментах с ИИ.

Результаты исследования были признаны мировым научным сообществом и представлены на главной научной конференции в области ИИ в мире — международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems).

Визуализация качества альтернативных подходов и алгоритма ReBRAC. По горизонтальной оси — качество алгоритма относительно «эксперта» (служит эталоном для обучения ИИ-агентов), где 100 — это уровень эксперта. По вертикальной оси — процент испытаний, в которых удалось превзойти выбранную отсечку качества. Чем выше линия, тем лучше. Метод, предложенный Tinkoff Research, стал первым превзошедшим эксперта более чем в половине испытаний

Суть открытия

Ученые из Tinkoff Research идентифицировали четыре компонента, которые были представлены в алгоритмах последних лет, но считались второстепенными и не подвергались детальному анализу:

Глубина нейронных сетей. Увеличение глубины сети помогает ей лучше понимать сложные закономерности в данных
Регуляризация актора и критика. В ИИ-агентах есть два компонента: «актор», который предпринимает действия, и «критик», который оценивает эти действия. Ученые использовали совместную регуляризацию обоих компонентов, чтобы актор избегал нежелательных действий, а критик более эффективно оценивал их. Ранее не было понятно, как сочетать оба подхода с наибольшей эффективностью
Увеличение эффективного горизонта планирования — позволяет модели балансировать между краткосрочными и долгосрочными аспектами задачи и улучшает ее способность принимать решения
Использование нормализации слоев (LayerNorm) — стабилизирует процесс обучения нейронных сетей

Ученые из Tinkoff Research интегрировали эти компоненты в алгоритм-предшественникBRAC (Behavior Regularized Actor Critic —актор-критикс контролируемым поведением) 2019 года и провели исследование, поочередно варьируя каждый из них. Оказалось, что правильная совокупность этих компонентов дает даже этому старому подходу самую высокую производительность среди лучших аналогов на сегодняшний день. Модифицированный алгоритм получил название ReBRAC.

Тестирование на робототехнических симуляторах показало, что алгоритм обучает ИИ в четыре раза быстрее и на 40% качественнее всех существующих в офлайн-бенчмарках. Ранее лидерство принадлежало алгоритмуSAC-RND, также созданному учеными из Tinkoff Research.

Визуализация вариантов тестирования алгоритма: поиск цели в лабиринте (Ant), скорость бега (Halfcheetah, Hopper, Walker2d), задачи для робокистей — правильно держать ручку (Pen), открыть дверь, забить гвоздь, переместить объект

ReBRAC также эффективнее всего решает проблему дообучения искусственного интеллекта, который обычно медленно адаптируется к новым условиям. Например, робот, который был изначально обучен передвигаться по траве, упадет, если переместится на лед. ReBRAC же позволяет ИИ лучше учиться на ходу и адаптироваться.

Признание открытия мировым научным сообществом

В 2023 году рецензенты международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems), на которой было представлено открытие ученых из Tinkoff Research, получили на рассмотрение свыше 13 тысяч статей от ученых со всего мира, из которых 3,5 тысячи были отобраны для представления на конференции. Селективность — всего 26%. Среди них сразу четыре научные статьи Tinkoff Research. Помимо алгоритма ReBRAC ученые представили две открытые библиотеки в области офлайн-обучения с подкреплением (Offline RL, ORL), благодаря которым специалистам по ИИ больше не требуется самостоятельно воспроизводить результаты наиболее весомых научных работ. Статьи уже цитируются ведущими исследовательскими лабораториями со всего мира — в их числе Стэнфордский университет, Калифорнийский университет в Беркли и научно-исследовательская лаборатория Google DeepMind.

Межтекстовые Отзывы

Посмотреть все комментарии

Вам также может понравиться