Некоммерческая организация из Сан-Франциско OpenAI, одним из основателей которой был Илон Маск, выпустила алгоритм с открытым исходным кодом под названием Hindsight Experience Replay (HER). Он позволяет роботам эффективно учиться, рассматривая каждую неудачу машины как движение к успеху.

Если раньше большинство стратегий обучения роботов (и людей) сводились к оценке с точки зрения числа удачных и неудачных попыток, то сегодня новый алгоритм от OpenAI полностью меняет этот подход. Алгоритм рассматривает каждую неудачную попытку не как поражение, а как шаг на пути к успеху. По словам разработчиков, это серьезно меняет подход и скорость обучения. Ведь пока ты не сделаешь ошибку, не поймешь, как ее избежать.

Другое преимущество алгоритма заключается в том, что он использует методику, которую исследователи называют «редким вознаграждением». Большинство алгоритмов обучения использует «full-pack rewards», когда робот получает награды разных размеров в зависимости от того, насколько близко он подбирается к выполнению задачи. В новом алгоритме робот получает одну награду только в случае успеха.

Традиционная методика эффективна, но разработка подобных программ занимает больше времени, и они не всегда подходят для реальной жизни. Большинство приложений ориентированы на конкретные результаты, и робот может либо преуспеть в них, либо нет. Редкие вознаграждения означают, что робот получает только одну награду. Ее проще измерить и проще реализовать.

Компромисс, тем не менее, заключается в том, что такой подход делает обучение медленнее, потому что робот не получает постоянной обратной связи. Именно в этом заключается идея нового алгоритма: он позволяет роботам учиться с редкими наградами, но рассматривая каждую попытку как урок и каждый раз изменяя цель, чтобы робот мог чему-то научиться.

Источник

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.


Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: