Лаборатория искусственного интеллекта Google DeepMind обучила компьютерные алгоритмы работать в команде ради достижения победы. Новое достижение исследователи показали на примере модифицированной версии шутера Quake III Arena, в которой соперничали ИИ-агенты и 40 человек, разбитые на несколько смешанных команд.
Новая версия алгоритма названа For the Win ("Ради победы"). Ученые воспользовались методом машинного обучения с подкреплением, позволяющим ИИ-агентам узнавать, какая тактика выигрышная, а какая нет (таким же способом обучали систему AlphaGo, которая прославилась обыгрышем чемпиона мира по игре в го).
Всего ИИ-агенты сыграли между собой около 450 тысяч игр, выясняя наилучшую стратегию. Обучение проходило в режиме "захвата флага" — когда игрокам нужно захватить вражеский флаг и перенести на свою базу. Команды людей и ИИ-агентов были смешанными: алгоритмы могли быть как противниками самим себе, так и товарищами по команде. Чтобы еще больше усложнить задачу, компьютеру был доступен только вид от первого лица, а похожая на лабиринт игровая карта каждый раз генерировалась заново.
В результате выяснилось, что команды, состоящие из ИИ-агентов, наиболее эффективны. Как пишет Technology Review, алгоритмы вырабатывали победные стратегии, позволяющие им, например, численно превзойти соперника в ключевые моменты игры или ожидать, когда у вражеской базы появится новый флаг.
Ценность разработки DeepMind состоит в том, что научить ИИ сотрудничеству очень тяжело, особенно в условиях, когда каждый агент учится независимо от другого. Алгоритм может найти применение в реальном мире, например, помогая роботам более эффективно взаимодействовать как друг с другом, так и людьми.