DeepMind — ИИ-подразделение Google, базирующееся в Лондоне, — разработало улучшенную версию программы AlphaGo, которая прославилась победой над чемпионом по игре в го Ли Седолем в прошлом году. Инженеры переписали алгоритмы нейросети, сделав её полностью самообучаемой: AlphaGo Zero способна "тренироваться" сама, без какого-либо участия со стороны человека.
На то, чтобы освоить правила игры в го — древнюю настольную стратегию, которая возникла в Китае свыше 2 тысяч лет назад, — искусственному интеллекту потребовалось всего несколько часов. Уже через три дня новая нейросеть превзошла AlphaGo Lee — версию, которая одолела профессионального игрока из Южной Кореи со счетом 4:1 в 2016 году.
Через 21 день разработка DeepMind приблизилась к уровню AlphaGo Master — онлайн-версии, которая в 2017-м победила топ-60 сильнейших игроков в го, включая чемпиона мира Ки Джи во всех 3-х партиях. А 40 дней спустя AlphaGo Zero обыграла все свои ранние инкарнации, став самым совершенным алгоритмом. Когда новому ИИ дали сразиться с версией AlphaGo 2016 года, его противник был разгромлен со счетом 100:0.
Если AlphaGo Lee училась на ходах профессионалов, то "самоучка" Google на начальном этапе располагала только самыми базовыми правилами игры, пишет The Guardian. Она играла сама с собой миллионы раз: перед каждым ходом алгоритмы анализировали позиции фигур на доске и вычисляли оптимальное решение, которое с самой большой вероятностью может привести к победе. После игры нейросеть обновлялась, чтобы в следующей партии сразиться с более сильной версией себя.
Го долгое время считалась слишком сложной стратегией для компьютеров. В отличие от шахмат, она требует интуитивного мышления и тактики, подразумевает огромное количество возможных ходов и комбинаций. Это сильно усложняет создание алгоритмов для их анализа и предсказаний действий соперника.