Программа искусственного интеллекта для игры в покер первой победила профессионалов в безлимитном техасском холдеме

DeepStack устраняет разрыв между подходами, используемыми в играх с идеальной информацией — например, в шашках, шахматах и ??го, — с подходами, используемыми для игр с несовершенной информацией, с рассуждением во время игры с использованием «интуиции», отточенной посредством глубокого обучения для переоценки своей стратегии. с каждым решением.«Покер является давней проблемой для искусственного интеллекта», — говорит Майкл Боулинг, профессор факультета естественных наук Университета Альберты и главный исследователь исследования. «Это типичная игра несовершенной информации в том смысле, что игроки не имеют одинаковой информации или разделяют одну точку зрения во время игры».Не позволяйте названию ввести вас в заблуждение: игры с несовершенной информацией — серьезный бизнес. Эти «игры» представляют собой общую математическую модель, описывающую, как взаимодействуют лица, принимающие решения.

Исследования в области искусственного интеллекта имеют богатую историю использования комнатных игр для изучения этих моделей, но основное внимание уделяется играм с идеальной информацией. «Нам нужны новые методы искусственного интеллекта, которые могут обрабатывать случаи, когда лица, принимающие решения, имеют разные точки зрения», — говорит Боулинг, объясняя, что разработка методов решения проблем с неполной информацией в играх будет иметь применения далеко за пределами покерного стола.«Подумайте о любой проблеме из реального мира.

У всех нас немного разные взгляды на то, что происходит, так же, как каждый игрок знает только свои собственные карты в игре в покер». К немедленному применению относятся составление надежных рекомендаций по лечению, стратегическое оборонное планирование и переговоры.Это последнее открытие основано на и без того впечатляющих результатах исследований в области искусственного интеллекта и игр с несовершенной информацией, которые восходят к созданию исследовательской группы компьютерного покера при Университете Альберты в 1996 году.

Боулинг, который стал главным исследователем группы в 2006 году, руководил этим группа к нескольким этапам развития искусственного интеллекта. Он и его коллеги разработали Polaris в 2008 году, обойдя лучших игроков в покер в хедз-ап лимитном техасском холдеме.

Затем они решили разыграть лимитный холдем один на один с Cepheus, опубликованным в 2015 году в журнале Science.DeepStack расширяет способность обдумывать каждую ситуацию во время игры — что было хорошо известно в таких играх, как шашки, шахматы и го — до игр с несовершенной информацией, используя технику, называемую постоянным повторным решением. Это позволяет DeepStack определять правильную стратегию для конкретной ситуации в покере, не задумываясь обо всей игре, используя свою «интуицию» для оценки того, как игра может разыграться в ближайшем будущем.

«Мы обучаем нашу систему познанию ценности ситуаций», — говорит Боулинг. «Каждая ситуация сама по себе является мини-игрой в покер. Вместо решения одной большой игры в покер она решает миллионы этих маленьких игр в покер, каждая из которых помогает системе улучшить ее интуитивное представление о том, как работает игра в покер.

И эта интуиция является топливом. за тем, как DeepStack играет в полную игру ".Обдумывание каждой ситуации по мере ее возникновения важно для сложных задач, таких как безлимитный холдем один на один, в котором гораздо больше уникальных ситуаций, чем атомов во вселенной, в основном из-за способности игроков делать ставки на разные суммы, включая драматические. "все в." Несмотря на сложность игры, DeepStack действует с человеческой скоростью — в среднем всего три секунды на «обдумывание» — и работает на простом игровом ноутбуке с графическим процессором Nvidia.Чтобы проверить этот подход, DeepStack в декабре 2016 года сыграл против группы профессиональных игроков в покер, привлеченных Международной федерацией покера.

Было набрано 33 игрока из 17 стран, каждому из которых было предложено сыграть матч из 3000 рук в течение четырех недель. DeepStack победил каждого из 11 игроков, закончивших свой матч, и только один вышел за пределы статистической значимости, что сделало его первой компьютерной программой, которая обыграла профессиональных игроков в безлимитном техасском холдеме один на один.