Го и искусственный интеллект

Гарри Каспаров vs Deep Blue

17 Feb 1996, Philadelphia, Pennsylvania, USA --- GARRY KASPAROV PLAYS AGAINST DEEP BLUE --- Image by � LAURENCE KESTERSON/CORBIS SYGMA

Ли Седоль vs AlphaGo

Ли Седоль и Демис Хассабис

Фан Хуэй vs AlphaGo

Фан Хуэй играет c AlphaGo

Компьютеры уже превосходят человека в большинстве самых разнообразных игр, возьмем мы шахматы, отелло, эрудит, нарды или покер. Однако игра Го до создания AlphaGo оставалась недостижимой вершиной для компьютерных программ. Пожалуй, это последняя и единственная игра, в которой сеть доминирует над «железом». Ведь в мозгу человека функционирует нейронная сеть, а не процессор.

Изобретенная более 2500 лет назад в Китае, игра Го была любимым занятием императоров и полководцев, интеллектуалов и вундеркиндов. Подобно шахматам, это игра с полной информацией, где ничего не скрыто от другого игрока как в картах, и нет элемента случайности, как в играх с кубиком.  И, как и шахматы, Го — это война двух сил.

Игра начинается с пустой доски, на которую игроки по очереди ставят черные и белые камни, деля и огораживая территорию, стремясь при этом избежать захвата своих камней противником. Может показаться, что Го проще, чем шахматы, но это не так. Когда Deep Blue уже побеждал Каспарова, лучшие программы Го не могли обыграть любителя среднего уровня. Несмотря на огромный рост мощности современных компьютеров, создание программы Го, играющей на уровне мастера,  оставалось одной из самых больших нерешенных загадок искусственного интеллекта.

На западе Го с давних пор является любимой игрой математиков, физиков и программистов. Еще Лейбниц в далеком 18 веке писал об удивившей его своей сложностью китайской игре Го. Эйнштейн играл в Го во время своего пребывания в Принстоне, также как и математик Джон Нэш,  получивший впоследствии нобелевскую премию за исследования по теории игр.

Один из основателей программирования Алан Тьюринг серьезно увлекался игрой Го.  Работая над расшифровкой немецких шифров во время Второй мировой войны, он познакомил с Го криптографа Ирвинга Гуда. Гуд получил известность благодаря своей концепции технологической сингулярности, согласно которой рано или поздно машины станут умнее людей. В 1965 время его статья «Тайна Го» в журнале New Scientist дала огромный толчок к росту популярности Го в Европе, подобно эффекту публикаций В. Асташкина и Г. Нилова в советском журнале «Наука и жизнь».

«Увлекательность Го  в том, что простота основных правил приводит к огромной вариативности игры, в тайне стратегических принципов, в постепенном прояснении этой тайны и в аналогии игры с войной. Эта аналогия особенно очевидна, когда играешь на досках, напоминающих карты. Правила настолько просты, что, возможно, Го подобно играм, в которые играют внеземные цивилизации в самых далеких уголках нашей галактики.

Возможна версия игры в Го, когда за доску садятся несколько игроков, и каждый играет за свой цвет. Такая битва всех против всех с альянсами между игроками похожа на геополитическую борьбу и может приводить к шумным сценам во время игры. Но обычно Го увлекает людей с IQ между 110 и 190. Даже очень увлекает! Особенно это касается математиков и ученых из-за появления гештальта — единение с выдающимся паттерном из коллекции дискретных образований и аксиом.

Го и компьютер?  Задача запрограммировать компьютер играть в Го, а не просто соблюдать правила игры, требует формализации принципов хорошей стратегии или разработки программы обучения. Принципы Го более таинственны, чем в шахматах и носят качественный характер, завися от суждений. Поэтому я думаю, что будет намного труднее научить компьютер играть в Го, чем в шахматы».

из статьи «Тайна Го», 1965.

Ирвинг Джон Гуд

Ирвинг Джон Гуд, математик и криптограф

Го программы

Несмотря на успехи в создании программ для большинства игр, Го до середины 2000-х годов оставалось недосягаемым и желанным плодом для программистов. Долгое время фонд Инга держал открытым грант на миллион долларов тому, чья программа победит профессионального игрока 1 дана. До 2015 года такой программы создано не было.

Да, попыток разработать программу было множество. Однако все они играли откровенно слабо. Алан Тьюринг написал собственную программу для шахмат, но за игру Го взяться не решился, либо не успел (как известно, он покончил с собой).

В 1968 году ученый-программист и разработчик компьютерных игр Альберт Зобрист создал первую игровую программу Го. Эта разработка стала частью его диссертации посвященной проблеме распознавания образов. Собственно, главная проблема программирования Го в том, чтобы научить компьютер видеть позицию на доске так, как ее воспринимает человек. Программа Зобриста могла обыграть абсолютного новичка, то есть человека, только познакомившегося с правилами.

Перебрать дерево вариантов в Го невозможно, так как фактор ветвления в Го равен 250 (против 35 в шахматах), а всего игровых вариантов больше, чем атомов в видимой части Вселенной. Остается либо полностью расписать стратегию победы, что пока не представляется возможным, либо обучить компьютер играть так, как мы учим новичка.

В 1979 году программист Брюс Уилкокс представил свою программу, на создание которой он потратил 5 лет. Он сосредоточился на моделировании «экспертного интеллекта», исследуя отношения и взаимосвязи между камнями в играх его программы с одним из сильнейших игроков Го Европы того времени Джеймсом Кервином. 

Программа делила доску на более мелкие управляемые зоны, а затем использовала базу данных для генерации возможных постановок, применяя иерархическую функцию, чтобы выбрать лучшую из них. В первой версии программы полностью отсутствовал алгоритм альфа-бета отсечения, который являлся краеугольным камнем для программирования логических игр.

Вероятность, что AlphaGo угадает ваш ход

Коэффициент Эло

AlphaGo v.18
9 проф. дан
Crazy Stone
Pachi

Процент побед AlphaGo в матчах с Го-программами

В процессе разработки программы Брюс сам достиг глубокого понимания Го, так как ему пришлось разбираться в самых тонких аспектах игры, чтобы заложить их в программу. Его детище было способно обыгрывать слабых любителей. 

В 1990-е годы было создано сразу несколько играющих программ, с одной из которых я много играл, когда начинал изучать Го в 2004 году. Это Manyfaces of Go, которая в целом была способна играть на среднем уровне, не делая совсем дурацких ошибок. Однако после года обучения  программу уже можно было обыгрывать, давая ей 9 камней форы.

Добившись определенного успеха в программировании, прогресс застопорился. Программисты столкнулись с той же проблемой, с которой сталкивается человек, изучающий игру Го. Нужно было перейти от локального осмотра участков доски к синтетическому видению позиции в целом. Как этому научить компьютер, было совершенно непонятно. Далеко не каждый человек способен совершить такой переход. Этот рубеж известен как «потолок 8 кю».

К началу 2000-х годов, казалось, все возможности улучшить существующие Го-машины исчерпаны. Программисты спорили, каким путем идти: увеличивать мощность или что-то менять в алгоритме. Решение было найдено — метод Монте-Карло. Методика была разработана в 1950-х годах для моделирования ядерных взрывов и опирается на анализ статистической выборки меньшего числа возможностей вместо полного перебора дерева вариантов. 

В 2006 году французский программист Реми Кулом применил метод Монте-Карло при разработке своей программы Crazy Stone. Он совместил минимакс и метод Монте-Карло, получив новый алгоритм расчёта дерева ветвлений Monte Carlo Tree Search (MCTS). Его программа действительно сильна и может составить конкуренцию сильному любителю 5-2 кю. Самая современная версия программы, подключенная к облаку серверов, играет на уровне 5-6 любительского дана. Подобной силы достигла и японская программа Zen, делившая первое место с Crazy Stone до появления AlphaGo.

Нейросети и Го

Сергей Брин играет в Го
Марк Цукерберг Facebook

2015 год стал переломным в развитии программ для игры Го. В схватку за лидерство вступили два гиганта Facebook и Google. Обе компании объявили, что взялись за разработку искусственного интеллекта, способного победить человека в Го. Речь идет о высших мастерах и чемпионах. Подразделение Google DeepMind в феврале 2016 года объявило о том, что уже в октябре 2015 года трехкратный чемпион Европы Фан Хуэй проиграл матч программе AlphaGo с сухим счетом 5:0.

Руководитель проекта AlphaGo Дэмис Хассабис заявил, что работа программистов не ограничится игрой Го. Их искусственный интеллект будет использован в смартфонах, программном обеспечении безрулевых автомобилей, а также для проведения сложных расчетов при прогнозе катастроф и изменения климата.

Facebook так и не представил свою программу Darkforest, объявив в 2016 году, что компания близка к завершению работ. После ошеломительных побед AlphaGo искусственный интеллект Facebook переключился на обучение чтению. Но разработчики внимательно следили за матчем между AlphaGo и Ли Седолем. «Наша главная цель — использовать новые подходы в изучении искусственного интеллекта, чтобы придать смысл всему контенту, которым обмениваются люди. Таким образом мы можем генерировать новые идеи о мире, чтобы ответить на вопросы людей», — заявил Марк Цукерберг.

История создания искусственного интеллекта

Британский криптограф и математик Алан Тьюринг выдвинул тезис о интеллекте машины в работе «Вычислительные машины и разум», предложив эксперимент для проверки искусственного интеллекта (Тест Тьюринга).

Понятие искусственного интеллекта (AI) стало официальным термином на научной конференции в Дартмутсе по информатике.

Философ и критик создания искусственного интеллекта Хьюберт Дрейфус из Калифорнийского университета играет в шахматы с программой MacHack. Дрейфус написал книгу «Чего не могут вычислительные машины».

Разработанный фирмой IBM суперкомпьютер Deep Blue побеждает в матче с чемпионом мира по шахматам Гарри Каспаровым.

Sony выпускает собаку-робота Aibo с искуственным интеллектом.

Автомобиль, управляемый искусственным интеллектом, проехал по пустыне 210 км.

Суперкомпьютер IBM под названием Watson стал победителем популярной американской теле-викторины «Jeopardy!».

Программа искусственного интеллекта Женя Густман прошла тест Тьюринга, согласно которому машина должна ввести в заблуждение собеседника, добившись того, чтобы он решил, что разговаривает с человеком.

AlphaGo, разработанная компанией Google, победила чемпиона Кореи и одного из сильнейших мастеров Го в мире Ли Седоля в матче из пяти игр со счетом 4:1.

В чем же секрет успеха AlphaGo? Инновация Google состоит в сочетании так называемых нейросетей ценности и нейросетей политики. Сети ценности отвечают за оценку позиции. Сети политики отвечают за выбор лучшего хода. Одной из проблем программирования игры Го являлась сложность оценки позиции. В отличие от шахмат, в Го ценность одного и того же камня может значительно меняться в ходе игры.

Эти сети обучались по инновационной методике, которая сочетала изучение партий сильных игроков, и самообучение путем проведения тысяч игр между нейронными сетями. Еще одна инновация разработчиков Google — новый алгоритм поиска решений, который сочетает метод Монте-Карло с сетями политики и ценности. В результате AlphaGo обыгрывает все существующие Го-программы (в том числе Crazy Stone и Zen) с результатом от 80% до 99%.

Разработчики Google создали свой уникальный алгоритм самообучения нейросети. Сеть способна учиться на своих ошибках и делает это хорошо. Вот почему это изобретение выходит далеко за рамки игры Го.

Сначала разработчики тренировали нейронную сеть SL Policy Network на 30 миллионах позиций из партий игроков 6-9 дана с сервера KGS. Сеть получала позицию и угадывала вероятную постановку, которая будет следующим ходом. Сети давалась дополнительная информация, например, сколько у камня будет дыханий, сколько этим ходом будет захвачено камней, будет ли работать облава (лестница). В итоге сеть стала угадывать верное продолжение игры в 57% случаев и в 55% случаев, когда у нее была только конечная позиция с историей игры с самого начала. То есть, дополнительная информация ей оказалась и не нужна. 

На что способна сеть AlphaGo

AlphaGo DeepMind
  • Разрабатывать собственную стратегию, играя обучающие игры против самой себя.
  • Сыграть миллион поединков Го за месяц, на что человеку потребовалось бы 1000 лет.
  • Предсказывать следующий ход соперника с точностью 57%.
  • Побеждать самые совершенные компьютерные программы со счетом 1 поражение из 500 матчей.
  • Побеждать сильнейших мастеров.
  • Играть в большинство игр Atari.

Итак, у нас есть нейросеть, которая угадывает решения игроков уровня дан с KGS. Но нам нужна сеть, которая будет угадывать лучшие решения. Тогда заставим такую сеть играть в Го саму с собой. В ходе тренировки она провела тысячи поединков, используя алгоритм самообучения с подкреплением для корректировки ценности победных решений. Важная идея в том, что после изменения веса какого-то решения, сеть создавала нового «бота», чтобы каждый раз играть со случайным противником внутри себя. Это позволяло избежать «привыкания» сети побеждать типового соперника, вместо того, чтобы постоянно становиться сильнее. В результате натренированная сеть побеждала свою начальную версию (обученную по базе позиций KGS) в 80% случаев и обыгрывала Го-программу pachi в 85% случаях, не обращаясь ни к какой базе данных. То есть, эта сеть действительно натренировалась хорошо играть. Я сам не играл с pachi. Это Го-бот, который играет на сервере KGS, где имеет рейтинг 4 любительский дан, тренируясь на живых людях.

В итоге оказалось, что обученная на поединках сеть эффективнее той, что только пользуется базой позиций KGS. Авторы AlphaGo полагают, что это связано со слишком большой вариативностью действий, из которых сеть не может выбрать лучшее. Открыт вопрос, что получилось бы, если сеть сразу начала играть сама с собой по алгоритму самообучения, без предварительного изучения базы человеческих игр. Поднялась бы она на достигнутый уровень игры или так бы и играла на уровне начинающего?

Ли Седоль 9 дан

South Korean Lee Sedol, the world champion of the ancient Chinese board game Go, left, poses with an image of Demis Hassabis, CEO at Google DeepMind that developed AlphaGo, on a screen though a video conference from London, during a press conference in Seoul, South Korea, Monday, Feb. 22, 2016. Lee will prevail in a match with Google’s computer program AlphaGo next month, but he's not so sure he would be able to do it a year later. AlphaGo defeated a professional Go player for the first time in October, something that experts had predicted would take a decade. The match, described in a paper released in the journal Nature last month, marked a significant advance for development of artificial intelligence. (AP Photo/Ahn Young-joon)

Мастер и чемпион мира Ли Седоль на пресс-конференции о матче между ним и AlphaGo 9-15 марта 2016 года в Сеуле.

Диплом на 9 профессиональный дан для AlphaGo

Диплом на 9 проф. дан для AlphaGo от KBA.

В марте 2016 года AlphaGo впервые в истории победила чемпиона Кореи по Го в матче из пяти поединков.  Один из лучших мастеров Го из Южной Кореи Ли Седоль (9 проф. дан) сумел выиграть единственную игру из пяти. Победитель должен был получить миллион долларов. Так как деньги выиграла AlphaGo, то Google направил приз на благотворительные цели. 

У Ли Седоля 9 профессиональный дан.  У него 472 победы и 185 поражений в поединках, а также 46 побед на национальных и международных соревнованиях.

В отличие от своего неудачливого предшественника, Ли Седоль запросил больше времени на обдумывание решений в игре. У каждого соперника было по 2 часа времени плюс три дополнительных периода по 1 минуте. Однако и этого времени оказалось катастрофически недостаточно. Подсчет итога игры решено было вести по китайским правилам (с коми в 7,5 очков). 

Мастер полагал, что ему удастся победить искусственный интеллект Google с разгромным счетом 5:0 или 4:1. Однако руководство DeepMind не советовало делать поспешные выводы о качестве игры AlphaGo. На пресс-конференции после долгожданной и единственной победы Ли Седоль сказал, что счастлив, что сумел выиграть хотя бы одну игру. Позже он рассказал, что похудел на 7 килограммов в ходе матча.

Мир профессиональных игроков был шокирован этим событием. Чемпион Китая Ке Цзэ, у которого также 9 профессиональный дан, заявил, что потрясен эволюцией AlphaGo и объявил вызов программы на матч. Он оценил свои шансы как 60% побед, но в декабре 2016 года проиграл 3 игры в интернете, сражаясь с анонимным Го-роботом, за которым скрывалось AlphaGo. Теперь профессиональные игроки смотрят на свои шансы с меньшим оптимизмом (см. интервью).

Демис Хассабис рассказал, что DeepMind планирует обучить нейросеть играть в Го без начальной базы знаний. Возможно, что в итоге мы увидим иную стратегию и философию Го, открытую искусственным интеллектом. AlphaGo не ограничится только изучением древней игры. Этот самообучающийся алгоритм возьмется за компьютерные игры, а затем за решение насущных проблем человечества в медицине, науке и технологиях.

Компания Deep Mind опубликовала официальный разбор игр нашумевшего матча, добавив три игры, где  нейросеть играет сама с собой: игры AlphaGo.

Новый сюрприз от DeepMind настиг игроков Го в декабре 2016 года. С 28 декабря по 3 января на двух корейских игровых серверах таинственный компьютерный бот под никами Master и Magister обыгрывал всех сильнейших профессионалов из Китая, Кореи и Японии. Лучший результат, который был достигнут человеком — поражение на пол очка: как за черных, так и за белых. Всего было сыграно 60 игр с небольшим контролем времени (суперблиц): 60 секунд основного времени и 3 периода по 30 секунд на ход (период бесконечен, если ты успел поставить камень в течение 30 секунд). В начале января компания  Google официально объявила что за анонимным ботом скрывается улучшенная версия AlphaGo. Анализ этих игр опубликован на школьном блоге. 

«Мы тренировали AlphaGo также, как перед матчем с Фан Хуэем. Мы потратили больше времени и усилий, чтобы сделать нейронную сеть сильнее и мощнее. Тренировка AlphaGo базируется на изучении миллионов и миллионов позиций, как из игр людей, так и из поединков нейросети самой с собой. Хотя игры  Ли Седоля являются примерами высшего мастерства, мы показали сети лишь несколько из них. То есть, мы не хотим использовать особенности мышления Ли Седоля в Го, чтобы подготовить систему. Мы просто пытаемся сделать максимально сильную программу. 

Если бы мы выставили против Ли Седоля версию нейросети, которая играла в октябре с Фан Хуэем, то у нее были бы нулевые шансы на победу. Но мы усовершенствовали программу. Поэтому профессионалы не могут оценить, насколько программа стала сильна. Но и мы не можем сказать многого, пока не увидим результаты матча.

AlphaGo базируется на поиске Монте-Карло, который основан на случайном поиске в создаваемых симуляциях позиций. Это поиск, который пробует разные ходы в разное время и смотрит, как они работают, и в результате он принимает решение на основе анализа  случайных ходов.

Так как это поиск, есть небольшой шанс совершения ошибки. Есть вероятность, что в ходе множества симуляций он в действительности будет делать ошибочные выводы, просто из-за фактора случайности. Так, в одной из 500 игр сеть может сделать очень большую ошибку.  Но это маловероятно, так как мы начали искать еще глубже и делаем нейросеть еще сильнее.  Маловероятно, что AlphaGo совершит такую ошибку.

Мы выбрали Го, так как эта игра самая сложная из всех классических настольных игр. Шахматы в основном про расчеты. Компьютеры убедительно показали, что они хороши в этом деле еще 20 лет назад, намного лучше, чем лучшие люди. Го больше интуитивная игра, и вам необходима интуиция, чтобы играть. Компьютеры традиционно плохо справляются с интуитивными задачами. Го до сих пор не было взломано компьютером, поэтому мы выбрали именно этот вызов. В Го вам нужно объединить распознавание образов с планированием.

Глядя на успехи в глубоком обучении и других сферах, мы видим, что машины учатся, и искусственный интеллект совершенствуется очень быстро. Похоже, что это только вопрос времени, когда программа станет сильнее человека во всем».

из интервью Korean JoongAng Daily

Демис Хассабис, CEO DeepMind

Хассабис DeepMind

«Я думаю, что технология сама по себе нейтральна и всё зависит от того, как люди ее используют. Мы решаем направить ее на хорошее или на плохое. И я думаю, что AI ничем не отличается. Это инструмент, который человечество может использовать для очень хорошего или очень плохого. Мы хотим использовать его для положительных вещей: таких, как наука и здоровье, и возможно, для роботов, которые смогут ухаживать за людьми, а не для военного применения».

Перевод интервью Демиса Хассабиса газете The Guardian.

Google DeepMind Challenge Match: Ли Седоль против AlphаGo

Google DeepMind Challenge match

Чрезмерно жесткая игра Ли Седоля поставила его в тяжелое положение. Он признал свою ошибку на разборе партии.

1 игра, Ли Седоль черными, AlphaGo белыми. В первом поединке Ли Седоль совершил ошибку в начале игры, позволив AlphaGo разделить слабые черные камни. Это постановка № 27, показанная на рисунке слева. В какой-то момент у черных было 5 слабых отрядов одновременно. Затем чемпиону удалось выравнять баланс и даже получить преимущество из-за медленного защитного действия программы (постановка № 80). Однако AlphaGo провела мощнейшую атаку на один из флангов позиции, ставшую неожиданной для мастера. На пресс-конференции после игры он заметил, что AlphaGo нашла  необычный ход, который никогда бы не сделал человек, имея в виду, что программа превзошла возможности человека.

Итог игры: поражение Ли Седоля под сдачу. Он проигрывал на несколько очков из-за коми (дополнительных 7,5 очков) белых.

Google DeepMind Challenge match

Медленный ход AlphaGo позволил Ли Седою перехватить инициативу после постановки 80. Однако по словам Хассабиса, программа на протяжении всей игры была уверена, что опережает противника на несколько очков. 

Google DeepMind Challenge match

Победная атака AlphaGo, разрушившая территорию черных справа, вернула игру к равному балансу. Последний шанс на победу был потерян после сдачи правого нижнего угла белым.

Google DeepMind Challenge match

Полная запись игры от начала и до момента сдачи. Сейчас Ли Седоль проигрывает на 1-2 очка.

Google DeepMind Challenge match

Высокий камень 37 на пятой линии изменил позиционный расклад и вывел игру на уровень расчетов, выходящих за рамки способностей мастера 9-го дана.

2 игра, Ли Седоль белыми, AlphaGo черными. Во втором поединке  мастер поменял стратегию, сделав ставку на строительство и позиционную оборону. Однако AlphaGo удивляла неожиданными стратегическими ходами на протяжении всей игры. Программа продемонстрировала гибкость и творчество, чем потрясла всех  комментаторов. Ли Седоль после матча сказал, что сегодня он будет немногословен. Комментаторов удивило «плохое» решение, которое вряд ли бы нашел профессионал даже высшего класса, за исключением гениальных мастеров прошлого столетия. Этот камень показан на рисунке слева. Он связан с дальнейшей операцией на левой стороне доски. Столь масштабный стратегический замысел производит впечатление. После этого момента AlphaGo практически не отдала стратегическую инициативу в руки человеку, подавив его сопротивление на всех этапах игры. Хотя медленные и неэффективные ходы у AlphaGo были. Таковым эксперты посчитали захват белых камней ходом 167.

У Ли Седоля закончилось время. Последние несколько десятков постановок он делал на последней минуте дополнительного времени. Время подошло к концу и у AlphaGo. Судя по всему, мастер начал нервничать из-за дефицита времени и стал совершать ошибки. В том числе не успел оценить возможности, которые появились после ошибочной постановки 167. В итоге он проигрывал уже на 5-10 очков, и в конце-концов сдался.

На итоговой пресс-конференции после этой игры Ли Седоль признал свое полное поражение и пообещал в следующем поединке одолеть AlphaGo с помощью тотальной войны. Пресс-конференция была неожиданно свернута, и Ли Седоля увели из зала представители Корейской Ассоциации Бадук. Выглядел он подавленно.  

Google DeepMind Challenge match

Стратегическая операция AlphaGo целиком. Несмотря на ее силу, далее Ли Седоль сумел временно захватить лидерство в игре.

Google DeepMind Challenge match

Блестящая операция AlphaGo по организации территории камнями 151, 157 и 159 изменила баланс в самом конце игры, когда Ли Седоль уже не мог ничего предпринять.

Google DeepMind Challenge match

Одна из возможных ошибок AlphaGo (камень 167), которая посчитала, что победит в партии после захвата камней в центре. В ответ мастер мог организовать ко-борьбу в верхнем правом углу (место отмечено треугольником), продвигаясь вперед на перекресток А.

Google DeepMind Challenge Match

Камень 15  — начало уничтожающей атаки Ли Седоля, которая разбилась о нерушимую стену стратегии, продемонстрированной AlphaGo. Треугольниками отмечены не совсем обычные постановки нейросети в начале игры.

3 игра, Ли Седоль черными, AlphaGo белыми. Эта игра была последним шансом для мастера продолжить матч, открыв счет. Поэтому он бился на пределе своих сил, превратив гобан в сплошное поле боевых действий. Однако на примере этого поединка стало ясно, что программа превосходит чемпиона в понимании стратегии и баланса. AlphaGo выбирает из двух решений то, которое обладает наибольшим шансом на победу, даже если это будет победа всего на 1-2 очка. Человек же стремится максимизировать выгоду, так как он не способен точно спрогнозировать дальнейшее течение игры. 

Используя стратегию непрямых действий, AlphaGo изящно связала атаку Ли Седоля, загнав его камни на край доски (на левой стороне). К 70-й постановке у белых образовался огромный котел внизу, в котором не было ни одного черного камня. Ли Седоль совершил ряд ошибок в атаке большого белого отряда в центре. Но была ли сама возможность атаки? Мы этого пока не знаем, так как DeepMind  не раскрывает статистику расчетов. Последняя блестящая атака мастера позволила ему получить Ко-борьбу, для которой у него не оказалось угроз на доске. Это похоже на пушку без снарядов. В итоге он был вынужден признать поражение. И AlphaGo  досрочно выиграла матч. 

В заключительном слове глава  корпорации Alphabet (куда входит Google) Сергей Брин рассказал о том, как еще в школе изучал Го и продолжает увлекаться игрой до сих пор. Он отметил, что Го — это красота и он счастлив, что им удалось воплотить красоту Го в искусство машины.

Google DeepMind Challenge Match

Победная позиция белых к 70-й постановке. Большая часть черных камней сосредоточена слева и прижата ко второй линии. Это результат провалившейся атаки корейского чемпиона.

Google DeepMind Challenge Match

Постановка 131 открывает возможность организовать отмеченные треугольником черные камни в полуживой отряд (Ко-борьба).  При этом в позиции белых нет серьезных угроз для ведении такой борьбы. Известно, что AlphaGo избегает Ко, но в данном случае тактика навязывания Ко не спасла Ли Седоля от поражения.

Google DeepMind Challenge Match

Запись партии целиком.

Google DeepMind Challenge Match

Один из сильнейших мастеров Китая Гу Ли назвал найденное решение «божественным ходом». Он действительно сумел перевернуть ход поединка, который складывался для Ли Седоля катастрофически. 

4 игра, Ли Седоль белыми, AlphaGo черными. Единственный поединок, в котором Ли Седоль одержал победу, благодаря удивившему всех мастерскому решению (тэсудзи). После него с AlphaGo случилась странная  метаморфоза. Программа начала чудить и совершать откровенно ошибочные действия, потеряв линию стратегии. Как оказалось, программа ведет себя неадекватно в ситуации, когда она резко начинает проигрывать. Найденный мастером ход можно было опровергнуть. Однако нейросеть не смогла отыскать верное решение и отказалась от борьбы. Вместо этого она начала бороться там, где у нее не было шансов на победу. 

Ли Седоль не сразу понял, что происходит. Глупые ходы застали его врасплох. Он ожидал, что это невероятные решения от сети, пытающейся выправить баланс. Программа оправилась лишь через 20 постановок, но блестящие операции в ёсэ не помогли ей исправить положение. После новой серии ошибочных постановок она объявила о сдаче. Хассабис обещал проанализировать всю информацию этой игры и исправить проблему.

Google DeepMind Challenge Match

Игра развивалась по ставшему уже привычным плохому сценарию для чемпиона. AlphaGo с помощью тонко сбалансированной стратегии уверенно вела Ли Седоля к поражению. На рисунке отмеченные черные камни вместе с постановкой 47 готовят опутывающую атаку на слабый белый отряд в центре. Это техника высшего класса.

Google DeepMind Challenge Match

Опровержение 78 постановки Ли Седоля, которое не удалось найти AlphaGo. После камня 86, черные защищаются А и снимают белый камень постановкой С. Это же опровержение нашел во время разбора Майкл Редмонд 9 дан, который комментировал матч в Сеуле.

Google DeepMind Challenge Match

Один из «сумасшедших» ходов AlphaGo.

Google DeepMind Challenge Match

AlphaGo жертвует отмеченные камни и широко защищает угол камнем 26 в стиле мастеров 19 века.

5 игра, Ли Седоль черными, AlphaGo белыми. Перед началом финального поединка Ли Седоль попросил у организаторов разрешения играть черным цветом. Он надеялся, что сумеет обойти AlphaGo в этой игре. В начале партии он динамичной атакой получил небольшое преимущество. AlphaGo действовало в привычном стиле классического Го мастеров прошлого века. Программа пожертвовала несколько камней и начала инвестировать во влияние в центре, но запуталась в простом техническом варианте. Как оказалось, AlphaGo не знает базовых приемов, которые называются тэсудзи. В игре она «попалась» на прием с поэтическим названием «могильный камень». В китайском оригинале он называется «гиря». Видимо, постановка на первую линию была оценена сетью, как неэффективный ход. В результате Ли Седоль получил фору почти в 10 очков. И его победа стала очевидна.

Однако, AlphaGo с каждым шагом незаметно возвращала себе преимущество, действуя немного эффективнее чемпиона Кореи. В результате к концу игры программа получила устойчивое преимущество в 2-3 очка и не дала человеку шанса выйти вперед. Ли Седоль сдался, проигрывая на 2,5 очка. 

В этом поединке AlphaGo не делала заметных «необычных» ходов, однако эксперты отметили несколько выдающихся решений со стороны нейросети, которые сначала сбалансировали позицию, а потом вывели ее в лидеры. В целом AlphaGo просто играла правильнее и точнее, чем чемпион.

Google DeepMind Challenge Match

Тэсудзи «могильный камень» предполагает намеренную жертву двух отмеченных черных камней. В результате весь окруженный белый отряд попадает в плен. Постановка белых 58 показывает, что программа не «понимает» гибели здесь всех белых камней.

Google DeepMind Challenge Match

Мастерская контратака AlphaGo камнем 70, ставшая неожиданной для Ли Седоля. Белые выстраивают огромный котел в центре. Программа применяет против чемпиона стратегию мягкой силы, что вызывает восхищение.

Google DeepMind Challenge Match

Еще один пример изящной стратегии за белый цвет. Программа оставляет без поддержки отмеченные камни и развивает позицию в углу, приглашая Ли Седоля войти туда, чтобы помочь ей захватить еще больше влияния в центре.

Google DeepMind Challenge Match

© Русская Школа Го и Стратегии, 2016. Все права защищены