Уроки го
 

AlphaGo и предел интуиции машины

Перевод статьи в журнале Harvard Business Review 

Google приобрел разработчика AlphaGo компанию DeepMind в 2014 году за 500 миллионов долларов. Алгоритм глубокого обучения  (deep learning) AlphaGo подразумевал не только обучение «сети политики» и «сети ценности» на базе из миллионов игровых позиций, но и тысячи тренировочных игр копий сетей друг с другом. Названия обеих сетей созвучны понятиям менеджмента и указывают на связь с эффективностью, а не с силой линейного расчета.

«Сеть политики» помогала сузить выборку решений, которые быстрее приведут к победе. «Сеть ценности» сокращала глубину поиска, оценивая шансы на победу в каждой позиции без доигрывания ее до конца. В случае настольной игры с высокой определенностью, ограничение вашего поиска – хорошая идея.

Но с точки зрения менеджмента, конкуренция менее регламентирована. В бизнесе важно не только, победил ты или проиграл, но и каков счет. Искусственный интеллект продемонстрировал свое ограничение в этом аспекте в третьей игре матча с Ли Седолем, когда AlphaGo не наращивала своего преимущества, действуя в медленном темпе. В Го каждый поединок не зависит от другого. AlphaGo сосредоточена на победе в конкретной игре. Однако в бизнесе ваша кривая успеха помогает вам повысить шансы в других играх.

Другое ограничение силы АlphaGo – тайм-менеджмент. Особенность алгоритма в том, что AlphaGo следит за расходом времени на каждое решение. Польза такого ограничителя в том, что AlphaGo не потратит слишком много времени в начале игры, оказавшись в цейтноте в ее конце. Мастер Ли действовал совершено иначе. Он тратил значительное время на размышления в критические моменты игры. Единственное поражение AlphaGo в четвертой игре стало следствием заложенного в программу «эффективного» расхода времени. Если бы AlphaGo потратила больше времени на анализ, она могла найти решение для выстраивания более безопасной позиции. Есть время, когда рутинные бизнес решения можно принимать очень быстро. Но когда компания сталкивается с новой ситуацией с далеко идущими последствиями, требуется больше времени на обдумывание, как адаптироваться и среагировать. Искусственному интеллекту также необходимо больше времени на вынесение суждения.

Наконец, касательно алгоритма самообучения AlphaGo. Несмотря на более чем тысячелетнюю базу знаний в виде записей игр, AlphaGo проиграла из-за ошибки: неожиданное действие Ли Седоля [постановка 78 в игре № 4] застало сеть врасплох. Более того AlphaGo не только плохо среагировала, но и поняла свою ошибку лишь несколько постановок спустя. Внутреннее обучение, будь то уровень компании или индустрии, имеет свои ограничения, особенно в современной взаимосвязанной экономике. Новые ситуации требуют новых решений, которые не могут быть найдены в старых учебниках. Менеджеры постоянно ищут, как решались подобные проблемы в других индустриях, чтобы подобрать уникальное решение своей проблемы. Конечно, люди чаще ошибаются, чем машины, но человек быстрее обнаружит ошибку и начнет искать пути ее решения. Как мы знаем, AlphaGo обнаружила свою ошибку слишком поздно, чтобы ее можно было исправить.

Метки: , , ,

Comments are closed.

© Русская Школа Го и Стратегии, 2016. Все права защищены