ゲーム理論入門①
こちらはQiita: 湧源クラブ Advent Calendar7日目の記事です!
qiita.com
今回はゲーム理論について前提知識ゼロで書いてみたいと思います。
(数学の基本的な表記方法は知っていることとします。)
定義など正確な記述をしたい部分はとてもリスペクトしている愛読書、神取道宏『ミクロ経済学の力』より引用しています。
ゲーム理論とは
ゲーム理論とは、複数の人間が相手の出方をうかがいながら行動する状況を考える学問でミクロ経済学の一分野とされています。このような状況は現実に多く存在し、非常に一般性の高い理論です。
ゲーム理論の歴史
ゲーム理論という学問分野は数学者John von Neumannと経済学者Oskar Morgensternの共著書『ゲームの理論と経済行動』によって1944年に誕生しました。
→「おいおい、ここでもvon Neumann出てくるんかい!」とツッコミたくなりますね。
現在でもゲーム理論はミクロ経済学の大きな一分野として研究されており、経済学だけでなく生物学や政治学など他の分野にも応用されています。
また、近年は現実の人々の行動を説明する方法としてゲーム理論だけでなく行動経済学も盛んに研究がされています。
ゲームとは
それではゲーム理論の内容に入っていきます。
まずはゲームの定義から!
利得という言葉はあまり聞き馴染みないかもしれませんが、その人の嬉しさを表す(大きいほど嬉しい)ものだと思ってください。
ゲームとは、次の三つの項目からなるモデルである。
- プレイヤー
- プレイヤーの戦略 (プレイヤーが取ることのできる戦略全体の集合をと書く)
- プレイヤーの利得
ゲームの例
まず最初にゲームの代表的な例として有名な「囚人のジレンマ」を紹介します。
ある二人の囚人1と2が共犯で逮捕されており、別々に尋問を受けている。
二人ともある犯罪に加担したことはわかっているけれど、犯行の詳細は完全にはわからないので取り調べを受けている。
各囚人の取ることができる戦略は黙秘するか告白するかのいずれか。
各囚人は以下の共通認識を持っている。
- 二人とも黙秘すれば禁固1年で済む
- 二人とも告白すれば禁固3年になってしまう
- 一方が告白してもう一方が黙秘すれば、告白した方は無罪放免となるが黙秘した方は禁固5年になってしまう
ここでは禁固年をの利得と捉えて利得関数を与えます。
これらを表にまとめてみると以下のようになります。
各セルの左側が囚人1の利得で右側が囚人2の利得です。
1\2 | 黙秘 | 告白 |
---|---|---|
黙秘 | -1,-1 | -5,0 |
告白 | 0,-5 | -3,-3 |
このように各プレイヤーの戦略の組に対応させて利得を書いた表を利得表といいます。
これを見ると、二人にとって幸せな結果は(黙秘、黙秘)で両者利得−1を得る状態という感じがします。
もちろん自分だけ告白して利得0が一番嬉しいわけですが、
少なくとも(告白、告白)で両者利得-3という状態になるくらいだったら
(黙秘、黙秘)にして両者利得-1のほうがマシですよね...(フラグ)
それでは実際に各囚人はどのような行動をとることが予想されるでしょうか?
自分が囚人1になった気持ちで考えてみましょう。
囚人2の行動で場合分けしてみます。
- もし囚人2が黙秘してくるなら
- 黙秘なら利得-1
- 告白なら利得0
→告白のほうがいい!
- もし囚人2が告白してくるなら
- 黙秘なら利得-5
- 告白なら利得-3
→告白のほうがいい!
このことから囚人1は囚人2がどっちの戦略を取るとしても告白することが最善の戦略であることがわかります。
また囚人2も同様の考えで告白することが最善の戦略であることがわかります。
よって、予想される戦略は(告白、告白)で両者利得-3というお互いに嬉しくない状態になります!(フラグ回収)
(告白、告白)で両者利得-3よりは(黙秘、黙秘)で両者利得−1の方がお互いに嬉しいはずなのに、
なぜか悪い方である(告白、告白)が実現してしまうことがジレンマと呼ばれる所以です。
ナッシュ均衡
囚人のジレンマゲームではお互いに「相手がどんな戦略をとってきても告白をしたほうが良い」という状況でした。このようなとき、告白は強支配戦略であるといいます。
お互いに強支配戦略をもっているときはゲームの結果を予想することは簡単ですが、現実的にはそのようなことは稀だと思います。
それではゲームにおいて結果を予想するような均衡概念(=ゲームの解)はどのようなものなのでしょうか。
標準形ゲームにおいては、ナッシュ均衡と呼ばれる均衡が中心的な解概念の役割を果たしています。
ナッシュ均衡の定義
ナッシュ均衡を定義する前にまず記号の約束をします。
をある戦略の組として、プレイヤー一人だけが戦略からへ変えた状態を
と書くことにします。
定義:戦略の組が、すべてのプレイヤーとすべての戦略について
を満たすとき、をナッシュ均衡という。
数式の定義だけだと直感的にはどのようなこと言っているのかわかりにくいかもしれないので、日常的な言葉で言い換えると、
となります。
ナッシュ均衡の例
囚人のジレンマを例にナッシュ均衡について考えてみましょう。
囚人のジレンマの利得表は以下でした。
1\2 | 黙秘 | 告白 |
---|---|---|
黙秘 | -1,-1 | -5,0 |
告白 | 0,-5 | -3,-3 |
先ほどの常識的な思考の結果から、(告白、告白)のみがナッシュ均衡であってほしいですが、どうなるでしょうか。(フラグ)
それぞれの戦略の組がナッシュ均衡であるかを定義に従って確認してみます。
- (黙秘、黙秘)について→プレイヤー1は告白に変えることで特をするのでナッシュ均衡でない
- (黙秘、告白)について→プレイヤー1は告白に変えることで特をするのでナッシュ均衡でない
- (告白、黙秘)について→プレイヤー2は告白に変えることで特をするのでナッシュ均衡でない
- (告白、告白)について→両者とも戦略を変えても特をしないのでナッシュ均衡
よって、ナッシュ均衡は(告白、告白)のみであることがわかりました!(フラグ回収ならず)
とりあえず常識的な思考の結果と一致したので、よほど変な均衡概念ではなさそうだということがわかりましたね(当たりまえ)