gameT - 41semicolon/41semicolon.github.io GitHub Wiki

基本概念

ゲームは複数のプレイヤーが戦略にもとづいて自分の手番で決定を繰り返すことで進行する。最終的に各プレイヤに利得が与えられる。各プレイヤは利得を最大化できる戦略を知りたいというのが主要な課題。

他プレイヤの戦略を固定したときに、自身の利得を最大化する戦略を最適反応という。他プレイヤの戦略が分からない場合、他プレイヤがどの戦略を採用した場合でも、運よく唯一の最適反応が存在するなら、その戦略を支配戦略という（注：支配戦略とは自身のとれる戦略間での関係）。

各プレイヤの戦略の組のうち、それぞれの戦略が他のプレイヤの戦略に対する最適反応で場合ナッシュ均衡にあるという。ナッシュ均衡は複数あることもあるし、存在しないこともある。混合戦略を認めるならば必ずナッシュ均衡が存在するというナッシュの定理が存在する。

ゲームを繰り返す場合は繰り返しゲームと呼ぶ。ルールがや取りうる選択が完全に参加者に了解されている場合完備なゲームと呼ぶ。ゲームの全情報が全参加者に了解されている場合完全情報ゲームと呼ぶ。利得の総計がゼロの場合ゼロサムゲームと呼ぶ。

手続き

後ろ向き推論: 決定木の末端から順番にプレイヤの決定を推論していく方法。バックワードインダクションとも呼ぶ。

純粋戦略におけるナッシュ均衡の求め方: プレイヤBの戦略を固定してプレイヤAの最適反応Saを求める。これをBの戦略全てについて行う。こうして得られた複数の組み合わせ {(Sa,Sb)} に対して、今度はSbが最適反応であるかのチェックをパスすれば残った組がナッシュ均衡の組み合わせとなる。なければナッシュ均衡は存在しない

ゲームの類型

囚人のジレンマ: (協調,協調)がお互いの利得を最大化する組み合わせにもかかわらず、ナッシュ均衡は(裏切り,裏切り)という組み合わせになり合理的な選択ができない。

チキンゲーム: ナッシュ均衡が(強硬,回避)と(回避,強硬)の二つがあるが、各プレイヤにとって望ましい均衡は互いに異なる。

男女のゲーム: ナッシュ均衡が(選択A,選択A)と(選択B,選択B)という「戦略を合わせる」というのが最適な戦略の組み合わせになるもの。

オークション: 公開型と封印型に分けられる。公開型はせり上げ方式（英国式）とせり下げ方式（オランダ型）に分けられる。封印型は第一価格方式と、第二価格方式（ヴィックレイ式）に分けられる。収入同値定理というのがあって、ある前提が満たされるならどのオークション方式でも変わらない。

マッチング: TTCアルゴリズム(円環を作ってその中でマッチングさせる)やDAアルゴリズム(仮許諾を使った暫定マッチング)がある。

メタ戦略

相手に自分に有利な戦略を選択させるための行為を戦略的操作という。

脅し: 他のプレイヤに特定の選択を迫り、選択しない場合に自分が特定の戦略を取ると脅す。報復となる戦略は両者の利得を共に減ずるものとなるのが通常。なので空脅し（ブラフ）と見抜かれる危険もある。見抜かれないために「第三者/自然に報復戦略を決めさせる」「情報操作を行う」などが考えられる。

交渉: 囚人のジレンマや男女のゲームのように、ある均衡点よりも両者が共に利得を得られる場合がある。そこでプレイヤ間が各自の戦略を変更するよう協議、すなわち得られる余剰の配分に対してゲームを行う。交渉が決裂した場合には余剰はゼロになる。

コミットメント: 自身の戦略を決めることで相手の決定をも制約してWin-Winとなるような戦略の組み合わせに落とし込む。最後通牒はコミットメントの一種。最後通牒を突きつける側が強い決定権を持つのでそうならないように気を付ける

フォーカルポイント: 行動経済学的・生物学的・文化的な背景によってどの均衡点に到達しうるかを想定できる場合があり、それを察知していれば交渉力を持ちえる。

しっぺ返し戦略: 繰り返しゲームにおいては長期的な関係構築が鍵になる。囚人のジレンマでは、しっぺ返し戦略「基本的に協調する。裏切られたらすぐに裏切り返し、協調してきたらすぐに協調する」が平均的に良い利得を得ることが知られている。

スクリーニングとシグナリング: 不完全情報ゲームにおいて、他者の情報を開示させることをスクリーニングと呼び、自身の情報を開示することをシグナリングと呼ぶ。知識が共有化されることで協調動作が可能になる。

多段階交渉: 交渉のたびに余剰が減る効果を取り入れることで、戦略が変わってきうる。