因果的効果の識別可能性問題 - HappenApps/Quiver GitHub Wiki

因果的効果の識別可能性問題 パス解析について - 歴史 遺伝学 Wrightによって開発 社会科学 構造方程式モデルとして発展 - 特徴 (1) 有向グラフによる定性的因果仮説の表現 (2) パス係数による変数間の相関係数の分解 (3) 直接効果と総合効果の区別 構造方程式モデル ……複数の変数間の従属関係を,誤差の付随した線形or非線形方程式で表現した統計モデル この統計モデルを定性的因果仮説を表現した有向グラフと結びつけて因果関係の統計解析を行うことがパス解析 パス解析はグラフィカルモデルに基づく統計的因果推論として理論整備が進んでいる グラフィカルモデル ex)ベイジアンネットワーク(1980~ ある知識によって得られた命題or変数間の関連性を非巡回的有向グラフで記述し,その妥当性を条件付き確率によって定量化した確率モデル(因果関係を記述した確率モデルではない) 「外的操作」「因果効果」が数学的に定義され,因果的効果の識別可能性が視覚的に判断可能になる.


概略

  • 反事実モデルについては議論の対象にしない。
  • 本章前半
    • 因果ダイアグラムと因果的効果を数学的に定義
    • 因果的効果と条件付き分布の相違点を明らかに
    • バックドア基準とフロントドア基準の導入(ノンパラメトリック構造方程式モデルに基づく因果的効果の識別可能性条件)
      • d分離と条件付き独立性の関係を用いた導出 (推論規則[28]を用いた導出もあるが,ここでは扱わない)
  • 本章後半
    • 線形構造方程式モデルにおいての総合効果の実質科学的解釈の考察
    • 操作変数法・潜在的操作変数法・潜在変数モデルに基づくグラフィカル識別可能条件(因果効果の識別可能条件のアイディア)

因果ダイアグラムと条件付き独立性 因果ダイアグラム ……確率変数間の因果関係(データ生成過程)を非巡回的有向グラフにより表現したもの 数学的な定義は以下の通り

定義3.1 (因果ダイアグラム) 非巡回的有向グラフ $G$ とその頂点に対応する確率変数の集合$$V = {X_1, \cdots , X_p}$$が与えられている.グラフ$$G$$が確率変数間の関数関係を構造方程式モデル $$X_i = g_i(\mathrm{pa}(X_i), \epsilon_i) ~~~~~~~~~~~~~~ i = 1, \cdots , p$$ なる形に規定し,確率変数がこの関数関係に従って自律的に生成されるとき,$$G$$を因果ダイアグラムという. ここに,$$\epsilon_i$$は$$X_i$$の変動のなかで$$\mathrm{pa}(X_i)$$では説明できない部分を表した錯乱項であり,本章では互いに独立であるものとする($$i = 1, \cdots , p$$ において). また,$$\mathrm{pa}(X_i)$$は$$G$$における$$X_i$$の親全体からなる集合であり,$$G$$における$$X_i$$の直接的原因として解釈される.□

定義3.1 は $$g _ { 1 } \left( \mathrm { pa } \left( X _ { 1 } \right) , \epsilon _ { 1 } \right) , \cdots , g _ { p } \left( \mathrm { pa } \left( X _ { p } \right) , \epsilon _ { p } \right)$$ について特別な関数形をしていしないノンパラメトリック構造方程式モデルの形式で記述されているが,パラメトリック構造方程式モデルでも可能.(3.4節ではノンパラメトリックで,3.5節では線形構造モデルに基づいて考察する)

確率変数間の関係が式(3.1)によって規定されたとき,その同時分布 $$\mathrm{ pr } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { p } \right)$$ は $$\mathrm{ pr } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { p } \right) = \prod _ { i = 1 } ^ { p } \mathrm { pr } \left( x _ { i } | \mathrm { pa } \left( x _ { i } \right) \right)$$ と逐次的に因数分解された形で表現することができる. ここに$$\mathrm { pr } \left( x _ { i } | \mathrm { pa } \left( x _ { i } \right) \right)$$は$$\mathrm { pa } \left( x _ { i } \right)$$が与えられたときの$$X_i = x_i$$の条件付き分布であり,$$\mathrm{pa}(x_i)$$が空集合の(i.e. 矢印の行き先に$$x_i$$がない)場合,$$X_i = x_i$$の周辺分布 $$\mathrm { pr } \left( x _ { i } \right)$$を意味する.

図3.1 因果ダイアグラム(1)

図3.1の因果ダイアグラムでは, - $$X_1$$は$$X_2$$および$$X_4$$の直接的原因 - $$X_2$$は$$X_3$$および$$X_4$$の直接的原因 - $$X_3$$は$$X_4$$の直接的原因 と解釈できる.

このとき図3.1が規定する構造方程式モデルは,

同時分布が因果ダイアグラムに従って逐次的に因数分解された. このとき,いくつかの条件付き独立関係が成り立っている. これを記述するためにd分離の概念を導入する.

このd分離について次の定理が知られている.

同時確率分布において,非巡回的有向グラフにより導かれるd分離関係に対応する条件付き独立関係以外のいかなる条件付き独立性も付加的に成り立っていないとき,同時確率分布は非巡回有向グラフに忠実であるという。

図3.1 因果ダイアグラム(1)

注意

(1) ベイジアンネットワーク(条件付き独立関係の視覚表現)と因果ダイアグラム(データ生成過程の視覚表現)では根本的に考え方が異なる

矢線があるとは 矢線がないとは
ベイジアンネットワーク 変数間に統計的従属関係が存在する可能性があること 変数間に何らかの条件付き独立関係が成り立っていること
因果ダイアグラム それらに直接的に因果関係が存在する可能性があること 変数間に直接的な因果関係が存在しないことを強調.
実質科学における先験的知識に基づいた因果的仮定である.
因果ダイアグラムにおいて矢線が存在する場合,それに対応する因果関係の大きさはデータに基づいて評価される.因果関係があることよりも因果関係がないことの方が重要な因果情報である.因果関係がないことを主張するには強い根拠が必要である.

(2) 確率変数が自律的に生成されるとは,(3.1)式に含まれる構造方程式それぞれが(3.1)式を構成する構成要素であり,かつこれらの構成要素どうしに従属関係はないことを意味している.

構造方程式の対して外的操作が行われたり,自然発生的な変化が起こるなどしてその構造方程式の形式そのものが直接的に変化してしまった場合,自律性はそのような変化が起こったからといって直接的には外的操作や自然発生的変化の対象となっていない構造方程式の形式まで変化することはない.
また,モジュールには,(3.1)式を構成する構成要素のそれぞれについて,必要があれば興味ある構造方程式に交換可能である.
  外的操作によるデータ生成過程の変化を調べるのに,外的操作の対象となっている変数に対応する構造方程式を興味ある外的操作方式に置き換えさえすれば,直接的な変化のなかった構造方程式に関する情報をそのまま利用できることである.
  自律性は,因果関係を記述する数理モデルに柔軟性を与える仮定となっている.

(3)
  定義3.1に基づく同時分布(3.2)式と標準的な確率論・統計学に見られる同時分布とはその背後の考え方が若干異なる.
  - 標準的な確率論・統計学の場合
      条件付き確率分布の定義は同時分布に基づいて定式化
  - 因果ダイアグラム
      条件付き確率分布に基づいて同時分布が定式化,すなわち,個々の構造方程式と比較可能な形で同時分布が表現される.
    同時分布の近似という点でベイジアンネットワークを捉えた場合,統計的独立関係に関する表現能力・近似の良さを問わなければ,逐次的因数分解それぞれに対して有向グラフを構築できる.(同時分布の逐次的因数分解は任意の変数順序に対して行うことができる)つまり,ベイジアンネットワークにおいて同時分布に対応する有向グラフは一意性がない.
    それに対して因果ダイアグラムは一意性がある。
    データ生成過程が与えられれば因果ダイアグラムは一意に定まるし,因果ダイアグラムが与えられれば定性的なデータ生成過程も一意に定まる(構造方程式モデルの詳細は分からないが).
(4)
  定義3.1にある生成とは,構造方程式モデルが単なる数学的等式表現ではなく,右辺に配された確率変数が左辺に配された確率変数を生成するのであって,構造方程式モデルとして与えられていない限りその逆は起こらない.
  
  「生成」という言葉のなかに数学的等式表現を超えた意味が含まれている.
  例えば,変数$$X,Y,Z$$に対して,方程式$$Y = X + Z$$を考えるとき,単なる数学的等式表現としてみれば$$Y - Z$$は$$X$$と等価であるが,これをデータ生成過程(i.e. 右辺にある変数を入力とし左辺にある変数を出力とみなした物理システム)とみなしたとき$$Y$$は$$X$$を生成しないため,$$X$$と$$Y-Z$$は等価ではない.もし$$Y$$が生成しうるとしたら,結果として$$X = Y-Z$$が等しくなるかもしれないが,$$Y = X + Z$$とは異なる構造方程式が存在することを意味する.

因果的効果

外的操作とは(Pearl[28])

因果ダイアグラムと対応する構造方程式モデルが与えられたとき, ある変数に対応する構造方程式を別の構造方程式に置き換えること.

その上で,変数$$X$$に対する外的操作により,$$X = x$$とした際の変数$$Y$$の分布を因果的効果と呼び,次のように定義した.

  • 用語の定義 処理変数・・・外的操作の対象となっている変数 反応変数・・・興味ある結果を表す変数 共変量・・・・処理変数の影響を受けない変数 中間変数・・・処理変数の影響を受けてかつ反応変数に影響を与える変数
  • 表記の定義 $$X$$に対して外的操作を行っていることを強調するために $$\mathrm{pr}(x,y,z)$$や$$\mathrm{pr}(x|\mathrm{pa}(x))$$ではなく,$$\mathrm{pr}(X = x,y,z)$$や$$\mathrm{pr}(X = x|\mathrm{pa}(x))$$ とする.

この定義のグラフ的解釈

因果ダイアグラム$$G$$から$$X$$へ入る矢線をすべて取り除いたグラフを考え,そこで$$X$$の値を$$x$$に固定したときの$$Y$$の分布ということ

例 図3.1において$$X_3$$から$$X_4$$への因果的効果を考える.

外的操作の対象となった$$X_3$$の構造方程式は$$X_3=x$$に置き換えられているものの,$$X_1, X_2,X_4$$に関する構造方程式については変化がないため,確率情報もそのまま利用されている. これが自律性を仮定するメリットである

さらに図3.1において$$X_2$$が$$X_1$$と$$X_3$$をd分離していることから

このことは,図3.1の因果ダイアグラムにおいて$$X_3$$から$$X_4$$への因果的効果を定量的に評価するのに$$X_2$$を観測すれば十分であることを意味している.

さて,外的操作を行ったあとの因果ダイアグラムは図3.1から$$X_3$$に入る矢線を取り除いた図3.2で表現される.

このグラフは$$X_3$$に対するランダム割り付けを表現する因果ダイアグラムと同じ構造であることから,因果的効果はランダム化試験における要因効果に対応する因果的連関指標と解釈できる.

因果的効果と条件付き分布の違い

図3.3(b)は$$X_1$$が$$X_2$$と$$X_3$$の親になっているが,$$X_2$$と$$X_3$$の間に有向道がない場合である. このときの因果効果は