そもそも
「AICは正しいモデルを選ぶためのものではない」
粕谷 (2015)
粕谷 (2015)
「モデルの相対的な当てはまりの良さ」を「AICにより比較した」という論文もあったりするが…
竹内ほか (2022)
「予測を目的とした回帰モデルの偏回帰係数に因果関係的な解釈を持ち込もうとする(期待する)のはもちろんのこと,個々の偏回帰係数が生物学的・生態学的にどのような意味を持つのかを考察することも,本来の解析目的からは逸脱した,明確な理論的根拠に欠ける行為である」
竹内ほか (2022)
目的変数は説明変数とは無関係
※この例は、Kuchibhotla et al. (2022) を参考にしました。
y ~ 1 ←「正しい」モデル
y ~ x1
y ~ x2
y ~ x3
y ~ x1 + x2
y ~ x1 + x3
y ~ x2 + x3
y ~ x1 + x2 + x3
各モデル(1〜8)が選択された割合
## 1 2 3 4
## 0.5864 0.1167 0.1151 0.1142
## 5 6 7 8
## 0.0223 0.0206 0.0209 0.0038
「正しい」モデル(model1)が選ばれた割合はおよそ59%
x1を含むモデルが選択されたばあい
x1を含むモデルが選択されたばあい
フルモデルでの、x1の係数についてのp値
各モデル(1〜8)が選択された割合
## 1 2 3 4
## 0.9726 0.0093 0.0082 0.0096
## 5 6 7 8
## 0e+00 0e+00 3e-04 0e+00
「正しい」モデル(model1)が選ばれた割合はおよそ97%
BICは、候補に「正しい」モデル(データを生成したモデル)を含んでいて、 サンプルサイズがじゅうぶんに大きければ、「正しい」モデルを選択するが…
以下のような式でデータが生成される。
\[ \begin{pmatrix}x_1 \\ x_2 \end{pmatrix} \sim \mathrm{MultiNormal}\left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} 1 & 1 \\ 1 & 9 \end{pmatrix} \right) \]
\[ y \sim \mathrm{Normal}(x_1 + 0.3 x_2, 4^2) \]
※この例は、大久保 (2022) を参考にしました。
理論的なVIF = 1.125
y ~ x1
y ~ x1 + x2 ←「正しい」モデル
Model 2 (「正しい」モデル) が選ばれた割合
## [1] 0.5355
およそ54%
Model 2 (「正しい」モデル) が選ばれた割合
## [1] 0.4869
およそ49%
Model 2 (「正しい」モデル) が選ばれた割合
## [1] 0.321
およそ32%
x1の係数(真値=1): 大きいほうにかたよる。
x1の係数(真値=1): 小さいほうにかたよる。
x2の係数(真値=0.3): 大きいほうにかたよる。