フィッシャー情報量

定義

フィッシャー情報量(fisher information)とは
パラメータによって決まる確率分布に対して、その分布に従う確率変数がそのパラメータ推定に関して有する「情報」の量を表す。確率変数Xが有する、パラメータ\thetaに対するフィッシャー情報量を\mathcal{I}_{X}(\theta)と表記し、Xの確率分布f(x)のスコア関数の分散として定義する。
  • \mathcal{I}_{X}(\theta) \equiv V[\frac{\partial}{\partial\theta}logf(X)]

特に、母数が多次元\theta \in {\bf R^p}である場合、フィッシャー情報量はフィッシャー情報行列と呼ばれる実対称行列\mathcal{I}_X(\theta) \in {\bf R^{p \times p}}となる。

補足:スコア関数

スコア関数とは
確率変数Xに対し、Xの確率密度関数の対数をパラメータで偏微分した関数をXのスコア関数と呼ぶ。
  • 一般に、確率変数Xの確率密度分布関数がf(x|\theta)であるとき、確率密度分布関数にXを代入した値f(X|\theta)は、観測値Xに対する確率密度を表し、Xによって定まる確率変数となる。さらにf(X|\theta)の対数をとり、パラメータ\thetaで偏微分した値、D(X|\theta) \equiv \frac{\partial}{\partial\theta}logf(X|\theta)をスコア関数と定義する。スコア関数の性質として下記が成り立つ。
    • パラメータを含まない任意のXの関数g(X)に対して下記が成り立つ。
      • E[g(X)D(X|\theta)]=\frac{\partial} {\partial\theta}E[g(X)]
        • 証明:E[g(X)D(X|\theta)]=E[g(X)\frac{\partial}{\partial\theta}logf(X|\theta)]=\int_{-\infty}^{\infty}f(x|\theta)g(x)\frac{\partial}{\partial\theta}logf(x|\theta)dx=\int_{-\infty}^{\infty}g(x)\frac{\partial}{\partial\theta}f(x|\theta)dx=\frac{\partial}{\partial\theta}\int_{-\infty}^{\infty}g(x)f(x|\theta)dx=\frac{\partial}{\partial\theta}E[g(X)]
    • 期待値はゼロ
      • 証明:上式でg(x)=1とおけば直ちに得られる。
        • E[D(X|\theta)]=\frac{\partial}{\partial\theta}E[1]=0
    • 分散と2次中心モーメントは等しい
      • 証明:V[D(X|\theta)]=E[(D(X|\theta)-E[D(X|\theta)])^2]=E[D(X|\theta)^2]
    • なお、確率変数Xからなる式の期待値をとるという操作を行うと、確率変数Xは消えて代わりにパラメータ\thetaの関数に変換される点に注意。

補足:求め方

  • Xの確率密度関数が母数\theta \in {\bf R^p}を用いてf(x|\theta)だとすると、フィッシャー情報行列は、
    • \mathcal{I}_{X}(\theta) \equiv V[\frac{\partial}{\partial\theta}logf(X|\theta)] = E[(\frac{\partial}{\partial\theta}logf(X|\theta))(\frac{\partial}{\partial\theta}logf(X|\theta))^{\tau}]
  • フィッシャー情報行列は、下記でも計算できる。
    • \mathcal{I}_{X}(\theta) \equiv -E[H_{logf(X|\theta)}]
      • H_{logf(X|\theta)}は、\thetaの関数logf(X|\theta)のヘッセ行列(\thetaの2階偏微分を成分にもつ行列)H_{logf(X|\theta)} = \frac{\partial^2}{\partial\theta\partial\theta^{\tau}}logf(X|\theta)である。
      • 証明)
        • \frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}logf=\frac{\partial}{\partial\theta_i}(\frac{1}{f}\frac{\partial}{\partial\theta_j}f)=-\frac{1}{f^2}(\frac{\partial}{\partial\theta_i}f)(\frac{\partial}{\partial\theta_j}f)+\frac{1}{f}\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}f=-(\frac{\partial}{\partial\theta_i}logf)(\frac{\partial}{\partial\theta_j}logf)+\frac{1}{f}\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}f
        • 正則条件(微分と積分が交換できる)のもとで確率の定義より\forall{i},\forall{j} E[\frac{1}{f}\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}f]=\int\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}fdx=\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}1=0を満たすことを用いると、
        • よって、-E[\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}logf] = -E[-(\frac{\partial}{\partial\theta_i}logf)(\frac{\partial}{\partial\theta_j}logf)+\frac{1}{f}\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}f]=E[(\frac{\partial}{\partial\theta_i}logf)(\frac{\partial}{\partial\theta_j}logf)]
  • なお、Xの確率密度関数が1次元の母数\theta \in {\bf R}を用いてf(x|\theta)だとすると、上述の式は簡単になり下記が成り立つ。
    • \mathcal{I}_{X}(\theta) \equiv -E[\frac{\partial^2}{\partial\theta^2}logf(X|\theta)]

性質

  • Cramér–Rao(クラメール-ラオ)の不等式
    • パラメータ\thetaの任意の不偏推定量\check{\theta}は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす。これは即ち\check{\theta}の分散共分散行列からフィッシャー情報行列の逆行列を引いた行列は、半正定値であることを表す。
      • V[\check{\theta}] \geq \mathcal{I}_{X}(\theta)^{-1}
    • フィッシャー情報行列が対角行列である場合、パラメータベクトル\thetaの成分(=個々のパラメータ)は独立となり、Cramér–Rao(クラメール-ラオ)の不等式は、個々のパラメータの推定量の分散の下限を与える。
  • 加法性
    • 同一のパラメータを用いる2つの確率分布f_1(x|\theta),f_2(x|\theta)に従う独立な確率変数X_1,X_2について、その同時確率分布の情報量は、
      • \mathcal{I}_{X_1,X_2}(\theta)=\mathcal{I}_{X_1}(\theta)+\mathcal{I}_{X_2}(\theta)
        • 証明:\mathcal{I}_{X_1,X_2}=V[\frac{\partial}{\partial\theta}log{f_1(x)f_2(x)}]=V[\frac{\partial}{\partial\theta}log{f_1(x)+\frac{\partial}{\partial\theta}logf_2(x)}]=V[\frac{\partial}{\partial\theta}log{f_1(x)]+V[\frac{\partial}{\partial\theta}logf_2(x)}]=\mathcal{I}_{X_1}+\mathcal{I}_{X_2}
  • 独立に同一の確率分布に従うn個の確率変数の同時確率分布の情報量
    • 同一の確率密度関数f(x|\theta])に従うn個の独立な確率変数X_1,...,X_nについて、観測全体で得られる確率変数ベクトルをX=(X_1,...,X_n)^{\tau}とする。Xが得られる確率は、X_1,...,X_nの同時確率分布であるから、L(X|\theta) = \prod_k f(X_k|\theta)で表せる。
    • ここで、確率変数X_1,...,X_nをそれぞれスコア関数に代入して得られる確率変数(\thetaの関数となる)をY_1(\theta),...,Y_n(\theta)とする。確率変数X_1,...,X_nの情報量を\mathcal{I}_1(\theta) = \mathcal{I}_{X_1}(\theta) = \cdots = \mathcal{I}_{X_n}(\theta)とすると、
      • Y_k(\theta) = D(X_k|\theta) = \frac{\partial}{\partial\theta}logf(X_k|\theta)
      • E[Y_k(\theta)] = 0
      • V[Y_k(\theta)] = \mathcal{I}_{X_k}(\theta)= \mathcal{I}_1(\theta)
    • すると、一般に独立な同一分布のn個の確率変数の標本平均\bar{Y}=\frac{1}{n}\sum{Y_k}について、nが十分に大きければ、中心極限定理より、\bar{Y}は正規分布N(E[Y_k],\frac{1}{n}V[Y_k])に収束するので、
      • \frac{1}{n}\frac{\partial}{\partial\theta}logL(X|\theta) = \frac{1}{n}\frac{\partial}{\partial\theta}\Sigma_k logf(X_k|\theta) = \frac{1}{n}\Sigma_k \frac{\partial}{\partial\theta}logf(X_k|\theta) = \frac{1}{n}\Sigma_k Y_k(\theta) = \bar{Y}(\theta) \sim N(0,\frac{1}{n}\mathcal{I}_1(\theta))
      • 即ち、\frac{1}{\sqrt{n}}\frac{\partial}{\partial\theta}logL(X|\theta) \sim N(0,\mathcal{I}_{1}(\theta))
    • 同様に大数の法則より、
      • \frac{1}{n}H_{logL(X|\theta_{true})} = \frac{1}{n}\sum{H_{logf(X_k|\theta_{true})}} \rightarrow E[H_{logf(X_k|\theta_{true})}]=-\mathcal{I}_1(\theta)

パラメータ変換

  • 確率変数X、パラメータ\theta \in {\bf R^p}、行列M \in {\bf R^{p,p}}に対して、Mが正則であれば、
    • \mathcal{I}_{X}(M\theta) =(M^{-1})^{\tau}\mathcal{I}_{X}(\theta)M^{-1}
      • 証明:\mathcal{I}_{X}(M\theta) = E[(\frac{\partial}{\partial (M\theta)}logf)(\frac{\partial}{\partial (M\theta)}logf)^{\tau}] = E[(\frac{\partial\theta}{\partial (M\theta)}\frac{\partial logf}{\partial \theta})(\frac{\partial\theta}{\partial (M\theta)}\frac{\partial logf}{\partial \theta})^{\tau}] = E[(M^{\tau})^{-1}\frac{\partial logf}{\partial \theta}(\frac{\partial logf}{\partial \theta})^{\tau}M^{-1}]=(M^{-1})^{\tau}\mathcal{I}_{X}(\theta)M^{-1}
    • 従って、M^{\tau}\mathcal{I}_{X}(M\theta)M = \mathcal{I}_{X}(\theta)
  • 確率変数X、パラメータ\theta \in {\bf R^n}、行列M \in {\bf R^{m,p}}\ |\ m>pに対して、M^{\tau}Mが正則であれば、
    • \mathcal{I}_{X}(M\theta) = M(M^{\tau}M)^{-1}\mathcal{I}_{X}(\theta)(M^{\tau}M)^{-1}M^{\tau}
    • 従って、M^{\tau}\mathcal{I}_{X}(M\theta)M = \mathcal{I}_{X}(\theta)

最尤推定との関係

  • 確率密度関数f(x|\theta])をもつ確率分布D(\theta)について、n回の観測結果によって得られる値を用いて、\thetaを推定する問題を考える。
  • n回の観測結果で得られるそれぞれの結果を独立な確率変数X_1,...,X_n \sim D(\theta)で表し、観測全体で得られる確率変数ベクトルをX=(X_1,...,X_n)^{\tau}とする。Xが得られる確率は、X_1,...,X_nの同時確率分布であるから、L(X|\theta) = \prod_k f(X_k|\theta)で表せる。
  • また、真のパラメータが\theta_{true}である時、n回の観測で得られるフィッシャー情報量を\mathcal{I}_n(\theta_{true})と表記する。
  • ここで、n回の観測結果を用いた最尤推定法による推定値を\hat{\theta_n}とする。最尤推定は一致性と漸近有効性を満たすことが分っているので、nが十分に大きければ、下記が成り立つ。
    • E[\hat{\theta_n}]=\theta_{true}
    • V[\hat{\theta_n}]=\mathcal{I}_{n}^{-1}(\theta_{true})
  • ところで、X_1,...,X_nは同じ同じ分布に従うので、そのフィッシャー情報量は等しく、その値は\mathcal{I_{1}}である。フィッシャー情報量の加法性を用いれば、下記が成り立つ。
    • \mathcal{I}_{n}=\mathcal{I}_{X_1}+\mathcal{I}_{X_2}+\cdots+\mathcal{I}_{X_m} = n \mathcal{I_1}
  • 従って、nが十分に大きければ、下記が成り立つ。
    • V[\hat{\theta_n}]=\frac{1}{n}\mathcal{I_1}^{-1}
    • V[\hat{\theta_n}]^{-1}=n\mathcal{I_1}

正規分布の場合

  • 正規分布f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}においては、
    • logf=-\frac{1}{2}log(2\pi\sigma^2)-\frac{(x-\mu)^2}{2\sigma^2}
  • 従って、
    • E[(\frac{\partial}{\partial\mu}logf)^2]=E[\frac{(x-\mu)^2}{\sigma^4}]=\frac{1}{\sigma^2}
    • E[(\frac{\partial}{\partial\sigma^2}logf)^2]=E[(-\frac{1}{2\sigma^2}+\frac{(x-\mu)^2}{2\sigma^4})^2]=\frac{1}{2\sigma^4}
    • E[(\frac{\partial}{\partial\mu}logf)(\frac{\partial}{\partial\sigma^2}logf)]=E[\frac{x-\mu}{\sigma^2}(-\frac{1}{2\sigma^2}+\frac{(x-\mu)^2}{2\sigma^4})]=0
  • よって、パラメータ\theta = \left(\begin{array}{c} \mu  \\ \sigma^2 \end{array}\right)に対して、
    • \mathcal{I}_X = \left(\begin{array}{cc} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2\sigma^4} \end{array}\right)

多変量正規分布(分散固定)の場合

  • n次元正規分布f(x) = \frac{1}{\sqrt{(2\pi)^n|\Sigma|}}exp(-\frac{(x-\mu)^{\tau}\Sigma^{-1}(x-\mu)}{2})においては、
    • logf=-\frac{1}{2}log((2\pi)^n|\Sigma|)-\frac{(x-\mu)^{\tau}\Sigma^{-1}(x-\mu)}{2}
  • 定義通り計算すると、
    • E[(\frac{\partial}{\partial\mu}logf)(\frac{\partial}{\partial\mu}logf)^{\tau}]=E[\Sigma^{-1}(x-\mu)(x-\mu)^{\tau}\Sigma^{-1}]=\Sigma^{-1}E[(x-\mu)(x-\mu)^{\tau}]\Sigma^{-1}=\Sigma^{-1}\Sigma\Sigma^{-1}=\Sigma^{-1}
  • もしくは、ヘッセ行列を用いてより簡単に、
    • -E[\frac{\partial^2}{\partial\mu^2}logf]=-E[-\Sigma^{-1}]=\Sigma^{-1}
  • よって、分散を固定し\muのみをパラメータと考えた時は、
    • \mathcal{I}_X = \Sigma^{-1}

多変量正規分布(独立かつ等分散)の場合

  • 分散共分散行列が独立かつ等分散すなわち\Sigma=\sigma^2Iである(1つのパラメータで表せる)場合、
    • logf=-\frac{1}{2}log((2\pi)^n\sigma^2)-\frac{(x-\mu)^{\tau}(x-\mu)}{2\sigma^2}
  • 従って、
    • -E[\frac{\partial^2}{\partial\mu^2}logf]=\Sigma^{-1}=\frac{1}{\sigma^2}I
    • -E[\frac{\partial^2}{(\partial\sigma^2)^2}logf]=-E[\frac{1}{2\sigma^4}-\frac{(x-\mu)^{\tau}(x-\mu)}{\sigma^6}]=-\frac{1}{2\sigma^4}+\frac{E[(x-\mu)^{\tau}(x-\mu)]}{\sigma^6}=-\frac{1}{2\sigma^4}+\frac{n\sigma^2}{\sigma^6}=\frac{2n-1}{2\sigma^4}
    • -E[\frac{\partial}{\partial\mu}\frac{\partial}{\partial\sigma^2}logf]=-E[-\frac{x-\mu}{\sigma^4}]=0
  • よって、パラメータ\theta = \left(\begin{array}{c} \mu  \\ \sigma^2 \end{array}\right)に対して、
    • \mathcal{I}_X = \left(\begin{array}{cc} \frac{1}{\sigma^2}I & 0_n \\ 0_n^{\tau} & \frac{2n-1}{2\sigma^4} \end{array}\right)
    • なお、0_nは成分がすべて0であるn次元ベクトル