定義

フィッシャー情報量（fisher information）とは: パラメータによって決まる確率分布に対して、その分布に従う確率変数がそのパラメータ推定に関して有する「情報」の量を表す。確率変数Xが有する、パラメータ $\theta$ に対するフィッシャー情報量を $\mathcal{I}_{X}(\theta)$ と表記し、Xの確率分布 $f(x)$ のスコア関数の分散として定義する。

$\mathcal{I}_{X}(\theta) \equiv V[\frac{\partial}{\partial\theta}logf(X)]$

特に、母数が多次元 $\theta \in {\bf R^p}$ である場合、フィッシャー情報量はフィッシャー情報行列と呼ばれる実対称行列 $\mathcal{I}_X(\theta) \in {\bf R^{p \times p}}$ となる。

補足：スコア関数

スコア関数とは: 確率変数Xに対し、Xの確率密度関数の対数をパラメータで偏微分した関数をXのスコア関数と呼ぶ。

一般に、確率変数Xの確率密度分布関数がであるとき、確率密度分布関数にXを代入した値は、観測値Xに対する確率密度を表し、Xによって定まる確率変数となる。さらにの対数をとり、パラメータで偏微分した値、をスコア関数と定義する。スコア関数の性質として下記が成り立つ。
- パラメータを含まない任意のXの関数に対して下記が成り立つ。
  - - 証明： $E[g(X)D(X|\theta)]=E[g(X)\frac{\partial}{\partial\theta}logf(X|\theta)]=\int_{-\infty}^{\infty}f(x|\theta)g(x)\frac{\partial}{\partial\theta}logf(x|\theta)dx=\int_{-\infty}^{\infty}g(x)\frac{\partial}{\partial\theta}f(x|\theta)dx=\frac{\partial}{\partial\theta}\int_{-\infty}^{\infty}g(x)f(x|\theta)dx=\frac{\partial}{\partial\theta}E[g(X)]$
- 期待値はゼロ
  - 証明：上式でとおけば直ちに得られる。
    - $E[D(X|\theta)]=\frac{\partial}{\partial\theta}E[1]=0$
- 分散と2次中心モーメントは等しい
  - 証明： $V[D(X|\theta)]=E[(D(X|\theta)-E[D(X|\theta)])^2]=E[D(X|\theta)^2]$
- なお、確率変数Xからなる式の期待値をとるという操作を行うと、確率変数Xは消えて代わりにパラメータ $\theta$ の関数に変換される点に注意。

補足：求め方

Xの確率密度関数が母数を用いてだとすると、フィッシャー情報行列は、
- $\mathcal{I}_{X}(\theta) \equiv V[\frac{\partial}{\partial\theta}logf(X|\theta)] = E[(\frac{\partial}{\partial\theta}logf(X|\theta))(\frac{\partial}{\partial\theta}logf(X|\theta))^{\tau}]$
フィッシャー情報行列は、下記でも計算できる。
- - $H_{logf(X|\theta)}$ は、 $\theta$ の関数 $logf(X|\theta)$ のヘッセ行列（ $\theta$ の2階偏微分を成分にもつ行列） $H_{logf(X|\theta)} = \frac{\partial^2}{\partial\theta\partial\theta^{\tau}}logf(X|\theta)$ である。
  - 証明）
    - $\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}logf=\frac{\partial}{\partial\theta_i}(\frac{1}{f}\frac{\partial}{\partial\theta_j}f)=-\frac{1}{f^2}(\frac{\partial}{\partial\theta_i}f)(\frac{\partial}{\partial\theta_j}f)+\frac{1}{f}\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}f=-(\frac{\partial}{\partial\theta_i}logf)(\frac{\partial}{\partial\theta_j}logf)+\frac{1}{f}\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}f$
    - 正則条件（微分と積分が交換できる）のもとで確率の定義より $\forall{i},\forall{j} E[\frac{1}{f}\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}f]=\int\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}fdx=\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}1=0$ を満たすことを用いると、
    - よって、 $-E[\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}logf] = -E[-(\frac{\partial}{\partial\theta_i}logf)(\frac{\partial}{\partial\theta_j}logf)+\frac{1}{f}\frac{\partial}{\partial\theta_i}\frac{\partial}{\partial\theta_j}f]=E[(\frac{\partial}{\partial\theta_i}logf)(\frac{\partial}{\partial\theta_j}logf)]$
なお、Xの確率密度関数が１次元の母数を用いてだとすると、上述の式は簡単になり下記が成り立つ。
- $\mathcal{I}_{X}(\theta) \equiv -E[\frac{\partial^2}{\partial\theta^2}logf(X|\theta)]$

性質

Cramér–Rao(クラメール-ラオ)の不等式
- パラメータの任意の不偏推定量は以下のCramér–Rao(クラメール-ラオ)の不等式を満たす。これは即ちの分散共分散行列からフィッシャー情報行列の逆行列を引いた行列は、半正定値であることを表す。
  - $V[\check{\theta}] \geq \mathcal{I}_{X}(\theta)^{-1}$
- フィッシャー情報行列が対角行列である場合、パラメータベクトル $\theta$ の成分（＝個々のパラメータ）は独立となり、Cramér–Rao(クラメール-ラオ)の不等式は、個々のパラメータの推定量の分散の下限を与える。
加法性
- 同一のパラメータを用いる２つの確率分布に従う独立な確率変数について、その同時確率分布の情報量は、
  - - 証明： $\mathcal{I}_{X_1,X_2}=V[\frac{\partial}{\partial\theta}log{f_1(x)f_2(x)}]=V[\frac{\partial}{\partial\theta}log{f_1(x)+\frac{\partial}{\partial\theta}logf_2(x)}]=V[\frac{\partial}{\partial\theta}log{f_1(x)]+V[\frac{\partial}{\partial\theta}logf_2(x)}]=\mathcal{I}_{X_1}+\mathcal{I}_{X_2}$
独立に同一の確率分布に従うn個の確率変数の同時確率分布の情報量
- 同一の確率密度関数 $f(x|\theta])$ に従うn個の独立な確率変数 $X_1,...,X_n$ について、観測全体で得られる確率変数ベクトルを $X=(X_1,...,X_n)^{\tau}$ とする。Xが得られる確率は、 $X_1,...,X_n$ の同時確率分布であるから、 $L(X|\theta) = \prod_k f(X_k|\theta)$ で表せる。
- ここで、確率変数をそれぞれスコア関数に代入して得られる確率変数（の関数となる）をとする。確率変数の情報量をとすると、
  - $Y_k(\theta) = D(X_k|\theta) = \frac{\partial}{\partial\theta}logf(X_k|\theta)$
  - $E[Y_k(\theta)] = 0$
  - $V[Y_k(\theta)] = \mathcal{I}_{X_k}(\theta)= \mathcal{I}_1(\theta)$
- すると、一般に独立な同一分布のn個の確率変数の標本平均について、nが十分に大きければ、中心極限定理より、は正規分布に収束するので、
  - $\frac{1}{n}\frac{\partial}{\partial\theta}logL(X|\theta) = \frac{1}{n}\frac{\partial}{\partial\theta}\Sigma_k logf(X_k|\theta) = \frac{1}{n}\Sigma_k \frac{\partial}{\partial\theta}logf(X_k|\theta) = \frac{1}{n}\Sigma_k Y_k(\theta) = \bar{Y}(\theta) \sim N(0,\frac{1}{n}\mathcal{I}_1(\theta))$
  - 即ち、 $\frac{1}{\sqrt{n}}\frac{\partial}{\partial\theta}logL(X|\theta) \sim N(0,\mathcal{I}_{1}(\theta))$
- 同様に大数の法則より、
  - $\frac{1}{n}H_{logL(X|\theta_{true})} = \frac{1}{n}\sum{H_{logf(X_k|\theta_{true})}} \rightarrow E[H_{logf(X_k|\theta_{true})}]=-\mathcal{I}_1(\theta)$

パラメータ変換

確率変数、パラメータ、行列に対して、が正則であれば、
- - 証明： $\mathcal{I}_{X}(M\theta) = E[(\frac{\partial}{\partial (M\theta)}logf)(\frac{\partial}{\partial (M\theta)}logf)^{\tau}] = E[(\frac{\partial\theta}{\partial (M\theta)}\frac{\partial logf}{\partial \theta})(\frac{\partial\theta}{\partial (M\theta)}\frac{\partial logf}{\partial \theta})^{\tau}] = E[(M^{\tau})^{-1}\frac{\partial logf}{\partial \theta}(\frac{\partial logf}{\partial \theta})^{\tau}M^{-1}]=(M^{-1})^{\tau}\mathcal{I}_{X}(\theta)M^{-1}$
- 従って、 $M^{\tau}\mathcal{I}_{X}(M\theta)M = \mathcal{I}_{X}(\theta)$
確率変数、パラメータ、行列に対して、が正則であれば、
- $\mathcal{I}_{X}(M\theta) = M(M^{\tau}M)^{-1}\mathcal{I}_{X}(\theta)(M^{\tau}M)^{-1}M^{\tau}$
- 従って、 $M^{\tau}\mathcal{I}_{X}(M\theta)M = \mathcal{I}_{X}(\theta)$

最尤推定との関係

確率密度関数 $f(x|\theta])$ をもつ確率分布 $D(\theta)$ について、n回の観測結果によって得られる値を用いて、 $\theta$ を推定する問題を考える。
n回の観測結果で得られるそれぞれの結果を独立な確率変数 $X_1,...,X_n \sim D(\theta)$ で表し、観測全体で得られる確率変数ベクトルを $X=(X_1,...,X_n)^{\tau}$ とする。Xが得られる確率は、 $X_1,...,X_n$ の同時確率分布であるから、 $L(X|\theta) = \prod_k f(X_k|\theta)$ で表せる。
また、真のパラメータが $\theta_{true}$ である時、n回の観測で得られるフィッシャー情報量を $\mathcal{I}_n(\theta_{true})$ と表記する。
ここで、n回の観測結果を用いた最尤推定法による推定値をとする。最尤推定は一致性と漸近有効性を満たすことが分っているので、nが十分に大きければ、下記が成り立つ。
- $E[\hat{\theta_n}]=\theta_{true}$
- $V[\hat{\theta_n}]=\mathcal{I}_{n}^{-1}(\theta_{true})$
ところで、は同じ同じ分布に従うので、そのフィッシャー情報量は等しく、その値はである。フィッシャー情報量の加法性を用いれば、下記が成り立つ。
- $\mathcal{I}_{n}=\mathcal{I}_{X_1}+\mathcal{I}_{X_2}+\cdots+\mathcal{I}_{X_m} = n \mathcal{I_1}$
従って、nが十分に大きければ、下記が成り立つ。
- $V[\hat{\theta_n}]=\frac{1}{n}\mathcal{I_1}^{-1}$
- $V[\hat{\theta_n}]^{-1}=n\mathcal{I_1}$

例

正規分布の場合

正規分布においては、
- $logf=-\frac{1}{2}log(2\pi\sigma^2)-\frac{(x-\mu)^2}{2\sigma^2}$
従って、
- $E[(\frac{\partial}{\partial\mu}logf)^2]=E[\frac{(x-\mu)^2}{\sigma^4}]=\frac{1}{\sigma^2}$
- $E[(\frac{\partial}{\partial\sigma^2}logf)^2]=E[(-\frac{1}{2\sigma^2}+\frac{(x-\mu)^2}{2\sigma^4})^2]=\frac{1}{2\sigma^4}$
- $E[(\frac{\partial}{\partial\mu}logf)(\frac{\partial}{\partial\sigma^2}logf)]=E[\frac{x-\mu}{\sigma^2}(-\frac{1}{2\sigma^2}+\frac{(x-\mu)^2}{2\sigma^4})]=0$
よって、パラメータに対して、
- $\mathcal{I}_X = \left(\begin{array}{cc} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2\sigma^4} \end{array}\right)$

多変量正規分布（分散固定）の場合

n次元正規分布においては、
- $logf=-\frac{1}{2}log((2\pi)^n|\Sigma|)-\frac{(x-\mu)^{\tau}\Sigma^{-1}(x-\mu)}{2}$
定義通り計算すると、
- $E[(\frac{\partial}{\partial\mu}logf)(\frac{\partial}{\partial\mu}logf)^{\tau}]=E[\Sigma^{-1}(x-\mu)(x-\mu)^{\tau}\Sigma^{-1}]=\Sigma^{-1}E[(x-\mu)(x-\mu)^{\tau}]\Sigma^{-1}=\Sigma^{-1}\Sigma\Sigma^{-1}=\Sigma^{-1}$
もしくは、ヘッセ行列を用いてより簡単に、
- $-E[\frac{\partial^2}{\partial\mu^2}logf]=-E[-\Sigma^{-1}]=\Sigma^{-1}$
よって、分散を固定しのみをパラメータと考えた時は、
- $\mathcal{I}_X = \Sigma^{-1}$

多変量正規分布（独立かつ等分散）の場合

分散共分散行列が独立かつ等分散すなわちである（１つのパラメータで表せる）場合、
- $logf=-\frac{1}{2}log((2\pi)^n\sigma^2)-\frac{(x-\mu)^{\tau}(x-\mu)}{2\sigma^2}$
従って、
- $-E[\frac{\partial^2}{\partial\mu^2}logf]=\Sigma^{-1}=\frac{1}{\sigma^2}I$
- $-E[\frac{\partial^2}{(\partial\sigma^2)^2}logf]=-E[\frac{1}{2\sigma^4}-\frac{(x-\mu)^{\tau}(x-\mu)}{\sigma^6}]=-\frac{1}{2\sigma^4}+\frac{E[(x-\mu)^{\tau}(x-\mu)]}{\sigma^6}=-\frac{1}{2\sigma^4}+\frac{n\sigma^2}{\sigma^6}=\frac{2n-1}{2\sigma^4}$
- $-E[\frac{\partial}{\partial\mu}\frac{\partial}{\partial\sigma^2}logf]=-E[-\frac{x-\mu}{\sigma^4}]=0$
よって、パラメータに対して、
- $\mathcal{I}_X = \left(\begin{array}{cc} \frac{1}{\sigma^2}I & 0_n \\ 0_n^{\tau} & \frac{2n-1}{2\sigma^4} \end{array}\right)$
- なお、 $0_n$ は成分がすべて0であるn次元ベクトル