ボルツマンマシン

定義:

ボルツマンマシンとは,確率分布を学習するためにエネルギー関数を用い,可視変数と隠れ変数の相互作用をモデル化する完全結合型の確率的グラフィカルモデルである.ボルツマンマシンのエネルギー関数は以下のように定義される.\[E(\mathbf{x}) = -\frac{1}{2} \sum_{i,j} W_{ij} x_i x_j - \sum_{i} b_i x_i\]ここで,$\mathbf{x} = (\mathbf{v}, \mathbf{h})$ は可視変数隠れ変数の集合である.
ボルツマンマシンの状態 $\mathbf{x}$ に対応する確率は,\( Z \) は分配関数として,以下で与えられる.\[P(\mathbf{x}) = \frac{e^{-E(\mathbf{x})}}{Z}, \quad Z = \sum_{\mathbf{x} \in \mathit{X}} e^{-E(\mathbf{x})}\]また,任意のノード $x_i$ に対する条件付き確率は,シグモイド関数 $\sigma(z) = \frac{1}{1 + e^{-z}}$ を用いて,\[P(x_i = 1 \mid \mathbf{x}_{\backslash i}) = \sigma\left(\sum_{j \neq i} W_{ij} x_j + b_i\right)\]と表される.
学習においては,$\mathit{D}$ をトレーニングデータの集合として,以下の負の対数尤度を最小化する.\[\mathit{L} = -\sum_{\mathbf{x} \in \mathit{D}} \log P(\mathbf{x})\]

ルートヴィヒ・ボルツマン[Ludwig Boltzmann]は19世紀の物理学者であり,統計力学の基礎を築いた人物.ボルツマンは,気体分子の運動やエネルギーの分布を説明するため,個々の粒子の運動を統計的に扱う方法を提案した.ボルツマンモデルは,この考え方を基にした数学的な枠組みである.

なお,可視変数[Visible Variables]は,モデルが直接観測可能な変数を指す.これらはデータとして提供され,モデルが学習や予測を行う際の入力となる.ボルツマンマシンにおいては,可視層に対応するノードが可視変数を表している.また,隠れ変数[Hidden Variablesは,モデル内部で推定される変数を指す.これらは直接観測されず,モデル内部での潜在的な特徴や構造を表す.隠れ変数は,可視変数の背後にあるパターンや関係性を表現するために利用される.

ボルツマンマシンのエネルギー関数 $E(\mathbf{v}, \mathbf{h})$ を可視変数 $\mathbf{v} = (v_1, v_2, \dots, v_m)$ と隠れ変数 $\mathbf{h} = (h_1, h_2, \dots, h_n)$ を明示する形で表現すると以下のようになる.\[E(\mathbf{v}, \mathbf{h}) = - \sum_{i,j} W_{ij} v_i h_j - \sum_{i} b_i v_i - \sum_{j} c_j h_j\]

ここで,$b_i$ は可視変数 $v_i$ のバイアス,$c_j$ は隠れ変数 $h_i$ のバイアスを示している.

ボルツマンマシンの歴史

ボルツマンマシンは,2024年にジェフリー・ヒントン[Geoffrey Everest Hinton,1947-12-06/]とともにノーベル物理学賞を受賞したJ.J.ホップフィールド[John Joseph Hopfield,1933-07-15/]によるポップフィールドネットワーク[Hopfield network]が元になっている.

Hopfield, J. J.(1982)"Neural networks and physical systems with emergent collective computational abilities" Proceedings of the National Academy of Sciences, 79(8)

ポップフィールドネットワークは,物理学におけるイジングモデルスピンノードに,スピン間相互作用シナプス結合として解釈しなおしたものである.イジングモデルは隣接スピンの相互作用をエネルギー最小化の観点から記述することによって,磁性体の相転移現象を説明することに成功.これを連想記憶モデルへと拡張したのがホップフィールドネットワークである.

ヒントンは1983年にホップフィールドネットワークを確率的に拡張したモデルとしてボルツマンマシンを提案した.

Hinton, G. E., & Sejnowski, T. J. (1983)"Optimal perceptual inference" Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition

これは,確率的な学習則を導入するものであった.

ボルツマンモデルとニューラルネット

特性ボルツマンモデルニューラルネットワーク
数学的基盤エネルギーベースモデル
確率分布: $P(\mathbf{x}) = \frac{e^{-E(\mathbf{x})}}{Z} $
関数近似モデル
出力: $\mathbf{y} = f(\mathbf{x}; \theta)$
学習目的データの確率分布の学習入力と出力の関係の学習
トレーニング方法コントラストダイバージェンス
モンテカルロ法
誤差逆伝播法
勾配降下法
構造グラフィカルモデル
完全結合型(可視層と隠れ層)
層構造
入力層、隠れ層、出力層

Mathematics is the language with which God has written the universe.





















測度 Haar測度 局所コンパクトなトポロジー群 コンパクト集合 ファイバー束 ファイバー