PPNN

定義：PPNN[Partial Differential Equation-Preserved Neural Network]

PPNN[Partial Differential Equation-Preserved Neural Network,偏微分方程式保存ニューラルネットワーク]とは,既知の（または部分的に既知の）支配偏微分方程式[PDE]の構造を,固定された畳み込み残差接続ブロックを介して多重解像度設定で保持することを目的とした,物理学に着想を得た深層学習フレームワークである.

PPNNは,時間ステップ $t$ における状態 $u(t)$ から,次の時間ステップ $t+\Delta t$ における状態 $u(t+\Delta t)$ への遷移を学習する.これは,次のように表される.\[u(t+\Delta t) = F(u(t), \lambda; \theta)\]

ここで,$u$ は状態変数（例えば,物理システムの場）,$\lambda$ は物理パラメータのベクトル,$F$ は学習されたニューラルネットワーク関数,$\theta$ は学習可能な重みである.

残さ接続

PPNNは,残差接続を利用して,ある層の出力を次の層の入力に直接加える.これにより,勾配消失問題を緩和し,深いネットワークの学習を容易にする.

残差接続は,次のように表される.\[x_{l+1} = x_l + H(x_l)\]

ここで,$x_l$ は層 $l$ の出力,$H$ はその層の変換関数である.

多重解像度設定

PPNNは,粗いグリッド上で定義されたPDE保存部分と,細かいグリッド上で定義された学習可能な部分を組み合わせて使用する.これは,次のように概念的に表される.\[ u_{t+\Delta t} = F_{\text{trainable}}(u_t + F_{\text{PDE}}(u_t^{\text{low-res}}))\]

ここで,$u_t$ は高解像度の状態,$u_t^{\text{low-res}}$ は低解像度にダウンサンプリングされた状態,$F_{\text{PDE}}$ はPDE保存部分,$F_{\text{trainable}}$ は学習可能な部分を表す.

PDE保存部分

この部分は,離散化された支配PDEの右辺（RHS）を表す畳み込みニューラルネットワーク（CNN）で構成される.これらの畳み込みフィルタの重みは,離散化スキームによって決定され,学習中に一定に保たれる.例えば,有限差分法を用いる場合,以下のようになります.\[ F_{\text{PDE}}(u_t^{\text{low-res}}) \approx \text{conv}(u_t^{\text{low-res}}, h) \approx D(u_t^{\text{low-res}}, \nabla u_t^{\text{low-res}}, \nabla^2 u_t^{\text{low-res}}, ...) \]

ここで,$\text{conv}$ は畳み込み演算,$h$ は固定された畳み込みカーネル,$D$ は離散化された微分演算子を表す.

学習可能な部分

この部分は,エンコーディング・デコーディング構造を持つ畳み込みResNetブロックで構成され,細かいメッシュでの高解像度の状態予測を可能にするように設計されている.

学習プロセス

学習プロセスにおいては,モデルの予測値と参照解との間の誤差を最小化するように,学習可能な部分の重み $\theta$ が調整される.損失関数は,例えば,次のように定義される.\[\epsilon_t = \frac{1}{N} \sum_{i=1}^{N} \frac{|| f_\theta(\hat{u}_{t-1}, \lambda_i) + \hat{u}_{t-1} - u_t(\lambda_i) ||^2}{|| u_t(\lambda_i) ||^2}\]

ここで,$N$ はテストパラメータの数,$u_t(\lambda_i)$ はパラメータ $\lambda_i$ に対応する時刻 $t$ における参照解,$f_\theta$ は重み $\theta$ を持つ学習されたニューラルネットワーク関数,$\hat{u}_{t-1}$ は前のステップ $t-1$ での予測状態を表す.

まとめ

PPNNは,PDE構造を保存する部分と学習可能な部分を組み合わせ,時間発展,残差接続,多重解像度,離散化されたPDE演算子,損失関数の概念を利用して,物理システムの時空間ダイナミクスをモデル化するものである.これにより,従来のブラックボックスモデルと比較して,より正確で安定した長期予測が可能になる.

これらの要素を組み合わせることで,PPNNは,物理的制約を深層学習モデルに組み込むための強力なフレームワークを提供している.このアプローチは,複雑な時空間ダイナミクスをモデル化する際の精度,一般化可能性,およびロバスト性を向上させる可能性を示唆する.

Liu, X.-Y., Zhu, M., Lu, L., Sun, H., & Wang, J.-X.（2022）. Multi-resolution partial differential equations preserved learning framework for spatiotemporal dynamics. arXiv. https://arxiv.org/abs/2205.03990 [Submitted on 9 May 2022 （v1）, last revised 14 Jan 2024（v3）]

Mathematics is the language with which God has written the universe.

SLURM 量子場理論的ニューラルネットワークヘルムホルツマシン不偏統計量残差ベクトルと誤差項の関係集合族