Up | 自己参照・再帰 | 作成: 2025-06-28 更新: 2025-06-28 |
この厖大な数のパラメータは,「自己参照・再帰」をするためのものである。 Transformer の設計思想は,「自己参照・再帰」に対する全幅の信頼である。 調節がかかりそうなところに,片っ端にパラメータを投入する。 翻って,Transformer のアルゴリズムは,重みや学習させる係数を取っ払うことで,その骨格が現れ,意味がわかるようになる。 例えば Self-Attention では,これの意味を探ろうとして,つぎの図式を 試したわけである: ( Self-Attention ) ┌──────┿──────┐ ↓ ↓ ↓ x_i x_i x_i └──┬───┘ │ ↓ │ α_i = sim( x_i ; x_1, ‥‥, x_m ) │ │ │ └───┬──────┘ z_i = ( Σα_ik x_k1, ‥‥ Σα_ik x_kD ) ![]() |