E資格合格のための用語集、まずはここを押さえていく

E資格

E2026#2から少し範囲が広がるE資格のシラバスからピックアップした用語集です。

数学的基礎

1 線形代数

用語説明
行列 / テンソル行列は数を格子状に並べたもの、テンソルはそれを高次元に一般化したもの。ニューラルネットの重みや特徴量を表す基本的なデータ構造。
行列・テンソルの積 / アダマール積行列積は「行×列」の積で線形変換を表す。テンソル積はより高次元の積。アダマール積は同じ形状の行列同士の要素ごとの積で、ゲート機構やマスク処理で頻出。
勾配(gradient)パラメータを少し動かしたときの損失の増減を表すベクトル。最急降下法や勾配降下法で「どちらにどれだけ動かすか」を決める方向・大きさ。
行列のランク行列に含まれる独立な行ベクトル(列ベクトル)の数。情報の独立な次元数を表し、次元削減や解の一意性の議論に関わる。
固有値 / 固有ベクトル / 対角化線形変換で「伸びるだけで方向が変わらない」ベクトルが固有ベクトル、その伸び率が固有値。行列を対角成分だけにできる変換(対角化)は主成分分析などの理論的基盤。
特異値 / 特異ベクトル(SVD)特異値分解は任意の行列を「回転 × スケーリング × 回転」に分解する手法。特異値は情報量の大きさを表し、低ランク近似や次元圧縮に使われる。

2 確率・統計

用語説明
確率変数サイコロの出目のように、確率的に値が決まる変数。離散値(1,2,…)も連続値(実数)も含む。
同時確率 / 条件付き確率 / 周辺確率複数事象が同時に起こる確率(同時)、ある条件のもとでの確率(条件付き)、一部の変数を「足し合わせて」残りの変数だけの分布にしたもの(周辺)。ベイズ則の土台。
確率質量関数 / 確率密度関数離散分布で各値の確率そのものを与えるのが質量関数、連続分布で「密度」を与えるのが密度関数。密度は積分すると確率になる。
期待値 / 分散 / 共分散期待値は平均的な値、分散はばらつき、共分散は2変数が一緒に増減するかを表す指標。共分散を標準化したものが相関係数。
ベルヌーイ試行 / 二項分布 / カテゴリカル分布成功/失敗のような2値試行がベルヌーイ試行、その繰り返し回数の成功数分布が二項分布。カテゴリカル分布は複数クラスのどれか1つに属する確率分布。
ガウス分布 / 混合ガウス分布ガウス分布は「平均と分散」で決まる釣鐘型分布。混合ガウス分布は複数のガウス分布を重ね合わせたもので、クラスタリングや異常検知などで利用される。
中心極限定理独立な確率変数の和(平均)は、元の分布に関係なくガウス分布に近づくという定理。誤差がガウス的とみなせる根拠。
ベイズ則条件付き確率を入れ替える公式。事前確率×尤度を正規化して事後確率を得る。ナイーブベイズなどベイズ系モデルの基礎。
ナイーブベイズ特徴量同士が条件付き独立という強い仮定(naive)を置いた確率分類器。単純だがテキスト分類などで実用的。
平均二乗誤差(MSE)予測値と真値の差を二乗して平均した損失。大きな誤差を強く罰するので回帰問題でよく使われる。
対数尤度 / ダイバージェンスモデルがデータを生成する「尤度」の対数。これを最大化するのが最尤推定。ダイバージェンスは2つの分布の違いを測る一般的な概念で、KLやJSなどが含まれる。
最尤推定 / MAP推定 / ベイズ推定最尤は「観測データが最も起こりやすくなるパラメータ」、MAPはそれに事前分布を加味した推定。ベイズ推定はパラメータを確率分布として扱い、事後分布全体を求める考え方。

3 情報理論

用語説明
自己情報量ある事象が起こったときに得られる情報の量。起こりにくい事象ほど情報量が大きい(例:−log p)。
エントロピー / 条件付きエントロピー / 結合エントロピーエントロピーは平均的な不確実さの量。条件付きエントロピーは「別の変数の値を知った後の不確実さ」、結合エントロピーは2変数をまとめた不確実さ。
相互情報量片方の変数の値からもう片方の不確実さがどれだけ減るかという量。特徴選択や表現学習の評価指標として使われる。
クロスエントロピー真の分布とモデル分布の「ズレ」を測る指標。分類タスクの損失関数として広く使われる。
KLダイバージェンス / JSダイバージェンス2つの分布の違いを測る指標。KLは非対称、JSは対称で値が有限に抑えられやすく、GANの理論などでよく登場する。

機械学習

1 パターン認識・距離

用語説明
k近傍法(k-NN) / 近傍法新しいサンプルの周りのk個の訓練データを見て、多数決や平均で予測するシンプルな手法。特徴空間で「近いものは似ている」という前提。
kd-tree / 近似最近傍高次元空間の点を効率的に探索するためのデータ構造がkd-tree。完全な最近傍探索が重いとき、計算を緩めた「近似最近傍」で高速化する。
ユークリッド距離 / マンハッタン距離 / Lp距離ユークリッド距離は直線距離、マンハッタンは格子状の道を歩く距離。これらを一般化したのがLp距離で、pの値で距離感が変わる。
コサイン距離2つのベクトルのなす角をもとにした類似度/距離。ベクトルの方向性(パターン)を重視したいときに使う(テキストベクトルなど)。
マハラノビス距離共分散を考慮した距離で、「ばらつきが大きい方向の違いはあまり重視しない」ような尺度。異常検知やクラスタリングで利用される。

2 学習の種類と代表的アルゴリズム

用語説明
機械学習 / 教師あり・教師なし・半教師あり学習機械学習は「データからルールを学ぶ」枠組み。教師ありは正解付き、教師なしは正解なし、半教師ありは少数ラベル+大量のラベルなしデータを使う。
線形回帰 / 最小二乗法入力の線形結合で出力を近似する回帰モデル。誤差の二乗和が最小になるように係数を求めるのが最小二乗法。
ノルム / L1・L2正則化ベクトルの「大きさ」を測る尺度がノルム。L1正則化はパラメータを疎(ゼロ多め)に、L2正則化は大きな値を抑えて滑らかにする。
過少適合 / 過剰適合モデルが単純すぎてパターンをつかめない状態が過少適合、複雑すぎて訓練データに特化しすぎるのが過剰適合。汎化性能とのバランスが重要。
ロジスティック回帰 / ロジット / シグモイド / ソフトマックスロジスティック回帰はシグモイド関数で出力0〜1の確率を出す2値分類モデル。ロジットはオッズの対数。多クラスではソフトマックスで各クラスの確率を計算する。
オッズ / オッズ比ある事象が起きる確率 p に対する p/(1−p) をオッズと呼び、2つの条件のオッズ比でリスクの差を解釈する。医療統計などで頻出。
サポートベクターマシン / サポートベクター / マージン最大化クラスを分ける境界線(超平面)を決める分類器。境界に最も近い点がサポートベクターで、それらからの距離(マージン)を最大化するように学習する。
ハードマージン / ソフトマージン誤分類を一切許さない分離がハードマージン、少しの誤分類を許してマージンを大きくするのがソフトマージン。実データではソフトマージンが現実的。
カーネル法入力を高次元空間に写像したとみなして、非線形な境界を線形分離で実現するテクニック。カーネル関数で内積だけ計算する。
決定木 / 分類木・回帰木 / CART「条件分岐」を木構造にしたモデル。分類木はクラスを、回帰木は連続値を予測。CARTは代表的なアルゴリズム名。
Gini係数決定木の分割の「純度」を測る指標の1つ。クラスが混ざっているほど値が大きく、分割でGiniが減る方向を選ぶ。
アンサンブル / バギング / ブースティング / Random Forest複数モデルを組み合わせるのがアンサンブル。バギングは「並列にたくさん学習して平均」、ブースティングは「前の誤りを重視して順番に改善」。Random Forestは決定木+バギングの代表例。

3 教師なし学習・評価・汎化

用語説明
主成分分析(PCA) / 寄与率データのばらつきが最大になる新しい軸(主成分)を見つける次元圧縮手法。寄与率は各主成分が全体の分散にどれだけ寄与するか。
SNE / t-SNE / Crowding Problem高次元データを2Dなどに可視化する手法がSNE、その改良版がt-SNE。高次元の「近さ」を低次元で表現しきれない問題をCrowding Problemと呼ぶ。
k-meansクラスタの中心(重心)を繰り返し更新しながら、データをk個のクラスタに分ける代表的クラスタリング手法。
階層的クラスタリング / デンドログラム / ウォード法 / 群平均法データを段階的に統合・分割してクラスタを作る。結果を木(デンドログラム)で表現。クラスタ間の距離の定義としてウォード法や群平均法などがある。
次元の呪い特徴量の次元が増えるとデータが疎になり、「近い点」が見つかりにくくなったり、必要なデータ量が爆発する問題。高次元では次元圧縮や正則化が重要。
訓練データ / 検証データ / テストデータモデルを学習させるデータ(訓練)、ハイパーパラメータ調整に使う(検証)、最終的な性能評価にだけ使う(テスト)という役割分担。
ホールドアウト法 / k分割交差検証データを訓練と検証に分けるシンプルな方法がホールドアウト。k分割交差検証はデータをk個に分けて「訓練+検証」をk回回すことで、評価のばらつきを減らす。
汎化誤差 / バイアス / バリアンス未知データに対する誤差が汎化誤差。モデルが単純すぎるとバイアスが大きく、複雑すぎるとバリアンス(予測の揺れ)が大きくなる。両者のトレードオフが重要。

4 性能指標

用語説明
正解率(Accuracy)全サンプルのうち正しく分類できた割合。クラス不均衡が激しい場合はこれだけでは不十分。
適合率(Precision) / 再現率(Recall) / F値適合率は「予測ポジティブのうち正解」、再現率は「真のポジティブのうち検出できた割合」。F値は両者の調和平均で、バランスよく高いかを測る。
ROC曲線 / AUC閾値を動かしたときの「真陽性率 vs 偽陽性率」を描いた曲線がROC。AUCはその面積で、1に近いほど性能が良い。
IoU / mAPIoU(Intersection over Union)は検出ボックスと正解ボックスの重なり具合。mAPはさまざまなIoU閾値やクラスにまたがる平均適合率で、物体検出の代表的指標。
micro平均 / macro平均マルチクラスやマルチラベルで、サンプル数を重みづけして平均するのがmicro、クラスごとに指標を計算して単純平均するのがmacro。クラス不均衡への感度が異なる。
RMSE / MSE / MAE回帰の誤差指標。MSEは二乗誤差の平均、RMSEはその平方根で元の単位に戻したもの。MAEは絶対値の平均で外れ値にやや強い。
混同行列真のクラスと予測クラスの組み合わせを表にしたもの。どのクラスを間違えやすいかが一目でわかる。
パープレキシティ(Perplexity)言語モデルの性能指標で、「平均的に何通りくらいの選択肢に迷っているか」を表す値。小さいほど予測がシャープで良い。

深層学習の基礎

1 順伝播型ネットワークと損失

用語説明
多層パーセプトロン(MLP) / 全結合層各層のすべてのニューロンが次の層のすべてとつながっているネットワーク。最も基本的な深層学習モデル。
重み / バイアス入力に掛ける係数が重み、そこに足し込む定数がバイアス。学習で更新されるパラメータ。
MSE / MAE(回帰の損失)連続値を予測する回帰で用いる代表的損失。MSEは大きな誤差をより強く罰し、MAEは外れ値に比較的頑健。
バイナリクロスエントロピー2値分類の損失関数。真のラベルと予測確率のずれをクロスエントロピーで測る。
クロスエントロピー誤差 / ソフトマックス / one-hotベクトル多クラス分類で、one-hotラベルとソフトマックス出力の間のクロスエントロピーを最小化することで学習する。
マルチラベル分類 / 順序回帰複数ラベルが同時に立つ課題がマルチラベル、ラベルに順序がある回帰的分類が順序回帰。損失や評価指標の設計が異なる。

2 活性化関数

用語説明
シグモイド関数 / tanh出力を0〜1(シグモイド)、−1〜1(tanh)に押し込むS字カーブの非線形関数。勾配消失が起きやすく、深いネットワークでは課題になる。
温度パラメータソフトマックスやシグモイドの「鋭さ」を調整するパラメータ。温度が低いと分布がシャープに、高いとフラットになる。
ReLU / Leaky ReLU / GELUReLUは0以下を切り捨てるシンプルな活性化で勾配消失に強い。Leaky ReLUは負側もわずかに勾配を通す。GELUはガウス分布を使った平滑なReLU風の関数で、Transformer系でよく使われる。

3 最適化と誤差逆伝播

用語説明
SGD / ミニバッチ / 最急降下法最急降下法は損失が最も減る方向にパラメータを動かす手法。SGDはデータの一部(ミニバッチ)で近似的に勾配を計算しながら更新する現実的なバージョン。
Momentum / Nesterov Accelerated Gradient勾配の履歴を溜めて「物理の慣性」のように更新するのがMomentum。Nesterovは一歩先を見越して勾配を計算する改良版で、収束性が良い。
誤差逆伝播法(Backprop) / 連鎖律出力から入力方向へ誤差を伝えて勾配を計算するアルゴリズム。微分の連鎖律を使い、全パラメータの勾配を効率的に求める。
勾配消失深い層で勾配がほとんど0になり、重みが更新されなくなる問題。活性化関数や初期値、正規化などで対策する。
自動微分 / 計算グラフ計算をグラフ構造として記録し、逆向きにたどることで自動的に勾配を求める仕組み。PyTorchやTensorFlowの中身。
AdaGrad / RMSProp / Adam勾配の大きさに応じて各パラメータごとに学習率を調整する最適化アルゴリズム群。AdamはMomentum+RMSProp的な性質を持ち、デフォルトでよく使われる。
Xavier/Glorot 初期化 / Kaiming/He 初期化活性化関数に合わせて重みの初期分布の分散を調整する方法。層が深くなっても出力の分散が爆発・消失しにくくする。

4 正則化と汎化テクニック

用語説明
L1正則化 / スパース表現 / L2正則化 / weight decay損失に重みベクトルのノルムを加えることで過学習を抑える。L1は不要な重みを0にしやすく特徴選択的、L2(weight decay)は全体を小さくして滑らかにする。
ドロップアウト / ドロップコネクト学習時にランダムにユニット(または接続)を無効化し、ネットワークの冗長性を高めることで汎化性能を向上させる手法。
早期終了 / バッチサイズ・学習率調整検証誤差が悪化し始めたところで学習を止めるのが早期終了。バッチサイズや学習率も汎化に影響し、暗黙の正則化として働く。

5 CNN・RNN・Transformer

用語説明
畳み込み演算 / 受容野 / 特徴マップ / カーネルカーネル(フィルタ)を画像上でスライドさせる演算が畳み込み。1つのニューロンが見ている入力領域を受容野と呼び、その出力を並べたものが特徴マップ。
パディング / ストライド / チャネル / im2colパディングは周囲に0を足してサイズを保つ操作、ストライドは移動幅。チャネルはRGBなどの層方向。im2colは畳み込みを行列積に変換して高速計算するテクニック。
1×1畳み込み / depth-wise / グループ化畳み込み1×1はチャネル方向の線形変換、depth-wiseはチャネルごと別フィルタを当てる軽量畳み込み、グループ化はチャネルをグループに分けた畳み込みで計算削減を狙う。
プーリング(Max / Global Average)近傍の最大値をとるMax poolingや、特徴マップ全体の平均をとるGlobal Average Poolingなどで、空間サイズを縮小し位置ずれへの頑健性を高める。
RNN / BPTT / 双方向RNN時系列を順に処理し、過去の状態を内部に保持するネットワークがRNN。誤差を時系列方向に展開して逆伝播するのがBPTT。双方向RNNは前方向と後方向の2つを重ねる。
LSTM / GRU / ゲート機構勾配消失を和らげるために「忘却ゲート」「入力ゲート」「出力ゲート」などを導入したRNN拡張。GRUは構造を簡単にしたバージョン。
エンコーダ・デコーダ / seq2seq / アテンション1つの系列をベクトル表現にエンコードし、そこから別の系列をデコードする枠組みがseq2seq。アテンションは入力のどの部分を重視するかを学習的に決める機構。
Self-Attention / Multi-Head / Positional EncodingTransformerで使われる自己注意。自己の系列内で関連度を計算し、複数の視点(ヘッド)で並列に行う。位置情報はPositional Encodingで埋め込む。
Source-Target Attention / Masked Attention翻訳などで入力系列(ソース)と出力系列(ターゲット)の間に張るアテンション。言語モデルでは未来のトークンを見ないようにするのがMasked Attention。

6 汎化性能向上テクニック

用語説明
データ拡張(画像・音声・テキスト)画像の回転・反転・ノイズ付与、音声のピッチシフト・ボリューム変更、テキストのEDAなどでデータを人工的に増やし、汎化性能を高める。
RandAugment / MixUp / SpecAugmentRandAugmentはランダムな一連の変換を適用する画像拡張、MixUpは複数サンプルを線形合成する手法、SpecAugmentはメルスペクトログラム上でマスクを入れる音声拡張。
Batch / Layer / Instance / Group Normalization特徴量を正規化して学習を安定させる手法群。どの単位(バッチ・チャネル・空間など)で平均・分散を計算するかが異なる。
アンサンブル(バギング・ブースティング・スタッキング)同じ入力を複数モデルに通し、その出力を平均・投票・メタモデルで統合することで、ばらつきを減らし頑健な予測を得る。
ハイパーパラメータ / グリッドサーチ / ランダムサーチ / ベイズ最適化学習率・層数・ユニット数・ドロップアウト率など、学習で直接最適化しない設定値がハイパーパラメータ。全探索がグリッド、ランダムに試すのがランダムサーチ、過去の結果を使って効率的に次の点を決めるのがベイズ最適化。

深層学習の応用

1 画像認識・物体検出・セグメンテーション

用語説明
ResNet / 残差接続 / Residual Block「入力+変化分」を学習するブロック(残差ブロック)を積み重ねるネットワーク。勾配が深部まで届きやすくなり、非常に深いネットを安定して学習できる。
WideResNet / ボトルネック構造深さより幅を広げたResNetの変種がWideResNet。ボトルネック構造は中間の次元を一度小さくしてから元に戻すブロックで、計算量削減に使われる。
Vision Transformer / Shifted window / CLS token画像をパッチに分割してTransformerに入力するモデル。Shifted windowは局所注意の窓をずらして情報を広く伝播させる工夫。CLS tokenは全体の特徴を集約するための擬似トークン。
Bounding Box / ROI / Region Proposal Network物体検出で物体を囲う矩形がBounding Box。ROIはその候補領域。RPNは「どの場所に物体がありそうか」を提案するネットワーク。
Anchor box / アンカーフリー / FCOS / FPNあらかじめ用意した箱(アンカー)を基準に調整する検出がAnchorベース。アンカーフリーはそれを使わずに中心点などから検出する(FCOSなど)。FPNは複数解像度の特徴を統合するネットワーク。
ROI Pooling / ROI Align検出候補領域を固定サイズの特徴に変換する層。ROI Alignは量子化誤差を減らし精度を改善した版。
Non-Maximum Suppression(NMS) / ハードネガティブマイニング重なった候補から最もスコアの高いものだけ残す処理がNMS。ハードネガティブマイニングは誤認識しやすい負例を重点的に学習する手法。
FCN / U-Netセマンティックセグメンテーションの代表モデル。FCNは全てを畳み込み層で構成し、U-Netはエンコーダ・デコーダをスキップ接続で結んで細かな情報を保持する。
インスタンスセグメンテーション / パノプティックセグメンテーションクラスごとの領域だけを塗り分けるのがセマンティック、個々の物体ごとに分けるのがインスタンス。両方を統合した枠組みがパノプティック。

2 自然言語処理・LLM

用語説明
n-gram連続するn個の単語(または文字)を1ユニットとして扱う言語モデルの基本単位。nを増やすと文脈は増えるがデータは疎になる。
潜在的意味インデキシング(LSI)文書×単語行列にSVDをかけて低次元にすることで、潜在的な意味空間を構成する古典的手法。Word2vecの前身的な考え方。
Word2vec / skip-gram / CBOW / ネガティブサンプリング周囲の単語からターゲット単語(CBOW)、またはその逆(skip-gram)を予測することで単語の分散表現を学習するモデル群。ネガティブサンプリングは効率的に学習するための近似。
BERT / MLM / NSPBERTは文中の一部をマスクして当てるMLMと、文の続きかどうかを判定するNSPで事前学習された双方向Transformer。下流タスクにはファインチューニングで対応。
positional / segment embeddingsTransformerに単語の位置情報(positional)や文区別情報(segment)を与えるベクトル。純粋なSelf-Attentionには位置の概念がないため必要。
GPT系(基盤モデル) / Next token predictionGPTは自己回帰型の言語モデルで、次のトークンを予測するタスク(Next token prediction)で事前学習された基盤モデル。対話・要約など多様なタスクに適用できる。
Few-shot / Zero-shot learningほんの数例(few-shot)や例なし(zero-shot)の指示だけで新タスクをこなすLLMの能力。プロンプトの工夫で実現される。
Prompt Based Learningモデルの入力(プロンプト)を工夫して既存モデルに新タスクを「やってもらう」学習スタイル。タスクごとの再学習が不要という利点。
RAG(Retrieval-Augmented Generation)ベクタ検索などで外部知識を取得し、その内容をプロンプトに組み込んで生成する枠組み。LLM単体の記憶限界を補う。

3 音声・生成モデル・強化学習・特殊な学習法

(代表的なものだけ抜粋)

用語説明
サンプリング定理 / ナイキスト周波数アナログ信号をデジタル化するとき、最大周波数の2倍以上でサンプリングすれば元信号を復元できる、という定理とその境界周波数。
STFT / メルスペクトログラム / MFCC時系列を短い窓ごとにフーリエ変換するのがSTFT。その結果を人間の聴覚特性に合わせて周波数軸変換したのがメルスペクトログラム。MFCCはそこから特徴抽出した係数。
WaveNet / Dilated Causal Convolution音声波形を直接生成する自己回帰モデル。膨張(dilated)した因果畳み込みで広い過去文脈を効率よく扱う。
CTC / ビームサーチ入力長と出力長が異なる系列ラベリングを行う損失関数がCTC。複数候補を保ちながら最も尤もらしい系列を探索するのがビームサーチ。
識別モデル / 生成モデル / 自己回帰xからyを予測する条件付き分布p(y
拡散モデル / フローベース生成モデルノイズ付与と除去プロセスを学ぶ生成モデルが拡散モデル。可逆変換の連鎖で分布を変形するのがフローベース。画像生成などで高品質なサンプルを生成できる。
オートエンコーダ / Denoising AE入力を低次元ベクトルに圧縮して再構成するネットワーク。ノイズを入れてから復元させるDenoising AEはロバストな特徴抽出に利用される。
VAE / Reparameterization Trick / 変分下限潜在変数を持つ生成モデルを変分推論で学習するフレームワーク。Reparameterization Trickでサンプリングを微分可能にし、変分下限(ELBO)を最大化する。
GAN / 生成器 / 識別器 / モード崩壊ノイズからデータを生成する生成器と、本物か偽物か判定する識別器を対戦させる生成モデル。特定パターンだけしか生成できなくなる問題をモード崩壊と呼ぶ。
Conditional GAN / CycleGAN条件ラベルや入力画像に依存した生成を行うのがConditional GAN。ペアデータなしでドメイン変換を学習できるのがCycleGAN。
DQN / TD学習 / Q学習 / Experience replay状態・行動ごとの価値Q(s,a)を深層ネットで近似するのがDQN。TD学習は将来の価値を逐次更新する手法で、過去の経験をメモリに溜めて再利用するのがExperience replay。
A3C / 方策勾配 / Actor-Critic方策(行動確率分布)を直接最適化するのが方策勾配法。その方策と価値関数を別のネットで同時に学習するのがActor-Critic。A3Cは並列Actorで効率化した手法。
転移学習 / ドメイン適応 / ドメインシフトあるタスク・ドメインで学んだモデルを別のタスクに流用するのが転移学習。分布が異なる(ドメインシフト)環境で性能を維持する工夫がドメイン適応。
自己教師あり学習 / Contrastive learningラベルなしデータから「同じものは近く、違うものは遠く」という関係を学ぶ枠組み。Contrastive lossでペアの類似度を直接最適化する。
Active Learning / Uncertainty Samplingモデルが最も不確実なサンプル(Least Confidentなど)にラベル付けをお願いすることで、少ないラベルで効率よく性能を上げる手法。
Metric Learning / Siamese / Triplet loss「距離が意味を持つ埋め込み空間」を学ぶのがMetric Learning。Siamese/Tripletネットは類似・非類似サンプルの距離関係を損失で制御する。
Meta Learning / MAML / メタ目的関数いろいろなタスクをまたいで「すぐに新タスクに適応できる初期値」を学ぶ枠組み。MAMLは数ステップの勾配降下で性能が上がるような初期パラメータをメタ目的で学習する。
XAI / Grad-CAM / Integrated Gradients深層モデルの判断根拠を可視化する手法群。Grad-CAMはクラスの勾配を使って画像の重要領域をヒートマップ表示、Integrated Gradientsは入力を0から現在値まで連続的に変化させて寄与度を計算する。
LIME / SHAP / Shapley Value / 協力ゲーム理論入力近傍で単純モデルを当てはめる局所説明がLIME。SHAPはゲーム理論のShapley値にもとづく特徴重要度指標で、特徴をプレイヤーとみなして「どの特徴がどれだけ予測に貢献したか」を定量化する。

開発・運用環境

用語説明
エッジコンピューティングクラウドではなく、デバイス側(エッジ)でAI推論などを行うアーキテクチャ。通信遅延やプライバシの観点で有利。
モデルの軽量化 / プルーニング / 蒸留 / 量子化不要な重みを0にするプルーニング、大きなモデルの知識を小さなモデルに移す蒸留、重みを低ビット表現にする量子化などで、エッジ向けにモデルを小さく高速にする。
分散深層学習 / モデル並列 / データ並列大規模モデルを複数GPU/ノードで学習する枠組み。モデル並列はネットワークを分割、データ並列は同じモデルを複数マシンでコピーして異なるミニバッチを処理する。
連合学習 / クロスデバイス / クロスサイロ / FedAvg学習データを各デバイスに残したまま、モデルの更新だけを集約する仕組みが連合学習。多端末環境(クロスデバイス)や組織単位(クロスサイロ)で使われ、FedAvgは各クライアントの更新を平均する基本アルゴリズム。
SIMD / SIMT / MIMD並列計算の命令・データの関係を表す分類。1命令を複数データに同時適用するのがSIMD、GPUでよく使われるスレッドモデルがSIMT、複数命令・複数データがMIMD。
GPU / TPU行列演算に特化した並列計算デバイス。GPUはグラフィックス由来、TPUはディープラーニング専用で、いずれも学習・推論の高速化に必須。
仮想化環境 / ホスト型 / ハイパーバイザー型1台の物理マシン上で複数の独立した仮想マシンを動かす仕組み。ホストOS上で動くタイプと、ハイパーバイザーが直接ハードウェアを管理するタイプがある。
コンテナ型仮想化 / Docker / DockerfileOSカーネルを共有しながらアプリケーションを隔離する軽量な仮想化方式。Dockerは代表的な実装で、Dockerfileは環境構築手順をコードとして記述するレシピ。

コメント

タイトルとURLをコピーしました