入力，出力と学習器

入力と出力

変数[variables]

$X$ をある集合とするとき，$X$ の任意の元[データ]を代入するこができる文字 $x$ を関数的変数といいます．

入力変数[input variables]と出力変数[output variables]

値が事前に決まっているか，あるいは，事前に計測されている変数を入力変数といいます．
この入力変数から何らかの影響を受ける変数を出力変数といいます．

機械学習[Machine Learning]

機械学習とは，入力変数[入力データ]から自律的にパターン・経験則を発見し，そのパターン・経験則を現状分析や将来の予測，あるいは不確定な状況での意思決定に利用する手法群のことをいいます．
機械学習を行うためには，入力変数から特徴量と呼ばれる数値を抽出する必要があります．特徴量とは，入力変数にどのような特徴があるかを数値化したものです．

学習器[learner]

入力変数からパターン・経験則を発見するためのモデルのことを学習器[learner]といいます．

入力	出力
説明変数（explanatory variable）予測変数（predictor variable）独立変数（independent variable）特徴[feature]	従属変数（dependent variable）目的変数（objective variable）応答変数（response variable）

※説明変数の数が増えると，未知のデータを予測する能力（汎化性能）の向上が難しくなります．

データの種類

量的変数数値データ	質的変数カテゴリーデータ
比例尺度間隔尺度	名義尺度順序尺度間隔尺度

ノーフリーランチ定理

あらゆる問題において性能のよい万能な学習アルゴリズムは存在しない．

それぞれの分析目的，それぞれのデータに適したアルゴリズムがある．使い分けが必要．

学習の種類

−	入力	出力	例
教師あり学習（supervised learning）	○	○	回帰分析（regression）分類・識別（classification）
教師なし学習（unsupervised learning）	×	○	クラスタリング頻出パタンマイニング外れ値検出

Mathematics is the language with which God has written the universe.

LSP LSP Parquet Lakebase OLTPとOLAP n-gram

量的変数数値データ	質的変数カテゴリーデータ
比例尺度間隔尺度	名義尺度順序尺度間隔尺度