Dimensionality reduction(次元削減)は、高次元のデータを低次元の表現に変換する技術です。主な特徴と手法は以下の通りです:
- 目的:
- データの本質的な情報を保持しながら、次元数を削減する
- 計算効率の向上、可視化、ノイズ除去などに役立つ
- 主なアプローチ:
- 線形手法: PCA(主成分分析)、LDA(線形判別分析)など
- 非線形手法: t-SNE、UMAP、オートエンコーダーなど
- 特徴選択 vs 特徴抽出:
- 特徴選択: 元の特徴の部分集合を選ぶ
- 特徴抽出: 元の特徴を変換して新しい特徴を生成する
- 代表的な手法:
- PCA: データの分散が最大となる方向を見つける
- t-SNE: 高次元の類似度を低次元で保持しようとする
- オートエンコーダー: ニューラルネットワークを使用した非線形次元削減
- 応用分野:
- 機械学習: モデルの学習を効率化
- データ可視化: 高次元データの2D/3D表現
- 信号処理: ノイズ除去、特徴抽出
- 課題:
- 情報損失: 重要な情報を失う可能性がある
- 解釈性: 新しい特徴の意味を解釈するのが難しい場合がある
次元削減は、高次元データを扱う多くの分野で重要な前処理ステップとなっています