機器學習統計學領域,降維(dimensionality reduction)是指在某些限定條件下,降低隨機變量個數,得到一組「不相關」主變量的過程[1]。 降維可進一步細分為變量選擇特徵提取兩大方法。

變量選擇

編輯

變量選擇假定數據中包含大量冗餘或無關變量(或稱特徵、屬性、指標等),旨在從原有變量中找出主要變量。現代統計學中對變量選擇的研究文獻,大多集中於高維回歸分析英語High-dimensional_statistics,其中最具代表性的方法包括:

特徵提取

編輯

特徵提取可以看作變量選擇方法的一般化:變量選擇假設在原始數據中,變量數目浩繁,但只有少數幾個真正起作用;而特徵提取則認為在所有變量可能的函數(比如這些變量各種可能的線性組合)中,只有少數幾個真正起作用。有代表性的方法包括:

參見

編輯

參考文獻

編輯
  1. ^ Roweis, S. T.; Saul, L. K. Nonlinear Dimensionality Reduction by Locally Linear Embedding. Science. 2000, 290 (5500): 2323–2326. PMID 11125150. doi:10.1126/science.290.5500.2323.