最小冗余特征选择

最小冗余特征选择是一种经常被用于识别genes和phenotypes的特征并缩小它们之间的相关性的算法。其经常与相关性特征选择算法,比如最小冗余最大相关性(mRMR)成对使用。

特征选择模式识别机器学习的一个基本问题。识别数据中和使用的参数相关的子集,一般被称作最大相关。这些子集一般包含相关并冗余的数据,mRMR尝试通过移除这些冗余子集以定位这个问题。mRMR在多个领域有着广阔的应用,比如癌症诊断和语音识别。

特征可以通过多种方法进行选择。一种方式是选择和分类变量相关性最强的特征。这被称为最大相关选择。可以使用很多启发式算法,比如顺序前向(sequential forward),后向(backward)或浮动选择(floating selections)。

另一方面,特征可以通过相互距离很远但仍然与分类变量“高”相关的方式进行选择。这种方式被称为最小冗余最大相关(mRMR)选择被发现比最大相关选择更加强大。

作为一种特殊情况,“相关性”可以被替换为变量间的统计学依赖关系(statistical dependency)。交互訊息可以被用于量化依赖关系。在这种情况下,mRMR是一种最大化选择的特征的联合分布(joint distribution)和分类变量之间依赖关系的估计。

研究已经尝试了对冗余和相关性测量不同的测量方法。一个最近的研究比较了多个在医疗图像内容之间的不同的测量。[1]

参考 编辑

  1. ^ Auffarth, B., Lopez, M., Cerquides, J. (2010). Comparison of redundancy and relevance measures for feature selection in tissue classification of CT images. Advances in Data Mining. Applications and Theoretical Aspects. p. 248--262. Springer. http://www.csc.kth.se/~auffarth/publications/redrel.pdf页面存档备份,存于互联网档案馆

外部链接 编辑

  • Peng, H.C., Long, F., and Ding, C., "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1226–1238, 2005. Program页面存档备份,存于互联网档案馆
  • Chris Ding and Hanchuan Peng, "Minimum Redundancy Feature Selection from Microarray Gene Expression Data". 2nd IEEE Computer Society Bioinformatics Conference (CSB 2003), 11–14 August 2003, Stanford, CA, USA. Pages 523-529.
  • Penglab mRMR页面存档备份,存于互联网档案馆