最小冗餘特徵選擇
最小冗餘特徵選擇是一種經常被用於識別genes和phenotypes的特徵並縮小它們之間的相關性的算法。其經常與相關性特徵選擇算法,比如最小冗餘最大相關性(mRMR)成對使用。
特徵選擇是模式識別和機器學習的一個基本問題。識別數據中和使用的參數相關的子集,一般被稱作最大相關。這些子集一般包含相關並冗餘的數據,mRMR嘗試通過移除這些冗餘子集以定位這個問題。mRMR在多個領域有着廣闊的應用,比如癌症診斷和語音識別。
特徵可以通過多種方法進行選擇。一種方式是選擇和分類變量相關性最強的特徵。這被稱為最大相關選擇。可以使用很多啟發式算法,比如順序前向(sequential forward),後向(backward)或浮動選擇(floating selections)。
另一方面,特徵可以通過相互距離很遠但仍然與分類變量「高」相關的方式進行選擇。這種方式被稱為最小冗餘最大相關(mRMR)選擇被發現比最大相關選擇更加強大。
作為一種特殊情況,「相關性」可以被替換為變量間的統計學依賴關係(statistical dependency)。交互訊息可以被用於量化依賴關係。在這種情況下,mRMR是一種最大化選擇的特徵的聯合分佈(joint distribution)和分類變量之間依賴關係的估計。
研究已經嘗試了對冗餘和相關性測量不同的測量方法。一個最近的研究比較了多個在醫療圖像內容之間的不同的測量。[1]
參考
- ^ Auffarth, B., Lopez, M., Cerquides, J. (2010). Comparison of redundancy and relevance measures for feature selection in tissue classification of CT images. Advances in Data Mining. Applications and Theoretical Aspects. p. 248--262. Springer. http://www.csc.kth.se/~auffarth/publications/redrel.pdf (頁面存檔備份,存於互聯網檔案館)
外部連結
- Peng, H.C., Long, F., and Ding, C., "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp. 1226–1238, 2005. Program (頁面存檔備份,存於互聯網檔案館)
- Chris Ding and Hanchuan Peng, "Minimum Redundancy Feature Selection from Microarray Gene Expression Data". 2nd IEEE Computer Society Bioinformatics Conference (CSB 2003), 11–14 August 2003, Stanford, CA, USA. Pages 523-529.
- Penglab mRMR (頁面存檔備份,存於互聯網檔案館)