BIRCH(英文全稱:balanced iterative reducing and clustering using hierarchies,中文:利用層次方法的平衡迭代規約和聚類[1]是一個非監督式分層聚類算法,於1996年由 Tian Zhang 提出。算法的優勢在於能夠利用有限的內存資源完成對大數據集的高質量的聚類。[2]該算法通過構建聚類特徵樹(Clustering Feature Tree,簡稱CF Tree),在接下來的聚類過程中,直接對聚類特徵進行聚類,而無需對原始數據集進行聚類。[3]因此在多數情況下只需要掃描一次資料庫即可進行聚類,IO成本與數據集尺寸呈線性關係。[4]

聚類特徵樹 編輯

算法利用構建聚類特徵樹進行計算,樹上的節點稱作聚類特徵 )。 聚類特徵為一個三維向量 [5] 表示子類中節點的數目, 表示 個點的線性和, 表示 個點的平方和。

參考資料 編輯

  1. ^ 樊仲欣;王興;苗春生;. 基于连通距离和连通强度的BIRCH改进算法. 計算機應用. 2018: 6 [2018-12-09]. (原始內容存檔於2019-02-15). 
  2. ^ BIRCH算法学习 - Liam Q的专栏 - CSDN博客. blog.csdn.net. [2018-12-09]. (原始內容存檔於2019-02-15). 
  3. ^ 朱, 映輝; 江, 玉珍. BIRCH聚类算法优化及并行化研究. 計算機工程與設計. 2007, (18): 4345–4346+4369 [2018-12-11]. ISSN 1000-7024. doi:10.16208/j.issn1000-7024.2007.18.014. (原始內容存檔於2019-02-15). 
  4. ^ BIRCH聚类算法原理 - 刘建平Pinard - 博客园. www.cnblogs.com. [2018-12-09]. (原始內容存檔於2018-12-24) (中文(中國大陸)). 
  5. ^ BIRCH算法---使用聚类特征树的多阶段算法 - 走在前往架构师的路上 - CSDN博客. blog.csdn.net. [2018-12-09]. (原始內容存檔於2019-02-15).