聚類分析將個體進行分類,已知當前所研究的問題的類別數目及各類特徵,將一些未知類別的個體正確地歸屬於其中某一類。在開始具體的聚類分析方法之前,需要了解一些關於聚類分析的基本原理。常用聚類分析方法有層次聚類法、k-均值聚類法、dbscan、模糊聚類法等。本文將介紹層次聚類法。
聚類分析不同於日常生活中所說的分類,事先不知道所研究的問題應分為幾類,也不知道觀測到的個體的具體分類情況,需要按照性質上的親疏程度在沒有先驗知識的情況下進行自動分類,產生分類結果。
例如,在大學,同學之間根據興趣愛好、性格、家鄉等,自發地聚整合不同的圈子,這個過程就是聚類,一開始不知道類別數目及細節,聚類過程自發進行。
上面提到兩個關鍵點:親疏程度、沒有先驗知識。
親疏程度通過樣品間的距離來衡量,下面介紹樣品間的距離。
1、歐式距離
最常用的距離是歐氏距離,初高中數學學過的兩點間的距離就是歐式距離。
2、平方歐式距離
平方歐式距離,即歐氏距離的平方。
3、切比雪夫距離
切比雪夫距離定義為兩個體中k個變數值絕對差的最大值。
4、塊距離
塊距離定義為兩個體中k個變數值絕對差的總和。
5、閔可夫斯基距離
在閔可夫斯基距離中,
其他距離還有蘭氏距離和馬氏距離等。
總結一下,如下圖所示。
下表是同一批客戶對經常光顧的五座商廈在購物環境和服務質量兩方面的平均評分。現希望根據這批資料將五座商廈分類。
首先,通過這個例子講解一下樣品間的距離。
以a,b為例,在excel中,可以直接根據公式計算:
具體excel公式如下:
在聚類分析中,不僅要計算要計算樣品間的距離,還要計算類與類之間的距離,比較常用的有:最短距離法、最長距離法、類平均法、ward離差平方和法和重心法。
1、最短距離法
最短距離法:定義為兩個類中最鄰近的兩個樣品的距離,如下圖所示,這兩個類中最近的兩個樣本是2與4,按照最短距離法,將樣本2與4的距離作為這兩個類的距離。
2、最長距離法
最長距離法:定義為兩個類中最遠的兩個樣品的距離,如下圖所示,這兩個類中最遠的兩個樣本是1與3,按照最長距離法,將樣本1與3的距離作為這兩個類的距離。
3、類平均法
類平均法:定義為兩個類中任意兩個樣品距離的平均,如下圖所示,將這兩個類中的所有樣本的距離都計算出來,然後取平均,作為這兩個類的距離。
其他常用的距離還有ward離差平方和法和重心法。
總結如下:
層次聚類法分為3步:
1、開始每個物件自成一類;
2、然後每次將距離最近的兩類合併,合併後重新計算新類與其他類的距離;
3、重複步驟2,直到所有物件歸為一類。
具體操作如下:
1、開始每個物件自成一類,計算出距離矩陣,記為d1
距離計算公式:
例如,計算a,b之間的距離,公式為:
=sqrt(($c$5-c6)^2+($d$5-d6)^2)
其他樣本距離按照類似的方式計算。
2、然後每次將距離最近的兩類合併,合併後重新計算新類與其他類的距離
由距離矩陣d1可知,d,e之間距離最小,因合併為一新類,記為cl4
接著,按最短距離法計算新類與其他類的距離,得到距離矩陣,記為d2。
從距離矩陣d2可知,a,b之間距離最小,合併為一新類,記為cl3。
接著計算新類與其他類的距離,得到距離矩陣,記為d3。
由距離矩陣d3可知,c,cl4之間距離最小,合併為一新類,記為cl2。
接著計算新類與其他類的距離,得到距離矩陣,記為d4。
合併cl3與cl2,記為cl1。至此,聚類過程完成。
層次聚類法聚類的過程可用一張譜系聚類圖描述,如下所示。
如果要分為三類,則按照下圖所示的方式切割:
三類劃分方式為:g1=,g2=,g3=。
如果要分為兩類,則按照下圖所示的方式切割:
兩類劃分方式為:g1=,g2=。
聚類分析不僅可以對樣品進行分類,也可以對變數進行分類,多數情況下,都是對樣品進行聚類,這也叫做q型聚類,少數情況,需要對變數進行聚類,稱為r型聚類。
如何巧妙地用Excel做財務分析?果斷收藏!
對於會計人員而言,在進行財務分析時,大多都是利用手工計算財務指標,其計算工作量較大。 除此之外,在實現會計電算化的單位,在其會計軟體中可能有一些財務分析指標。但這些指標如果不能增加或修改,往往就難以充分滿足各種企業的不同需要。 針對上述存在的問題,建議利用excel 電子 進行分析,其優點是分析方法...