發表文章

目前顯示的是有「R語言」標籤的文章

機器學習的墊腳石在這!十種演算法圖解分享給你~(非監督式學習)

圖片
上篇的機器學習的五種演算法圖解你都會了嗎?學會的快往下看,進入下一階段~ 二、非監督式學習 1. 隨機森林(Random Forest) 隨機森林可以視為決策樹的延伸,可以把隨機森林當作是多個決策樹組合而成,並加入隨機分配的訓練資料,以大幅增進最終的運算結果。其想法就是結合多個「弱學習器」(即決策樹)來建構一個「強學習器」模型。這種方法被稱為「集成」(Ensemble Method)。同時也能降低單個決策樹出錯的風險。 ▲ 決策樹演算法示意圖 例如若創建一個隨機森林模型預測數值,只有第三個決策樹預測為 0,但是如果整合所有決策樹的結果,將會判斷出預測值是為 1。 隨機森林的優點,就是可以處理大量的輸入變數,同時計算各例中的親近度,這點對於資料探勘、偵測離群點和將資料視覺化非常有用。 2. 聚類分析(Cluster analysis) 聚類分析是統計資料分析的技術,後來在如 機器學習 等領域受到廣泛應用。「聚類」是把相似的物件通過靜態分類,分成不同的組別或子集(subset)。聚類有很多種方法,常見的如 K-means、層次聚類(Hierarchical clustering)、譜聚類(Spectral Clustering)等等。 ▲ 「聚類」是把相似的物件通過靜態分類,分成不同的組別或子集 (圖片來源: geeksforgeeks.org) 聚類時,需要實現的目標只是要把相似的東西聚到一起,一個聚類算法只需要知道如何計算相似度就可以開始分類,因此聚類算法並不需要使用訓練資料進行學習。 3. 主成分分析(Principal Component Analysis,PCA) 主成分分析 PCA 是一個在 機器學習 與統計學領域中被廣泛用來分析資料、降低數據維度以及去關聯的線性降維方法。降維(Dimension reduction)是當資料維度數(變數)很多的時候,嘗試讓維度數(變數)少一點,但資料特性不會差太多的方法。 機器學習 使用 PCA 達到降維的目的,主要是為了避免「維數災難」,或稱「維度詛咒」,指當維度增加時,分析和組織高維空間因體積指數增加而遇到各種問題:在 機器學習 問題中,模型預測能力會隨著維度的增加而減小。 4. 奇異值分解(Singular Value ...