Unsa ang k-nagpasabut nga Clustering?

Pagdumala sa datos gamit ang algorithm sa k-means

Ang k-way clustering algorithm usa ka data mining ug tool sa pagkat-on sa makina nga gigamit sa pag-obserba sa mga obserbasyon ngadto sa mga grupo sa mga susamang obserbasyon nga walay bisan unsang kasayuran sa mga relasyon. Pinaagi sa sampling, ang algorithm mosulay sa pagpakita kung asa nga kategoriya, o cluster, ang datos nahisakop, uban sa gidaghanon sa mga cluster nga gihubit pinaagi sa bili k.

Ang k- means algorithm mao ang usa sa pinakasimple nga mga teknik sa clustering ug sagad kini gigamit sa medical imaging, biometrics, ug may kalabutan nga mga natad. Ang pagpahimulos sa k- nagpasabot nga clustering mao nga kini nagsaysay mahitungod sa imong data (gamit ang unsupervised form niini) kay sa imong pagtudlo sa algorithm mahitungod sa datos sa pagsugod (gamit ang supervised form sa algorithm).

Kini usahay gitawag nga Lloyd's Algorithm, ilabi na sa mga computer science circles tungod kay ang standard algorithm una nga gisugyot ni Stuart Lloyd sa 1957. Ang termino nga "k-means" gimugna niadtong 1967 ni James McQueen.

Giunsa ang k-nagpasabot sa mga Algorithm Function

Ang k- means algorithm usa ka algorithm sa ebolusyon nga nakuha sa ngalan niini gikan sa pamaagi sa operasyon niini. Ang algorithm nagtipig sa mga obserbasyon sa mga grupo nga k , diin ang k gihatagan ingon nga usa ka input parameter. Dayon kini maghatag sa matag obserbasyon ngadto sa mga pungpong nga pinasukad sa pagkasuod sa obserbasyon sa kahulogan sa cluster. Ang kahulugan sa cluster dayon gi-recomputed ug ang proseso nagsugod pag-usab. Ania kung unsaon ang algorithm:

  1. Ang algorithm arbitrarily mopili k puntos isip unang mga cluster center (ang paagi).
  2. Ang matag punto sa dataset gi-assign sa closed cluster, base sa distansya sa Euclidean sa matag punto ug sa matag cluster center.
  3. Ang matag cluster center gi-recomputed ingon nga kasagaran sa mga punto sa cluster.
  4. Gisubli ang mga lakang 2 ug 3 hangtud nga nagkatapok ang mga pungpong. Ang convergence mahimo nga ipasabot nga magkalahi depende sa pagpatuman, apan kasagaran kini nagpasabot nga walay mga obserbasyon nga mag-usab sa mga hugpong kung ang mga lakang 2 ug 3 gisubli, o nga ang mga pagbag-o wala maghimo og usa ka materyal nga kalainan sa kahulugan sa mga hugpong.

Pagpili sa gidaghanon sa mga pundok

Usa sa mga nag-una nga mga disbentaha sa k- nagpasabot nga pag-cluster mao ang kamatuoran nga kinahanglan mo nga isulti ang gidaghanon sa mga clusters isip usa ka input sa algorithm. Ingon nga gidesinyo, ang algorithm dili makahimo sa pagtino sa angay nga gidaghanon sa mga clusters ug nag-agad sa tiggamit sa pag-ila niini sa daan.

Pananglitan, kon ikaw adunay usa ka grupo sa mga tawo nga pag-clustered pinasukad sa identidad sa binary gender sama sa lalaki o babaye, ang pagtawag sa algorithm sa k- gamit gamit ang input k = 3 magpugos sa mga tawo ngadto sa tulo ka mga hugpong kung duha lamang, o usa ka input sa k = 2, maghatag sa usa ka mas natural nga pagkahusto.

Sa susama, kung ang usa ka pundok sa mga tawo dali nga mag-clustered base sa home state ug gitawag nimo ang algorithm sa k- gamit sa input k = 20, ang mga resulta tingali sobra ka nahimo aron mahimong epektibo.

Tungod niini nga rason, sa kasagaran usa ka maayong ideya nga mag-eksperimento sa nagkalainlaing mga bili sa k aron mahibal-an ang bili nga labing angay sa imong datos. Mahimo usab nga imong masayran ang paggamit sa ubang mga algorithm sa pagmina sa data sa imong pagpangita sa makina nga nakat-unan sa makina.