Ang klasipikasyon sa Data Mining

Ang klasipikasyon usa ka pamaagi sa pagmina nga naghatag og mga kategoriya sa usa ka koleksyon sa mga datos aron makatabang sa mas tukma nga mga panagna ug pagtuki. Gitawag usahay nga gitawag og Decision Tree , ang klasipikasyon usa sa pipila ka mga pamaagi nga gituyo aron mahimo ang pag-analisar sa dako kaayo nga mga dataset nga epektibo.

Nganong Klasipikasyon?

Ang dako kaayo nga mga database nahimo nga lagda sa kalibutan karon sa "dagkong datos." Hunahunaa ang usa ka database nga adunay daghan nga mga terabytes sa data-usa ka terabyte usa ka trilyon nga byte sa datos.

Ang Facebook nag-crunch sa 600 ka terabytes sa bag-ong datos sa matag adlaw (sa 2014, sa katapusang higayon nga kini nagtahu niini nga mga paninguha). Ang nag-unang hagit sa dagkong datos mao kung unsaon paghatag kahulugan niini.

Ug ang gidaghanon nga gidaghanon dili lamang ang suliran: ang dagkong datos usab adunay nagkalainlain, wala matukod ug kusog nga kausaban. Hunahunaa ang mga datos sa audio ug video, poste sa social media, 3D data o geospatial data. Kini nga matang sa datos dili dali nga pagkategorya o organisado.

Aron makab-ot kini nga hagit, usa ka lainlaing awtomatik nga pamaagi alang sa pagkuha sa mapuslanong kasayuran ang naugmad, lakip niini ang klasipikasyon .

Giunsa Pagklasipikar sa Klasipikasyon

Sa kakuyaw sa paglihok nga layo kaayo sa tech-speak, atong hisgutan kung unsa ang klasipikasyon. Ang tumong mao ang paghimo og usa ka hugpong sa mga lagda sa klasipikasyon nga motubag sa usa ka pangutana, mohimo og usa ka desisyon, o motagna sa kinaiya. Sa pagsugod, usa ka han-ay sa datos sa pagbansay ang naugmad nga adunay usa ka hugpong sa mga hiyas ingon man sa lagmit nga resulta.

Ang trabaho sa algorithm sa klasipikasyon mao ang pagdiskobre kon giunsa nga ang hugpong sa mga hiyas nakaabot sa konklusyon niini.

Sitwasyon : Tingali ang usa ka kompanya sa credit card naningkamot sa pagtino kung unsang mga palaaboton ang kinahanglan nga makadawat sa tanyag nga credit card.

Mahimo kini nga mga datos sa pagbansay:

Pagbansay sa Data
Ngalan Edad Gender Tinuig nga kita Gitanyag nga Credit Card
John Doe 25 M $ 39,500 Dili
Jane Doe 56 F $ 125,000 Oo

Ang mga kolum sa "prediktor" nga Edad , Gender , ug Annual Income nagtino sa bili sa "hiyas sa prediktor" nga Offer Card Credit . Sa usa ka training set, ang tagna sa prediksyon nahibal-an. Ang klasipikasyon nga algorithm dayon naningkamot sa pagtino kung unsa ang pagkab-ot sa bili sa tagna sa prediktor: unsa man ang relasyon tali sa mga tagna ug sa desisyon? Kini makapalambo og usa ka hugpong sa mga kalagdaan sa prediksiyon, kasagaran usa ka pahibalo / PULONG, pananglitan:

KUNG (Edad> 18 OR Age <75) UG Tinuig nga Kinitaan> 40,000 NIADTONG Pagpahaluna sa Credit Card = oo

Dayag, usa kini ka yanong ehemplo, ug ang algorithm nagkinahanglan sa usa ka mas dako nga sampling datos kaysa sa duha ka mga talaan nga gipakita dinhi. Dugang pa, ang lagda sa prediksyon lagmit mas komplikado, lakip ang sub-rules aron makuha ang mga detalye sa kinaiya.

Sunod, ang algorithm gihatagan og "prediksiyon nga set" sa mga datos aron pag-analisar, apan kini nga wala adunay hiyas nga panagna (o desisyon):

Predictor Data
Ngalan Edad Gender Tinuig nga kita Gitanyag nga Credit Card
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Kini nga datos sa prediktor makatabang sa pagbana-bana sa katukma sa mga lagda sa prediksyon, ug ang mga lagda dayon tweaked hangtud nga ang konsider nagtan-aw sa mga panagna nga epektibo ug mapuslanon.

Mga Adlaw sa Adlaw nga mga Adlaw sa Klasipikasyon

Ang klasipikasyon, ug uban pang mga teknik sa pagmina sa datus, maoy hinungdan sa kadaghanan sa atong adlaw-adlaw nga kasinatian isip mga konsumidor.

Ang mga prediksiyon sa panahon mahimong gamiton sa klasipikasyon aron sa pagtaho kung ang adlaw mahimong ulanon, maulawon o madag-umon. Ang medikal nga propesyon mahimong mag-analisar sa mga kondisyon sa panglawas aron pagtag-an ang mga resulta sa medikal. Usa ka matang sa pamaagi sa klasipikasyon, Naive Bayesian, naggamit sa kondisyon nga posibilidad sa pagkategoriya sa mga spam email. Gikan sa pagpangita sa pagpanglimbong ngadto sa mga tanyag sa produkto, ang klasipikasyon anaa sa luyo sa mga talan-awon matag adlaw sa pag-analisar sa datos ug paghimo sa mga panagna.