Unsa ang Kinahanglan Nimong Mahibal-an Bahin sa Bayesian Spam Filtering

by Heinz Tschabitscher

Susiha kon giunsa nga makatabang ang mga estadistika nga limpyo ang imong inbox

Ang mga pagsala sa spam sa Bayesian nagkalkula sa kalagmitan sa usa ka mensahe nga gibutang sa spam base sa sulod niini. Dili sama sa yano nga mga filter nga nakabase sa sulod, ang pag-filter sa spam sa Bayesian nakakat-on gikan sa spam ug gikan sa maayo nga mail, nga miresulta sa usa ka lig-on, mapahiangay ug hapsay nga anti-spam nga pamaagi nga, labing maayo sa tanan, wala'y gibalik nga dili maayo nga mga positibo.

Giunsa Nimo Pag-ila ang Junk Email?

Hunahunaa kon giunsa nimo makita ang spam . Adunay igo nga pagtan-aw. Nahibal-an mo kung unsa ang hitsura sa spam, ug nahibal-an nimo kung unsa ang maayo nga mail.

Ang posibilidad sa spam nga tan-awon sama sa maayo nga mail mao ang palibot ... zero.

Pag-imbento sa mga Filter sa Pagsulud sa Content Ayaw Pagpahiangay

Dili ba kini maayo kon ang mga filter sa spam kanunay nga nagtrabaho sama niana?

Ang pagmarka sa mga pagsusi sa spam nga nagsumikad sa sulod sulayi lang kana. Nangita sila og mga pulong ug uban pang mga kinaiya nga kasagaran sa spam. Ang matag kinaiya nga elemento gihatagan og score, ug usa ka score sa spam alang sa tibuok nga mensahe gikuha gikan sa indibidwal nga mga iskor. Ang ubang mga pagsala sa pagmarka usab nagapangita usab sa mga kinaiya sa lehitimo nga sulat, nga nagpakunhod sa katapusang iskor sa mensahe.

Ang pamaagi sa pag-scoring filter nagtrabaho, apan kini usab adunay daghang mga kahuyangan:

Ang listahan sa mga kinaiya gitukod gikan sa spam (ug ang maayong mail) nga anaa sa mga engineer sa filter. Aron maangkon ang usa ka maayong pagsabot sa tipikal nga spam nga bisan kinsa nga makakuha, ang mail kinahanglan nga kolektahon sa gatusan ka mga email address. Kini nagpahuyang sa pagka-epektibo sa mga pagsala, ilabi na tungod kay ang mga kinaiya sa maayo nga mail magkalahi alang sa matag tawo , apan kini wala gihunahuna.
Ang mga kinaiya nga pangitaon mas daghan o dili kaayo gibutang sa bato . Kon ang mga spammers maningkamot sa pagpahiangay (ug paghimo sa ilang spam nga sama sa maayo nga mail ngadto sa mga pagsala), ang mga pagsala nga mga kinaiya kinahanglang tweaked sa paagi-usa ka mas dako nga paningkamot.
Ang iskor nga gi-assign sa matag pulong tingali gibase sa usa ka maayong pagbanabana, apan kini wala'y mahimo. Ug sama sa lista sa mga kinaiya, kini wala magpahiuyon sa nagkausab nga kalibutan sa spam sa kinatibuk-an ni sa mga panginahanglan sa usa ka tawo.

Ang mga Filters sa Bayesian Spam Nagtamay sa Ilang Kaugalingon, Mas Maayo ug Mas Maayo

Ang mga filter sa spam sa Bayesian usa ka matang sa pag-scoring content-based filter, usab. Ang ilang pamaagi naglikay sa mga problema sa yano nga pag-scam sa mga pagsala sa spam, bisan pa, ug kini kaayo. Tungod kay ang kahuyang sa scoring nga mga filter anaa sa gitukod nga listahan sa mga kinaiya ug sa ilang mga score, kining lista giwagtang.

Hinunoa, ang mga filter sa spam sa Bayesian nagtukod sa listahan sa ilang mga kaugalingon. Sa tinuud, nagsugod ka sa usa ka (dako) nga panon sa mga email nga imong gi-classified ingon nga spam, ug usa ka grupo sa maayo nga mail. Ang mga pagsala sa pagtan-aw sa duha ug pag-analisar sa mga lehitimo nga mail ingon man usab sa spam aron sa pagkalkulo sa kalagmitan sa nagkalain-laing mga kinaiya nga makita sa spam, ug sa maayong mail.

Giunsa usa ka Filter sa Bayesian Spam nga nagsusi sa usa ka Email

Ang mga kinaiya sa usa ka Bayesian spam filter mahimo tan-awon mahimong:

ang mga pulong sa lawas sa mensahe, siyempre, ug
ang mga ulohan niini (pananglitan ug mga agianan sa mensahe , pananglitan!), apan usab
ubang mga aspeto sama sa HTML / CSS code (sama sa mga kolor ug uban pa nga format), o bisan pa
pulong nga mga pares, mga parirala ug
meta impormasyon (diin ang usa ka partikular nga hugpulong nagpakita, pananglitan).

Kung ang usa ka pulong, "Cartesian", pananglitan, dili makita sa spam apan kasagaran sa lehitimo nga email nga imong nadawat, ang posibilidad nga ang "Cartesian" nagpasabot nga ang spam dul-an sa zero. Ang "Toner", sa laing bahin, makita lamang, ug kasagaran, sa spam. Ang "Toner" adunay taas nga kalagmitan nga makita sa spam, dili ubos sa 1 (100%).

Kung ang usa ka bag-ong mensahe moabot, kini pag-analisar sa filter sa spam sa Bayesian, ug ang kalagmitan sa kompleto nga mensahe nga gi-spam giisip nga gamit ang indibidwal nga mga kinaiya.

Hunahunaa ang mensahe nga adunay duha ka "Cartesian" ug "toner". Gikan niini nga mga pulong lamang kini dili pa tin-aw kon kita adunay spam o legit mail. Ang uban pang mga kinaiya (tingali ug labing tingali) nagpakita sa kalagmitan nga nagtugot sa filter sa pagklasipikar sa mensahe ingon nga spam o maayong mail.

Ang mga Filters sa Bayesian Spam Makakat-on nga Awtomatik

Karon nga kita adunay usa ka klasipikasyon, ang mensahe mahimong gamiton aron sa pagbansay sa filter sa dugang pa. Sa kini nga kaso, ang posibilidad sa "Cartesian" nga nagpaila sa maayong mail nga gipaubos (kung ang mensahe nga adunay duha ka "Cartesian" ug "toner" makita nga spam), o ang posibilidad nga "toner" nga nagpakita sa spam kinahanglan usbon pag-usab.

Pinaagi sa paggamit niini nga auto-adaptive technique, ang mga filter sa Bayesian mahimong makat-on gikan sa ilang kaugalingon ug sa mga desisyon sa user (kon siya maningkamot sa usa ka sayup nga paghukom sa mga filter). Ang pagpasibo sa pag-filter sa Bayesian nagsiguro usab nga kini labing epektibo alang sa tagsa-tagsa nga user sa email. Samtang ang kadaghan sa mga tawo sa spam adunay susama nga mga kinaiya, ang lehitimong mail lain nga lahi alang sa tanan.

Giunsa Pag-uswag sa mga Spammers ang mga Filters sa Bayesian?

Ang mga kinaiya sa lehitimo nga mail sama ka mahinungdanon alang sa proseso sa pag-filter sa Bayesian nga spam sama sa spam. Kung ang mga pagsala gibansagan ilabi na alang sa matag tiggamit, ang mga spammers adunay mas lisud nga panahon sa pagtrabaho sa palibot sa tanan (o gani sa kadaghanan sa mga tawo) nga mga filter sa spam, ug ang mga pagsala mahimong mapasibo sa hapit tanan nga pagsulay sa mga spammers.

Ang mga spammers makahimo lamang sa paglabay sa maayo nga gibansay nga Bayesian nga pagsala kon ilang himoon ang ilang mga mensahe sa spam nga morag sama sa ordinaryong email nga makuha sa tanan.

Ang mga tigpamaba dili kasagaran magpadala sa maong mga ordinary nga email. Atong hunahunaon kini tungod kay kini nga mga email wala magtrabaho isip junk email. Busa, ang mga kahigayunan nga dili nila kini buhaton kon ang ordinaryo, boring nga mga email mao lamang ang paagi sa paghimo niini nga wala sa mga filter sa spam.

Kung ang mga spammers mobalhin ngadto sa kasagaran nga mga ordinaryong mga email, bisan pa niana, makita nato ang daghan nga spam diha sa atong mga Inboxes pag-usab, ug ang email mahimo nga ingon nga makapahigawad sama sa mga adlaw sa wala pa Bayesian (o mas grabe pa). Kini usab makadaut sa merkado alang sa kadaghanan nga mga matang sa spam, bisan pa, ug busa dili molungtad sa taas nga panahon.

Lig-on nga mga Indicator Mahimo nga usa ka Bayesian Spam Filter & # 39; s Achilles & # 39; Tumong

Ang usa ka eksepsiyon mahimong masabtan alang sa mga spammers sa pagtrabaho sa ilang paagi pinaagi sa mga filter sa Bayesian bisan sa ilang naandan nga sulod. Kini mao ang kinaiya sa Bayesian statistics nga ang usa ka pulong o kinaiya nga kanunay nga makita sa maayo nga mail mahimong mahinungdanon kaayo sa pagbalhin sa bisan unsa nga mensahe gikan sa pagtan-aw sama sa spam nga gibutang nga ingon nga ham sa filter.

Kung ang mga spammers mangita og usa ka paagi aron mahibal-an ang imong sigurado nga fire-word nga mga pulong-pinaagi sa paggamit sa mga resibo sa HTML pagbalik aron makita kung unsang mga mensahe ang imong giablihan, sama pananglit-, kini mahimong maglakip sa usa niini sa usa ka junk mail ug makaabot kanimo bisan sa usa ka maayo nga pag- gibansay nga filter sa Bayesian.

Gisulayan kini ni John Graham-Cumming pinaagi sa pagtugot sa duha ka mga filter sa Bayesian nga magtrabaho batok sa usag usa, ang "dili maayo" nga gipahiangay sa mga mensahe nga nakit-an nga makuha pinaagi sa "maayo" nga filter. Siya nag-ingon nga kini molihok, bisan pa nga ang proseso makagugol sa panahon ug komplikado. Wala kita maghunahuna nga makita nato ang daghan niini nga nahitabo, labing menos dili sa dakong bahin, ug dili gipasibo sa mga kinaiya sa mga tawo sa email. Ang mga spammers mahimong (sulayan) nga mahibal-an ang pipila ka mga pulong alang sa mga organisasyon (sama sa "Almaden" alang sa pipila ka mga tawo sa IBM tingali?) Sa baylo.

Kasagaran, ang spam kanunay nga (kamahinungdanon) nga lahi sa regular nga mail o kini dili mahimo nga spam, bisan pa.

Ang Pina-ubos nga Linya: Ang Kahayag sa Paglutaw sa Bayesian Mahimong Mahuyang

Ang mga pag-filter sa spam sa Bayesian mao ang mga pagsusi sa sulod nga basehan nga:

ilabi na nga gibansay sa pag-ila sa spam ug maayong mail sa tagsa-tagsa nga email sa gumagamit , nga naghimo niini nga epektibo kaayo ug lisud nga ipahiangay alang sa mga spammers.
mahimong padayon ug walay daghang paningkamot o pag-analisar sa manwal nga ipahiangay sa pinaka-ulahing mga limbong sa mga spammers.
kuhaa ang maayong mail sa tagsa-tagsa nga tiggamit sa account ug adunay gamay kaayo nga gidaghanon sa sayop nga mga positibo .
Ikasubo, kung kini ang hinungdan sa buta nga pagsalig sa mga filter sa Bayesian nga anti-spam, kini naghimo sa panalagsa nga sayup nga mas seryoso . Ang kaatbang nga epekto sa bakak nga mga negatibo (spam nga susama gayud sa regular mail) adunay potensyal nga makatugaw ug mapakyas sa mga tiggamit.