Ինչ դուք պետք է իմանաք Bayesian Spam Filtering- ի մասին

by Հեյզս Ցչաբիցեր

Պարզեք, թե վիճակագրությունը օգնում է ձեր մուտքի արկղը մաքրել

Bayesian spam ֆիլտրերը հաշվարկում են հաղորդագրության հավանականությունը սպամ `դրա բովանդակության հիման վրա: Ի տարբերություն պարզ բովանդակության վրա հիմնված ֆիլտրերի, Բայեսյան լրտեսային զտիչը սովորում է սպամից եւ լավ նամակներից, ինչը հանգեցնում է շատ ուժեղ, հարմարվող եւ արդյունավետ հակամփգամային մոտեցմանը, որն ամենից լավն է, հազիվ թե կեղծ պոտենցիալ վերադառնա:

Ինչպես եք ճանաչում Junk Email- ը

Մտածեք, թե ինչպես եք հայտնաբերել սպամը : Հաճախակի հայացք է հաճախ: Դուք գիտեք, թե ինչ է սպամը նման, եւ դուք գիտեք, թե ինչ լավ նամակ նման է:

Spam- ի հավանականությունը լավ նամակ է փնտրում ... զրո:

Բովանդակության վրա հիմնված զտիչներ գնահատելը չի հարմարվում

Արդյոք դա մեծ չէ, եթե ավտոմատ սպամ ֆիլտրերը այդպես էլ աշխատեին:

Հաշվի առնելով բովանդակության վրա հիմնված սպամի ֆիլտրերը, փորձեք հենց դա: Նրանք փնտրում են բառեր եւ սպամի բնորոշ այլ հատկանիշներ: Յուրաքանչյուր բնորոշ տարր նշանակվում է հաշիվ, եւ ամբողջ հաղորդագրության համար սպամի միավորը հաշվարկվում է անհատական միավորներից: Որոշ վաստակելով ֆիլտրերը նաեւ փնտրում են լեգիտիմ փոստերի հատկանիշները, իջեցնելով հաղորդագրության վերջնական հաշիվը:

Վաստակելով ֆիլտրերի մոտեցումը աշխատում է, սակայն ունի նաեւ մի քանի թերություններ.

Հատկությունների ցանկը բաղկացած է զտիչի ինժեներներին տրամադրվող սպամից (եւ լավ նամակներից): Ստանդարտ սպամից լավ հասկանալու համար որեւէ մեկը կարող է ստանալ, փոստը պետք է հավաքվի հարյուրավոր էլփոստի հասցեներով: Սա թուլացնում է ֆիլտրերի արդյունավետությունը, հատկապես այն պատճառով, որ լավ նամակների բնութագիրը տարբերվում է յուրաքանչյուր մարդու համար , սակայն դա հաշվի չի առնվում:
Որոնք են բնութագրերը, որոնք ավելի կամ պակաս են քարե մեջ : Եթե սպամերները ջանքեր են գործադրում հարմարվելու համար (եւ իրենց սպամը լավ նամակներ են դնում ֆիլտրերի վրա), ապա զտիչ հատկությունները պետք է ձեռքով շտկվեն, նույնիսկ ավելի մեծ ջանք:
Յուրաքանչյուր բառի համար տրված հաշվարկը, հավանաբար, հիմնված է լավ գնահատականի վրա, բայց դա դեռեւս կամայական է: Եվ ինչպես բնութագրերի ցանկը, այն ոչ հարմար է ոչ միայն սպամի սպառնալիքի աշխարհին, ոչ էլ անհատ օգտագործողի կարիքներին:

Բայեսյան սպամի զտիչները շտկում են իրենց, ավելի լավ եւ ավելի լավ

Բեյեսյան սպամի զտիչները նույնպես բովանդակության վրա հիմնված զտիչներ են: Նրանց մոտեցումը հեռու է սպամի ֆիլտրերի պարզ ձախողման խնդիրներից, եւ դա այնքան արմատական է: Քանի որ ֆիլտրերը ձուլելու թուլությունը գտնվում է հատկանիշների ձեռքով կառուցված ցանկում եւ դրանց միավորներով, այս ցուցակը վերացվում է:

Փոխարենը, Bayesian spam ֆիլտրերը ստեղծում են ցուցակը: Իդեալում, դուք սկսում եք մի մեծ (մեծ) փոստով նամակներ, որոնք դուք դասակարգել եք որպես սպամ եւ եւս մի շատ լավ փոստ: Ֆիլտրերը նայում են եւ վերլուծում են լեգիտիմ փոստը, ինչպես նաեւ սպամը, սպամում հայտնվող տարբեր հատկությունների հավանականությունը եւ լավ նամակներում:

Ինչպես Bayesian Spam Filter- ը ստուգում է էլ

Բայքսյան սպամի զտիչի բնութագրերը կարող են լինել.

խոսքի մարմնի խոսքերը, իհարկե, եւ այլն
նրա վերնագրերը (ուղարկողներ եւ հաղորդագրություն ուղիներ , օրինակ), այլեւ
այլ ասպեկտներ, ինչպիսիք են HTML / CSS կոդը (գույների եւ այլ ձեւաչափերի), կամ նույնիսկ
բառի զույգեր, արտահայտություններ եւ այլն
meta տեղեկատվության (օրինակ, երբ արտահայտվում է որոշակի արտահայտություն):

Եթե, օրինակ, «Cartesian» բառը, երբեք չի հայտնվում սպամի մեջ, բայց հաճախ ստանում եք լեգիտիմ էլեկտրոնային փոստով, ապա «Cartesian» - ի հավանականությունը ցույց է տալիս, որ սպամը գտնվում է զրոյի մոտ: «Տոներ», մյուս կողմից, հայտնվում է բացառապես եւ հաճախ, սպամի մեջ: «Տոներ» -ը շատ մեծ հավանականություն ունի հայտնաբերման մեջ `ոչ պակաս 1 (100%):

Երբ նոր հաղորդագրություն է գալիս, այն վերլուծվում է բեյեսյան սպամի ֆիլտրով, եւ ամբողջական հաղորդագրության հավանականությունը սպամ է, որը հաշվարկվում է `օգտագործելով անհատական հատկանիշներ:

Ենթադրենք, հաղորդագրությունը պարունակում է ինչպես «կարդասյան» եւ «տոներ»: Այս խոսքերից միայն պարզ չէ, թե արդյոք ունենք spam կամ լեգիտիմ փոստ: Այլ բնութագրերը (հավանաբար, եւ ամենայն հավանականությամբ) ցույց են տալիս հավանականությունը, որը թույլ է տալիս ֆիլտրին հաղորդագրությունն ուղարկել որպես սպամ կամ լավ նամակ:

Bayesian Spam ֆիլտրերը կարող են ինքնաբերաբար իմանալ

Հիմա, երբ մենք ունենք դասակարգում, ուղերձը կարող է օգտագործվել ֆիլտրը ինքնուրույն պատրաստելու համար: Այս դեպքում, կամ «Cartesian» - ի հավանականությունը, որը ցույց է տալիս բարի փոստը (եթե «Cartesian» - ը եւ «տոներ» պարունակող հաղորդագրությունը սպամ են հայտնաբերվել) կամ պետք է վերանայվեն «տոներ» նշող սպամը:

Օգտագործելով այս ավտո-հարմարեցման տեխնիկան, Bayesian ֆիլտրերը կարող են սովորել ինչպես սեփական, այնպես էլ օգտագործողի որոշումներից (եթե նա ձեռքով ուղղում է ֆիլտրերի կողմից սխալ կարծիքը ): Բեյեսյան զտման հարմարվողականությունը նաեւ ստիպում է համոզվել, որ դրանք առավել արդյունավետ են առանձին էլփոստի օգտագործողի համար: Չնայած մարդկանց մեծամասնության սպամը կարող է ունենալ նմանատիպ հատկություններ, օրինական փոստը բնորոշ է բոլորի համար:

Ինչպես կարող են սպամերները անցյալում հայտնաբերել Bayesian զտիչներ:

Լեգիտիմ փոստերի բնութագրերը նույնքան կարեւոր են բեյեսյան spam ֆիլտրացման գործընթացի համար, որքան սպամը: Եթե ֆիլտրերը հատուկ պատրաստված են յուրաքանչյուր օգտագործողի համար, սպամերները կունենան ավելի ծանր ժամանակ, աշխատելով բոլորի (կամ նույնիսկ մարդկանց մեծամասնության) սպամ ֆիլտրերի շուրջ, եւ ֆիլտրերը կարող են հարմարվել գրեթե ամեն ինչի:

Spammers- ը միայն այն կդարձնի անցյալում պատրաստված բայեզյան ֆիլտրերը, եթե նրանք իրենց սպամ հաղորդագրությունները դարձնեն հիանալի տեսք ունենան սովորական էլեկտրոնային փոստի բոլորի համար:

Spammers սովորաբար չեն ուղարկում նման սովորական նամակներ: Եկեք ենթադրենք, որ դա է պատճառը, որ այս էլ-նամակները չեն գործում որպես անհեթեթ նամակ: Այնպես որ, հնարավորությունները նրանք չեն անի այն ժամանակ, երբ սովորական, ձանձրալի նամակները միակ ձեւն այն է, անցյալի սպամ ֆիլտրերը դարձնելու համար:

Եթե spammers- ը անցնում է հիմնականում սովորական տեսք ունեցող էլ-նամակներին, ապա մենք նորից կստանանք բազմաթիվ ներբեռնումներ մեր Inboxes- ում եւ էլեկտրոնային փոստը կարող է դառնալ խորտակիչ, ինչպես դա եղել է նախապատմական Bayesian օրերում (կամ նույնիսկ ավելի վատ): Այն նաեւ կործանելու է շուկայում ամենատարբեր սպամների համար, եւ այդպիսով երկար չի տեւի:

Ուժեղ ցուցանիշները կարող են լինել Bayesian Spam Filter- ի Աքիլես & # 39; Կրունկ

Մեկ բացառություն կարելի է ընկալել, որ բեյուսյան ֆիլտրերի միջոցով աշխատեն սպամմերներին, նույնիսկ իրենց սովորական բովանդակությամբ: Բայեսյան վիճակագրության բնույթով, որ մեկ բառ կամ բնութագրական է, որ շատ հաճախ հայտնվում է լավ նամակում, կարող է նշանակալից լինել այնպիսին, ինչպիսին է ցանկացած հաղորդագրություն, որը նման է սպամի նման զտիչի կողմից խնձորով գնահատելու համար:

Եթե spammers- ը գտնում է ձեր վստահելի բարի փոստով բառերի որոշման միջոց, օգտագործելով HTML- ի ստացված անդորրագրերը `տեսնելու համար, թե որ հաղորդագրությունները եք բացել, օրինակ, դրանք կարող են ներառել դրանցից որեւէ մեկը անուղղակի փոստով եւ նույնիսկ հասնել ձեզ, պատրաստված բայեզյան ֆիլտր:

Ջոն Գրեհեմ-Կումմինը փորձել է դա, թույլ տալով երկու բայեզյան ֆիլտրերի աշխատանքը միմյանց դեմ, «վատ», որը հարմարվում է, որին ուղարկում են «լավ» զտիչով: Նա ասում է, որ այն աշխատում է, թեեւ գործընթացը ժամանակատար է եւ բարդ: Մենք չենք կարծում, որ այս ամենը տեղի կունենա, գոնե ոչ մեծ մասշտաբով եւ ոչ թե հարմարեցված անձանց էլեկտրոնային բնութագրիչներին: Spammers- ը (փորձում է) պարզել որոշ կազմակերպությունների համար հիմնաբառեր (փոխարենը, «Almaden» ինչ-որ մարդկանց համար IBM- ի գուցե):

Սովորաբար, սպամը միշտ (զգալիորեն) տարբերվում է կանոնավոր փոստից, կամ էլ չի լինի սպամի:

Bottom Line: Bayesian Filtering & Strength կարող է լինել թուլության մեջ

Bayesian spam ֆիլտրերը բովանդակության վրա հիմնված ֆիլտրեր են, որոնք,

հատկապես վերապատրաստված են ճանաչել անհատական էլփոստի օգտագործողի սպամը եւ բարի փոստը , դարձնելով դրանք բարձր արդյունավետ եւ դժվար է հարմարվել սպամերների համար:
կարող է շարունակական եւ առանց ջանքերի կամ ձեռքի վերլուծության, հարմարեցնելով սպամերների վերջին հնարքներին:
վերցրեք անհատական օգտվողի բարի փոստը հաշվի առնելով եւ կեղծ պոզիտիվների շատ ցածր մակարդակ ունենա:
Ցավոք, եթե դա բորբոսյան հակահայկական սպամի ֆիլտրերում կույր վստահություն է առաջացնում, ապա դա երբեմն սխալ է ներկայացնում : Կեղծ բացասական կողմերի հակառակ ազդեցությունը (սպամ, որն ակնհայտորեն դիտում է պարբերաբար փոստով) ներառում է օգտագործողների խանգարում եւ խափանումներ:

Ինչպես եք ճանաչում Junk Email- ը

Բովանդակության վրա հիմնված զտիչներ գնահատելը չի ​​հարմարվում