Ինչ դուք պետք է իմանաք Bayesian Spam Filtering- ի մասին

Պարզեք, թե վիճակագրությունը օգնում է ձեր մուտքի արկղը մաքրել

Bayesian spam ֆիլտրերը հաշվարկում են հաղորդագրության հավանականությունը սպամ `դրա բովանդակության հիման վրա: Ի տարբերություն պարզ բովանդակության վրա հիմնված ֆիլտրերի, Բայեսյան լրտեսային զտիչը սովորում է սպամից եւ լավ նամակներից, ինչը հանգեցնում է շատ ուժեղ, հարմարվող եւ արդյունավետ հակամփգամային մոտեցմանը, որն ամենից լավն է, հազիվ թե կեղծ պոտենցիալ վերադառնա:

Ինչպես եք ճանաչում Junk Email- ը

Մտածեք, թե ինչպես եք հայտնաբերել սպամը : Հաճախակի հայացք է հաճախ: Դուք գիտեք, թե ինչ է սպամը նման, եւ դուք գիտեք, թե ինչ լավ նամակ նման է:

Spam- ի հավանականությունը լավ նամակ է փնտրում ... զրո:

Բովանդակության վրա հիմնված զտիչներ գնահատելը չի ​​հարմարվում

Արդյոք դա մեծ չէ, եթե ավտոմատ սպամ ֆիլտրերը այդպես էլ աշխատեին:

Հաշվի առնելով բովանդակության վրա հիմնված սպամի ֆիլտրերը, փորձեք հենց դա: Նրանք փնտրում են բառեր եւ սպամի բնորոշ այլ հատկանիշներ: Յուրաքանչյուր բնորոշ տարր նշանակվում է հաշիվ, եւ ամբողջ հաղորդագրության համար սպամի միավորը հաշվարկվում է անհատական ​​միավորներից: Որոշ վաստակելով ֆիլտրերը նաեւ փնտրում են լեգիտիմ փոստերի հատկանիշները, իջեցնելով հաղորդագրության վերջնական հաշիվը:

Վաստակելով ֆիլտրերի մոտեցումը աշխատում է, սակայն ունի նաեւ մի քանի թերություններ.

Բայեսյան սպամի զտիչները շտկում են իրենց, ավելի լավ եւ ավելի լավ

Բեյեսյան սպամի զտիչները նույնպես բովանդակության վրա հիմնված զտիչներ են: Նրանց մոտեցումը հեռու է սպամի ֆիլտրերի պարզ ձախողման խնդիրներից, եւ դա այնքան արմատական ​​է: Քանի որ ֆիլտրերը ձուլելու թուլությունը գտնվում է հատկանիշների ձեռքով կառուցված ցանկում եւ դրանց միավորներով, այս ցուցակը վերացվում է:

Փոխարենը, Bayesian spam ֆիլտրերը ստեղծում են ցուցակը: Իդեալում, դուք սկսում եք մի մեծ (մեծ) փոստով նամակներ, որոնք դուք դասակարգել եք որպես սպամ եւ եւս մի շատ լավ փոստ: Ֆիլտրերը նայում են եւ վերլուծում են լեգիտիմ փոստը, ինչպես նաեւ սպամը, սպամում հայտնվող տարբեր հատկությունների հավանականությունը եւ լավ նամակներում:

Ինչպես Bayesian Spam Filter- ը ստուգում է էլ

Բայքսյան սպամի զտիչի բնութագրերը կարող են լինել.

Եթե, օրինակ, «Cartesian» բառը, երբեք չի հայտնվում սպամի մեջ, բայց հաճախ ստանում եք լեգիտիմ էլեկտրոնային փոստով, ապա «Cartesian» - ի հավանականությունը ցույց է տալիս, որ սպամը գտնվում է զրոյի մոտ: «Տոներ», մյուս կողմից, հայտնվում է բացառապես եւ հաճախ, սպամի մեջ: «Տոներ» -ը շատ մեծ հավանականություն ունի հայտնաբերման մեջ `ոչ պակաս 1 (100%):

Երբ նոր հաղորդագրություն է գալիս, այն վերլուծվում է բեյեսյան սպամի ֆիլտրով, եւ ամբողջական հաղորդագրության հավանականությունը սպամ է, որը հաշվարկվում է `օգտագործելով անհատական ​​հատկանիշներ:

Ենթադրենք, հաղորդագրությունը պարունակում է ինչպես «կարդասյան» եւ «տոներ»: Այս խոսքերից միայն պարզ չէ, թե արդյոք ունենք spam կամ լեգիտիմ փոստ: Այլ բնութագրերը (հավանաբար, եւ ամենայն հավանականությամբ) ցույց են տալիս հավանականությունը, որը թույլ է տալիս ֆիլտրին հաղորդագրությունն ուղարկել որպես սպամ կամ լավ նամակ:

Bayesian Spam ֆիլտրերը կարող են ինքնաբերաբար իմանալ

Հիմա, երբ մենք ունենք դասակարգում, ուղերձը կարող է օգտագործվել ֆիլտրը ինքնուրույն պատրաստելու համար: Այս դեպքում, կամ «Cartesian» - ի հավանականությունը, որը ցույց է տալիս բարի փոստը (եթե «Cartesian» - ը եւ «տոներ» պարունակող հաղորդագրությունը սպամ են հայտնաբերվել) կամ պետք է վերանայվեն «տոներ» նշող սպամը:

Օգտագործելով այս ավտո-հարմարեցման տեխնիկան, Bayesian ֆիլտրերը կարող են սովորել ինչպես սեփական, այնպես էլ օգտագործողի որոշումներից (եթե նա ձեռքով ուղղում է ֆիլտրերի կողմից սխալ կարծիքը ): Բեյեսյան զտման հարմարվողականությունը նաեւ ստիպում է համոզվել, որ դրանք առավել արդյունավետ են առանձին էլփոստի օգտագործողի համար: Չնայած մարդկանց մեծամասնության սպամը կարող է ունենալ նմանատիպ հատկություններ, օրինական փոստը բնորոշ է բոլորի համար:

Ինչպես կարող են սպամերները անցյալում հայտնաբերել Bayesian զտիչներ:

Լեգիտիմ փոստերի բնութագրերը նույնքան կարեւոր են բեյեսյան spam ֆիլտրացման գործընթացի համար, որքան սպամը: Եթե ​​ֆիլտրերը հատուկ պատրաստված են յուրաքանչյուր օգտագործողի համար, սպամերները կունենան ավելի ծանր ժամանակ, աշխատելով բոլորի (կամ նույնիսկ մարդկանց մեծամասնության) սպամ ֆիլտրերի շուրջ, եւ ֆիլտրերը կարող են հարմարվել գրեթե ամեն ինչի:

Spammers- ը միայն այն կդարձնի անցյալում պատրաստված բայեզյան ֆիլտրերը, եթե նրանք իրենց սպամ հաղորդագրությունները դարձնեն հիանալի տեսք ունենան սովորական էլեկտրոնային փոստի բոլորի համար:

Spammers սովորաբար չեն ուղարկում նման սովորական նամակներ: Եկեք ենթադրենք, որ դա է պատճառը, որ այս էլ-նամակները չեն գործում որպես անհեթեթ նամակ: Այնպես որ, հնարավորությունները նրանք չեն անի այն ժամանակ, երբ սովորական, ձանձրալի նամակները միակ ձեւն այն է, անցյալի սպամ ֆիլտրերը դարձնելու համար:

Եթե ​​spammers- ը անցնում է հիմնականում սովորական տեսք ունեցող էլ-նամակներին, ապա մենք նորից կստանանք բազմաթիվ ներբեռնումներ մեր Inboxes- ում եւ էլեկտրոնային փոստը կարող է դառնալ խորտակիչ, ինչպես դա եղել է նախապատմական Bayesian օրերում (կամ նույնիսկ ավելի վատ): Այն նաեւ կործանելու է շուկայում ամենատարբեր սպամների համար, եւ այդպիսով երկար չի տեւի:

Ուժեղ ցուցանիշները կարող են լինել Bayesian Spam Filter- ի Աքիլես & # 39; Կրունկ

Մեկ բացառություն կարելի է ընկալել, որ բեյուսյան ֆիլտրերի միջոցով աշխատեն սպամմերներին, նույնիսկ իրենց սովորական բովանդակությամբ: Բայեսյան վիճակագրության բնույթով, որ մեկ բառ կամ բնութագրական է, որ շատ հաճախ հայտնվում է լավ նամակում, կարող է նշանակալից լինել այնպիսին, ինչպիսին է ցանկացած հաղորդագրություն, որը նման է սպամի նման զտիչի կողմից խնձորով գնահատելու համար:

Եթե ​​spammers- ը գտնում է ձեր վստահելի բարի փոստով բառերի որոշման միջոց, օգտագործելով HTML- ի ստացված անդորրագրերը `տեսնելու համար, թե որ հաղորդագրությունները եք բացել, օրինակ, դրանք կարող են ներառել դրանցից որեւէ մեկը անուղղակի փոստով եւ նույնիսկ հասնել ձեզ, պատրաստված բայեզյան ֆիլտր:

Ջոն Գրեհեմ-Կումմինը փորձել է դա, թույլ տալով երկու բայեզյան ֆիլտրերի աշխատանքը միմյանց դեմ, «վատ», որը հարմարվում է, որին ուղարկում են «լավ» զտիչով: Նա ասում է, որ այն աշխատում է, թեեւ գործընթացը ժամանակատար է եւ բարդ: Մենք չենք կարծում, որ այս ամենը տեղի կունենա, գոնե ոչ մեծ մասշտաբով եւ ոչ թե հարմարեցված անձանց էլեկտրոնային բնութագրիչներին: Spammers- ը (փորձում է) պարզել որոշ կազմակերպությունների համար հիմնաբառեր (փոխարենը, «Almaden» ինչ-որ մարդկանց համար IBM- ի գուցե):

Սովորաբար, սպամը միշտ (զգալիորեն) տարբերվում է կանոնավոր փոստից, կամ էլ չի լինի սպամի:

Bottom Line: Bayesian Filtering & Strength կարող է լինել թուլության մեջ

Bayesian spam ֆիլտրերը բովանդակության վրա հիմնված ֆիլտրեր են, որոնք,