Ինչ է նշանակում k- կլաստեր:

Տվյալների հանքարդյունաբերությունը k- միջոցների ալգորիթմով

K- նշանակում է կլաստերացման ալգորիթմը տվյալների հանքարդյունաբերություն եւ մեքենա ուսուցման գործիք, որն օգտագործվում է կլաստերային դիտարկումների մեջ, առանց որեւէ նախնական գիտելիքների: Նմուշառման միջոցով ալգորիթմը փորձում է ցույց տալ, թե որ կատեգորիայի կամ կլաստերի տվյալները տվյալն են, որ արժեքը k- ի կողմից որոշված ​​կլաստերների քանակն է :

K- նշանակում է ալգորիթմը պարզագույն կլաստերացման տեխնիկներից մեկն է եւ այն սովորաբար օգտագործվում է բժշկական պատկերների, բիոմետրերի եւ հարակից ոլորտներում: K- նշանակում է, որ կլաստերային գործոնն այն է, որ այն պատմում է ձեր տվյալների մասին (օգտագործելով իր չարտոնված ձեւը), այլ ոչ թե դուք պետք է հրահանգեք տվյալների սկզբի վերաբերյալ ալգորիթմը (օգտագործելով ալգորիթմի վերահսկվող ձեւը):

Այն երբեմն կոչվում է Lloyd's Algorithm, մասնավորապես, համակարգչային գիտության շրջանակներում, քանի որ ստանդարտ ալգորիթմը առաջին անգամ առաջարկեց Ստյուարտ Լլոյդը 1957 թվականին: «k-means» տերմինը կազմվել է 1967 թվականին Ջեյմս Մակքուենից:

Ինչպես է k- ը նշանակում է ալգորիթմի գործառույթներ

K- նշանակում է ալգորիթմը էվոլյուցիոն ալգորիթմ է, որն իր անունը շահագործում է իր մեթոդից: Ալգորիթմային կլաստերների դիտարկումները խմբերի մեջ են, որտեղ k- ը տրամադրվում է որպես ներդրման պարամետր: Այնուհետեւ յուրաքանչյուր դիտարկում է հանձնում կլաստերներին, հիմնվելով դիտարկման մոտակայքում, կլաստերի միջինացման վրա: Կլաստերի նշանակությունը այնուհետեւ recomputed եւ գործընթացը նորից սկսվում է: Ահա թե ինչպես է աշխատում ալգորիթմը.

  1. Ալգորիթմը կամայականորեն ընտրում է k կետերը, որպես սկզբնական կլաստերի կենտրոններ (միջոցները):
  2. Տվյալների հավաքածուի յուրաքանչյուր կետը նշանակված է փակ կլաստերի վրա, հիմնված Էվկլիդայի հեռավորության յուրաքանչյուր կետի եւ յուրաքանչյուր կլաստերի կենտրոնի միջեւ:
  3. Յուրաքանչյուր կլաստերային կենտրոնը վերահաշվարկվում է որպես այդ կլաստրի մեջ միավորներ:
  4. Քայլ 2-րդ եւ 3-րդ քայլերը կրկնում են մինչեւ կլաստերները միավորվեն: Կոնվերգենցիան կարող է տարբեր կերպով որոշվել իրականացման վրա, բայց դա սովորաբար նշանակում է, որ ոչ մի դիտողություն չի փոխում կլաստերները, երբ 2-րդ եւ 3-րդ քայլերը կրկնվում են կամ փոփոխությունները չեն փոխում կլաստերների սահմանումը:

Ընտրելով Քլաստերների թիվը

K- ի հիմնական թերություններից մեկն այն է, որ կլաստերացումը հանդիսանում է այն փաստը, որ դուք պետք է նշեք կլաստերների քանակը, որպես ալգորիթմի մուտքագրումը: Ինչպես նախագծված է, ալգորիթմը ի վիճակի չէ որոշակի քանակությամբ կլաստերների որոշումից եւ կախված է օգտագործողին նախապես հայտնաբերելուց:

Օրինակ, եթե դուք ունեիք մի խումբ մարդկանց, որոնք պետք է միավորվեին ըստ տարրական գենդերային ինքնության, որպես տղամարդ կամ կին, զանգահարելով k- միջոցների ալգորիթմը, օգտվելով k = 3 մուտքագրման արդյունքում, կստացվեր ժողովրդին երեք կլաստեր, երբ միայն երկու կամ k = 2 մուտքագրումը, ավելի բնական կլիներ:

Նմանապես, եթե մի խումբ անձինք հեշտությամբ կլաստեր են տնային պետությունների հիման վրա եւ դուք կոչում եք k- միջոցների ալգորիթմը մուտքագրման k = 20- ի հետ, ապա արդյունքները կարող են չափազանց ընդհանրացվել, որպեսզի արդյունավետ լինեն:

Այդ իսկ պատճառով հաճախ լավ գաղափար է փորձարկել տարբեր արժեքների արժեքները, որոնք բացահայտում են ձեր արժեքներին համապատասխանող արժեքը: Դուք նաեւ կարող եք ուսումնասիրել մեքենայի իմացության գիտելիքների որոնման մեջ այլ տվյալների հանքարդյունաբերության ալգորիթմների օգտագործումը: