Data Mining- ի դասակարգումը

Դասակարգումը տվյալների հանքարդյունաբերության տեխնիկան է, որը դասակարգում է տվյալների հավաքածուն `ավելի ճշգրիտ կանխատեսումների եւ վերլուծությունների օգնության համար: Նաեւ կոչվում է երբեմն կոչվում է որոշման ծառ , դասակարգումը մեկն է մի քանի մեթոդներից, որոնք նախատեսված են շատ մեծ տվյալների հավաքածուների վերլուծության համար:

Ինչու դասակարգում

Շատ մեծ տվյալների բազաները դառնում են նորմա «մեծ տվյալների» այսօրվա աշխարհում: Պատկերացրեք տվյալների բազայի բազմաբնույթ տերաբայթներ, տերաբայթը տվյալների մեկ տրիլիոն բայթ է:

Facebook- ն մենակ է միայն 600 terabytes նոր տվյալների յուրաքանչյուր օրը (2014-ից, վերջին անգամ այն ​​հայտնաբերել է այդ ակնոցները): Մեծ տվյալների հիմնական մարտահրավերն այն է, թե ինչպես պետք է դա հասկանալ:

Եվ ընդհանրական ծավալը միակ խնդիրն է, մեծ տվյալները նաեւ հակված են բազմազան, ոչ կառուցվածքային եւ արագ փոփոխվող: Դիտեք աուդիո եւ վիդեո տվյալների, սոցիալական լրատվամիջոցների հաղորդագրություններ, 3D տվյալներ կամ աշխարհագրական տվյալներ: Այսպիսի տվյալները հեշտությամբ դասակարգված չեն կամ կազմակերպված չեն:

Այս մարտահրավերին դիմակայելու համար մշակվել է օգտակար տեղեկությունների հայտնաբերման մի շարք ավտոմատ մեթոդներ, այդ թվում դասակարգումը :

Ինչպես դասակարգված է

Շատ հեռու անցնելու վտանգի տակ եկեք քննարկենք, թե ինչպես դասակարգումը գործում է: Նպատակն այն է, որ ստեղծվի մի շարք դասակարգման կանոններ, որոնք կպատասխանեն հարցին, որոշում կայացնելու կամ կանխատեսելու վարքագիծը: Սկսելու համար մշակվում է վերապատրաստման տվյալների հավաքածու, որը պարունակում է որոշակի հատկանիշների շարք, ինչպես նաեւ հավանական արդյունքը:

Դասակարգման ալգորիթմի աշխատանքը պարզելն է, թե ինչպես է այդ հատկանիշների հավաքածուն հասնում դրա եզրակացությանը:

Սցենար . Հնարավոր է, վարկային քարտային ընկերությունը փորձում է որոշել, թե որ հեռանկարները պետք է ստանան վարկային քարտի առաջարկ:

Սա կարող է լինել նրա վերապատրաստման տվյալները:

Ուսուցողական տվյալներ
Անուն Տարիք Սեռը Տարեկան եկամուտ Վարկային քարտի առաջարկը
Ջոն Դո 25 Մ $ 39,500 Ոչ
Ջեյն Դո 56 Ֆ $ 125,000 Այո

«Կանխատեսում» սյունակները Տարիքը , գենդերը եւ Տարեկան եկամուտը որոշում են «կանխատեսող հատկանիշի» վարկային քարտի առաջարկի արժեքը: Վերապատրաստման հավաքածուում կանխորոշիչ հատկանիշը հայտնի է: Դասակարգման ալգորիթմը, այնուհետեւ, փորձում է որոշել, թե ինչպես է կանխատեսելի հատկանիշի արժեքը հասել. Ինչպիսի հարաբերություններ կա կանխատեսողների եւ որոշման միջեւ: Այն կզարգացնի կանխատեսման կանոնների շարք, սովորաբար IF / THEN հայտարարություն, օրինակ `

ԵԹԵ (Տարիք> 18 տարեկան կամ 75 տարեկան) եւ տարեկան եկամուտ> 40,000 THEN Կրեդիտ քարտի առաջարկ = այո

Ակնհայտ է, սա պարզ օրինակ է, եւ ալգորիթմը պետք է շատ ավելի մեծ տվյալների նմուշառում, քան այստեղ ներկայացված երկու գրառումները: Բացի այդ, կանխատեսման կանոնները, հավանաբար, ավելի բարդ կլինեն, ներառյալ հատկանիշների մանրամասները գրավելու ենթաօրենսդրական կանոնները:

Հաջորդը, ալգորիթմը տրվում է «կանխատեսման հավաքածու» տվյալների վերլուծության համար, սակայն այս սահմանը չունի կանխատեսման հատկանիշ (կամ որոշում).

Predictor Data- ը
Անուն Տարիք Սեռը Տարեկան եկամուտ Վարկային քարտի առաջարկը
Ջեք Ֆրոստը 42 Մ $ 88,000
Մերի Մյուրեյ 16 Ֆ $ 0

Այս կանխատեսող տվյալները օգնում են կանխատեսել կանխատեսման կանոնների ճշգրտությունը եւ կանոնները այնուհետեւ tweaked, քանի դեռ մշակողը կանխատեսումները արդյունավետ եւ օգտակար է համարում:

Օրեցօր Դասակարգման օրինակներ

Դասակարգումը եւ այլ տվյալների հանքարդյունաբերության տեխնիկան, հետեւում է մեր օրվա փորձը, որպես սպառողներ:

Եղանակի կանխատեսումները կարող են օգտագործվել դասակարգումից օգտվելու համար, թե արդյոք այս օրը կլինի անձրեւոտ, արեւոտ կամ ամպամած: Բժշկական մասնագիտությունը կարող է վերլուծել առողջական վիճակները կանխատեսելու բժշկական արդյունքները: Նեյջ Բայեսյանի դասակարգման մի տեսակ, պայմանական հավանականություն է օգտագործում, spam նամակները դասակարգելու համար: Խարդախության հայտնաբերումից մինչեւ ապրանքային առաջարկներ, դասակարգումները ամեն օր վերլուծում են տվյալները եւ կանխատեսումներ են առաջացնում: