Դասակարգումը տվյալների հանքարդյունաբերության տեխնիկան է, որը դասակարգում է տվյալների հավաքածուն `ավելի ճշգրիտ կանխատեսումների եւ վերլուծությունների օգնության համար: Նաեւ կոչվում է երբեմն կոչվում է որոշման ծառ , դասակարգումը մեկն է մի քանի մեթոդներից, որոնք նախատեսված են շատ մեծ տվյալների հավաքածուների վերլուծության համար:
Ինչու դասակարգում
Շատ մեծ տվյալների բազաները դառնում են նորմա «մեծ տվյալների» այսօրվա աշխարհում: Պատկերացրեք տվյալների բազայի բազմաբնույթ տերաբայթներ, տերաբայթը տվյալների մեկ տրիլիոն բայթ է:
Facebook- ն մենակ է միայն 600 terabytes նոր տվյալների յուրաքանչյուր օրը (2014-ից, վերջին անգամ այն հայտնաբերել է այդ ակնոցները): Մեծ տվյալների հիմնական մարտահրավերն այն է, թե ինչպես պետք է դա հասկանալ:
Եվ ընդհանրական ծավալը միակ խնդիրն է, մեծ տվյալները նաեւ հակված են բազմազան, ոչ կառուցվածքային եւ արագ փոփոխվող: Դիտեք աուդիո եւ վիդեո տվյալների, սոցիալական լրատվամիջոցների հաղորդագրություններ, 3D տվյալներ կամ աշխարհագրական տվյալներ: Այսպիսի տվյալները հեշտությամբ դասակարգված չեն կամ կազմակերպված չեն:
Այս մարտահրավերին դիմակայելու համար մշակվել է օգտակար տեղեկությունների հայտնաբերման մի շարք ավտոմատ մեթոդներ, այդ թվում դասակարգումը :
Ինչպես դասակարգված է
Շատ հեռու անցնելու վտանգի տակ եկեք քննարկենք, թե ինչպես դասակարգումը գործում է: Նպատակն այն է, որ ստեղծվի մի շարք դասակարգման կանոններ, որոնք կպատասխանեն հարցին, որոշում կայացնելու կամ կանխատեսելու վարքագիծը: Սկսելու համար մշակվում է վերապատրաստման տվյալների հավաքածու, որը պարունակում է որոշակի հատկանիշների շարք, ինչպես նաեւ հավանական արդյունքը:
Դասակարգման ալգորիթմի աշխատանքը պարզելն է, թե ինչպես է այդ հատկանիշների հավաքածուն հասնում դրա եզրակացությանը:
Սցենար . Հնարավոր է, վարկային քարտային ընկերությունը փորձում է որոշել, թե որ հեռանկարները պետք է ստանան վարկային քարտի առաջարկ:
Սա կարող է լինել նրա վերապատրաստման տվյալները:
Անուն | Տարիք | Սեռը | Տարեկան եկամուտ | Վարկային քարտի առաջարկը |
---|---|---|---|---|
Ջոն Դո | 25 | Մ | $ 39,500 | Ոչ |
Ջեյն Դո | 56 | Ֆ | $ 125,000 | Այո |
«Կանխատեսում» սյունակները Տարիքը , գենդերը եւ Տարեկան եկամուտը որոշում են «կանխատեսող հատկանիշի» վարկային քարտի առաջարկի արժեքը: Վերապատրաստման հավաքածուում կանխորոշիչ հատկանիշը հայտնի է: Դասակարգման ալգորիթմը, այնուհետեւ, փորձում է որոշել, թե ինչպես է կանխատեսելի հատկանիշի արժեքը հասել. Ինչպիսի հարաբերություններ կա կանխատեսողների եւ որոշման միջեւ: Այն կզարգացնի կանխատեսման կանոնների շարք, սովորաբար IF / THEN հայտարարություն, օրինակ `
ԵԹԵ (Տարիք> 18 տարեկան կամ 75 տարեկան) եւ տարեկան եկամուտ> 40,000 THEN Կրեդիտ քարտի առաջարկ = այո
Ակնհայտ է, սա պարզ օրինակ է, եւ ալգորիթմը պետք է շատ ավելի մեծ տվյալների նմուշառում, քան այստեղ ներկայացված երկու գրառումները: Բացի այդ, կանխատեսման կանոնները, հավանաբար, ավելի բարդ կլինեն, ներառյալ հատկանիշների մանրամասները գրավելու ենթաօրենսդրական կանոնները:
Հաջորդը, ալգորիթմը տրվում է «կանխատեսման հավաքածու» տվյալների վերլուծության համար, սակայն այս սահմանը չունի կանխատեսման հատկանիշ (կամ որոշում).
Անուն | Տարիք | Սեռը | Տարեկան եկամուտ | Վարկային քարտի առաջարկը |
---|---|---|---|---|
Ջեք Ֆրոստը | 42 | Մ | $ 88,000 | |
Մերի Մյուրեյ | 16 | Ֆ | $ 0 |
Այս կանխատեսող տվյալները օգնում են կանխատեսել կանխատեսման կանոնների ճշգրտությունը եւ կանոնները այնուհետեւ tweaked, քանի դեռ մշակողը կանխատեսումները արդյունավետ եւ օգտակար է համարում:
Օրեցօր Դասակարգման օրինակներ
Դասակարգումը եւ այլ տվյալների հանքարդյունաբերության տեխնիկան, հետեւում է մեր օրվա փորձը, որպես սպառողներ:
Եղանակի կանխատեսումները կարող են օգտագործվել դասակարգումից օգտվելու համար, թե արդյոք այս օրը կլինի անձրեւոտ, արեւոտ կամ ամպամած: Բժշկական մասնագիտությունը կարող է վերլուծել առողջական վիճակները կանխատեսելու բժշկական արդյունքները: Նեյջ Բայեսյանի դասակարգման մի տեսակ, պայմանական հավանականություն է օգտագործում, spam նամակները դասակարգելու համար: Խարդախության հայտնաբերումից մինչեւ ապրանքային առաջարկներ, դասակարգումները ամեն օր վերլուծում են տվյալները եւ կանխատեսումներ են առաջացնում: