ການຈັດປະເພດແມ່ນເຕັກນິກການຂຸດຄົ້ນຂໍ້ມູນທີ່ມອບໃຫ້ປະເພດການເກັບກໍາຂໍ້ມູນເພື່ອຊ່ວຍໃນການຄາດຄະເນແລະການວິເຄາະທີ່ຖືກຕ້ອງ. ຍັງເອີ້ນວ່າບາງຄັ້ງເອີ້ນວ່າ Tree Decision , ການຈັດປະເພດແມ່ນຫນຶ່ງໃນຫຼາຍວິທີທີ່ຈະເຮັດໃຫ້ການວິເຄາະຂໍ້ມູນຈໍານວນຫຼາຍທີ່ມີປະສິດຕິຜົນ.
ເປັນຫຍັງການຈັດປະເພດ?
ຖານຂໍ້ມູນຂະຫນາດໃຫຍ່ຫຼາຍໄດ້ກາຍເປັນມາດຕະຖານໃນໂລກມື້ນີ້ຂອງ "ຂໍ້ມູນຂະຫນາດໃຫຍ່". ຈິນຕະນາການຖານຂໍ້ມູນທີ່ມີຂໍ້ມູນ terabytes ຫຼາຍ - terabyte ແມ່ນຫນຶ່ງ ພັນລ້ານ bytes ຂອງຂໍ້ມູນ.
ພຽງແຕ່ເຟສບຸກ crunches 600 terabytes ຂອງຂໍ້ມູນໃຫມ່ທຸກໆມື້ (ໃນປີ 2014, ທີ່ໃຊ້ເວລາສຸດທ້າຍມັນລາຍງານສະເພາະເຫຼົ່ານີ້). ສິ່ງທ້າທາຍຕົ້ນຕໍຂອງຂໍ້ມູນທີ່ໃຫຍ່ແມ່ນວິທີການເຮັດໃຫ້ຄວາມຮູ້ສຶກຂອງມັນ.
ແລະປະລິມານການບໍລິໂພກບໍ່ແມ່ນບັນຫາດຽວກັນ: ຂໍ້ມູນຂະຫນາດໃຫຍ່ຍັງມີຄວາມແຕກຕ່າງ, ບໍ່ມີໂຄງສ້າງແລະປ່ຽນແປງໄວ. ພິຈາລະນາຂໍ້ມູນສຽງແລະວີດີໂອ, ບົດຄວາມສື່ສັງຄົມ, ຂໍ້ມູນ 3D ຫຼືຂໍ້ມູນທາງພູມສາດ. ປະເພດຂໍ້ມູນນີ້ບໍ່ໄດ້ຖືກຈັດປະເພດຫຼືຈັດຕັ້ງໄດ້ງ່າຍ.
ເພື່ອຕອບສະຫນອງຄວາມທ້າທາຍນີ້, ລະບົບອັດຕະໂນມັດສໍາລັບການຂຸດຄົ້ນຂໍ້ມູນທີ່ເປັນປະໂຫຍດໄດ້ຖືກພັດທະນາ, ເຊິ່ງ ປະກອບມີການຈັດປະເພດ .
ວິທີການຈັດປະເພດການເຮັດວຽກ
ຢູ່ໃນອັນຕະລາຍຂອງການເຄື່ອນຍ້າຍໄກໄປສູ່ເຕັກໂນໂລຢີເວົ້າ, ໃຫ້ປຶກສາຫາລືກ່ຽວກັບວິທີການຈັດປະເພດ. ເປົ້າຫມາຍແມ່ນເພື່ອສ້າງກົດລະບຽບການຈັດປະເພດທີ່ຈະຕອບຄໍາຖາມ, ຕັດສິນໃຈ, ຫຼືຄາດຄະເນການປະພຶດ. ເພື່ອເລີ່ມຕົ້ນ, ຂໍ້ມູນການຝຶກອົບຮົມແມ່ນໄດ້ຖືກພັດທະນາທີ່ມີກໍານົດຄຸນລັກສະນະທີ່ແນ່ນອນເຊັ່ນດຽວກັນກັບຜົນໄດ້ຮັບ.
ວຽກງານຂອງວິທີການຈັດປະເພດແມ່ນເພື່ອຄົ້ນພົບວິທີການທີ່ກໍານົດໄວ້ຂອງຄຸນລັກສະນະຮອດສະຫລຸບ.
ສະຖານະການ : ບາງທີບໍລິສັດບັດເຄດິດກໍາລັງພະຍາຍາມກໍານົດຄວາມຄາດຫວັງທີ່ຈະໄດ້ຮັບການສະເຫນີບັດເຄຣດິດ.
ນີ້ອາດຈະເປັນຊຸດຂອງຂໍ້ມູນການຝຶກອົບຮົມ:
ຊື່ | ອາຍຸ | ເພດ | ລາຍຮັບປະຈໍາປີ | ການສະເຫນີບັດເຄດິດ |
---|---|---|---|---|
John Doe | 25 | M | $ 39,500 | No |
Jane Doe | 56 | F | $ 125,000 | ແມ່ນແລ້ວ |
ອາຍຸ , ເພດ , ແລະ ລາຍໄດ້ປະຈໍາປີທີ່ ກໍານົດ "ມູນຄ່າ" ຂອງ "ການຄາດຄະເນຜົນປະໂຫຍດ" ການ ສະເຫນີບັດເຄດິດ . ໃນຊຸດຝຶກອົບຮົມ, ຄຸນລັກສະນະຂອງການຄາດຄະເນແມ່ນເປັນທີ່ຮູ້ຈັກ. ວິທີການຈັດປະເພດການຄາດຄະເນຫຼັງຈາກນັ້ນພະຍາຍາມທີ່ຈະກໍານົດວິທີການມູນຄ່າຂອງການຄາດຄະເນຂອງ attribute ໄດ້ບັນລຸ: ສິ່ງທີ່ພົວພັນລະຫວ່າງຜູ້ຄາດຄະເນແລະການຕັດສິນໃຈ? ມັນຈະພັດທະນາຊຸດຂອງກົດລະບຽບການຄາດຄະເນ, ຕາມປົກກະຕິເປັນຄໍາສັ່ງ IF / THEN, ສໍາລັບຕົວຢ່າງ:
IF (Age> 18 OR Age <75) AND ລາຍໄດ້ປະຈໍາປີ> 40,000 ບັດເຄດິດຫຼັງຈາກນັ້ນ = ແມ່ນ
ແນ່ນອນ, ນີ້ແມ່ນຕົວຢ່າງທີ່ງ່າຍດາຍ, ແລະວິທີການຄິດໄລ່ຈະຕ້ອງມີການເກັບຕົວຢ່າງຂໍ້ມູນຫຼາຍກ່ວາສອງຂໍ້ທີ່ສະແດງຢູ່ນີ້. ນອກຈາກນັ້ນ, ກົດລະບຽບການຄາດຄະເນອາດຈະມີຄວາມສັບສົນຫຼາຍ, ລວມທັງກົດລະບຽບຍ່ອຍເພື່ອເກັບລາຍລະອຽດກ່ຽວກັບຄຸນລັກສະນະ.
ຕໍ່ໄປ, ວິທີການຄໍານວນໄດ້ຖືກມອບໃຫ້ "ຂໍ້ກໍານົດການຄາດຄະເນ" ຂອງຂໍ້ມູນທີ່ຈະວິເຄາະ, ແຕ່ຊຸດນີ້ຂາດຄຸນສົມບັດການຄາດຄະເນ (ຫຼືການຕັດສິນໃຈ):
ຊື່ | ອາຍຸ | ເພດ | ລາຍຮັບປະຈໍາປີ | ການສະເຫນີບັດເຄດິດ |
---|---|---|---|---|
Jack Frost | 42 | M | $ 88,000 | |
Mary Murray | 16 | F | $ 0 |
ຂໍ້ມູນການຄາດຄະເນນີ້ຈະຊ່ວຍໃຫ້ການຄາດຄະເນຄວາມຖືກຕ້ອງຂອງກົດລະບຽບການຄາດຄະເນແລະກົດລະບຽບຈະຖືກດັດແກ້ຈົນກ່ວາຜູ້ພັດທະນາຖືວ່າການຄາດຄະເນຜົນປະໂຫຍດແລະເປັນປະໂຫຍດ.
ຕົວຢ່າງຂອງປະເພດວັນທີ
ການຈັດປະເພດ, ແລະເຕັກນິກການຂຸດຄົ້ນຂໍ້ມູນອື່ນໆ, ແມ່ນຢູ່ຫລັງຫຼາຍຂອງປະສົບການປະຈໍາວັນຂອງພວກເຮົາເປັນຜູ້ບໍລິໂພກ.
ການຄາດຄະເນດິນຟ້າອາກາດອາດຈະນໍາໃຊ້ການຈັດປະເພດເພື່ອລາຍງານວ່າມື້ຈະມີຝົນ, ບ່ອນມີແດດຫຼືຝົນ. ປະກອບອາຊີບທາງການແພດອາດຈະວິເຄາະເງື່ອນໄຂສຸຂະພາບໃນການຄາດຄະເນຜົນໄດ້ຮັບດ້ານການປິ່ນປົວ. ປະເພດຂອງວິທີການຈັດປະເພດ, Naive Bayesian, ໃຊ້ probability ເງື່ອນໄຂທີ່ຈະຈັດປະເພດອີເມວສະແປມ. ຈາກການກວດສອບການສໍ້ໂກງກັບການສະເຫນີຜະລິດຕະພັນ, ການຈັດປະເພດແມ່ນຢູ່ຫລັງ scenes ທຸກມື້ການວິເຄາະຂໍ້ມູນແລະການຜະລິດການຄາດຄະເນ.