ການຈັດປະເພດໃນການຂຸດຄົ້ນຂໍ້ມູນ

ການຈັດປະເພດແມ່ນເຕັກນິກການຂຸດຄົ້ນຂໍ້ມູນທີ່ມອບໃຫ້ປະເພດການເກັບກໍາຂໍ້ມູນເພື່ອຊ່ວຍໃນການຄາດຄະເນແລະການວິເຄາະທີ່ຖືກຕ້ອງ. ຍັງເອີ້ນວ່າບາງຄັ້ງເອີ້ນວ່າ Tree Decision , ການຈັດປະເພດແມ່ນຫນຶ່ງໃນຫຼາຍວິທີທີ່ຈະເຮັດໃຫ້ການວິເຄາະຂໍ້ມູນຈໍານວນຫຼາຍທີ່ມີປະສິດຕິຜົນ.

ເປັນຫຍັງການຈັດປະເພດ?

ຖານຂໍ້ມູນຂະຫນາດໃຫຍ່ຫຼາຍໄດ້ກາຍເປັນມາດຕະຖານໃນໂລກມື້ນີ້ຂອງ "ຂໍ້ມູນຂະຫນາດໃຫຍ່". ຈິນຕະນາການຖານຂໍ້ມູນທີ່ມີຂໍ້ມູນ terabytes ຫຼາຍ - terabyte ແມ່ນຫນຶ່ງ ພັນລ້ານ bytes ຂອງຂໍ້ມູນ.

ພຽງແຕ່ເຟສບຸກ crunches 600 terabytes ຂອງຂໍ້ມູນໃຫມ່ທຸກໆມື້ (ໃນປີ 2014, ທີ່ໃຊ້ເວລາສຸດທ້າຍມັນລາຍງານສະເພາະເຫຼົ່ານີ້). ສິ່ງທ້າທາຍຕົ້ນຕໍຂອງຂໍ້ມູນທີ່ໃຫຍ່ແມ່ນວິທີການເຮັດໃຫ້ຄວາມຮູ້ສຶກຂອງມັນ.

ແລະປະລິມານການບໍລິໂພກບໍ່ແມ່ນບັນຫາດຽວກັນ: ຂໍ້ມູນຂະຫນາດໃຫຍ່ຍັງມີຄວາມແຕກຕ່າງ, ບໍ່ມີໂຄງສ້າງແລະປ່ຽນແປງໄວ. ພິຈາລະນາຂໍ້ມູນສຽງແລະວີດີໂອ, ບົດຄວາມສື່ສັງຄົມ, ຂໍ້ມູນ 3D ຫຼືຂໍ້ມູນທາງພູມສາດ. ປະເພດຂໍ້ມູນນີ້ບໍ່ໄດ້ຖືກຈັດປະເພດຫຼືຈັດຕັ້ງໄດ້ງ່າຍ.

ເພື່ອຕອບສະຫນອງຄວາມທ້າທາຍນີ້, ລະບົບອັດຕະໂນມັດສໍາລັບການຂຸດຄົ້ນຂໍ້ມູນທີ່ເປັນປະໂຫຍດໄດ້ຖືກພັດທະນາ, ເຊິ່ງ ປະກອບມີການຈັດປະເພດ .

ວິທີການຈັດປະເພດການເຮັດວຽກ

ຢູ່ໃນອັນຕະລາຍຂອງການເຄື່ອນຍ້າຍໄກໄປສູ່ເຕັກໂນໂລຢີເວົ້າ, ໃຫ້ປຶກສາຫາລືກ່ຽວກັບວິທີການຈັດປະເພດ. ເປົ້າຫມາຍແມ່ນເພື່ອສ້າງກົດລະບຽບການຈັດປະເພດທີ່ຈະຕອບຄໍາຖາມ, ຕັດສິນໃຈ, ຫຼືຄາດຄະເນການປະພຶດ. ເພື່ອເລີ່ມຕົ້ນ, ຂໍ້ມູນການຝຶກອົບຮົມແມ່ນໄດ້ຖືກພັດທະນາທີ່ມີກໍານົດຄຸນລັກສະນະທີ່ແນ່ນອນເຊັ່ນດຽວກັນກັບຜົນໄດ້ຮັບ.

ວຽກງານຂອງວິທີການຈັດປະເພດແມ່ນເພື່ອຄົ້ນພົບວິທີການທີ່ກໍານົດໄວ້ຂອງຄຸນລັກສະນະຮອດສະຫລຸບ.

ສະຖານະການ : ບາງທີບໍລິສັດບັດເຄດິດກໍາລັງພະຍາຍາມກໍານົດຄວາມຄາດຫວັງທີ່ຈະໄດ້ຮັບການສະເຫນີບັດເຄຣດິດ.

ນີ້ອາດຈະເປັນຊຸດຂອງຂໍ້ມູນການຝຶກອົບຮົມ:

ຂໍ້ມູນການຝຶກອົບຮົມ
ຊື່ ອາຍຸ ເພດ ລາຍ​ຮັບ​ປະ​ຈໍາ​ປີ ການສະເຫນີບັດເຄດິດ
John Doe 25 M $ 39,500 No
Jane Doe 56 F $ 125,000 ແມ່ນແລ້ວ

ອາຍຸ , ເພດ , ແລະ ລາຍໄດ້ປະຈໍາປີທີ່ ກໍານົດ "ມູນຄ່າ" ຂອງ "ການຄາດຄະເນຜົນປະໂຫຍດ" ການ ສະເຫນີບັດເຄດິດ . ໃນຊຸດຝຶກອົບຮົມ, ຄຸນລັກສະນະຂອງການຄາດຄະເນແມ່ນເປັນທີ່ຮູ້ຈັກ. ວິທີການຈັດປະເພດການຄາດຄະເນຫຼັງຈາກນັ້ນພະຍາຍາມທີ່ຈະກໍານົດວິທີການມູນຄ່າຂອງການຄາດຄະເນຂອງ attribute ໄດ້ບັນລຸ: ສິ່ງທີ່ພົວພັນລະຫວ່າງຜູ້ຄາດຄະເນແລະການຕັດສິນໃຈ? ມັນຈະພັດທະນາຊຸດຂອງກົດລະບຽບການຄາດຄະເນ, ຕາມປົກກະຕິເປັນຄໍາສັ່ງ IF / THEN, ສໍາລັບຕົວຢ່າງ:

IF (Age> 18 OR Age <75) AND ລາຍໄດ້ປະຈໍາປີ> 40,000 ບັດເຄດິດຫຼັງຈາກນັ້ນ = ແມ່ນ

ແນ່ນອນ, ນີ້ແມ່ນຕົວຢ່າງທີ່ງ່າຍດາຍ, ແລະວິທີການຄິດໄລ່ຈະຕ້ອງມີການເກັບຕົວຢ່າງຂໍ້ມູນຫຼາຍກ່ວາສອງຂໍ້ທີ່ສະແດງຢູ່ນີ້. ນອກຈາກນັ້ນ, ກົດລະບຽບການຄາດຄະເນອາດຈະມີຄວາມສັບສົນຫຼາຍ, ລວມທັງກົດລະບຽບຍ່ອຍເພື່ອເກັບລາຍລະອຽດກ່ຽວກັບຄຸນລັກສະນະ.

ຕໍ່ໄປ, ວິທີການຄໍານວນໄດ້ຖືກມອບໃຫ້ "ຂໍ້ກໍານົດການຄາດຄະເນ" ຂອງຂໍ້ມູນທີ່ຈະວິເຄາະ, ແຕ່ຊຸດນີ້ຂາດຄຸນສົມບັດການຄາດຄະເນ (ຫຼືການຕັດສິນໃຈ):

Predictor Data
ຊື່ ອາຍຸ ເພດ ລາຍ​ຮັບ​ປະ​ຈໍາ​ປີ ການສະເຫນີບັດເຄດິດ
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

ຂໍ້ມູນການຄາດຄະເນນີ້ຈະຊ່ວຍໃຫ້ການຄາດຄະເນຄວາມຖືກຕ້ອງຂອງກົດລະບຽບການຄາດຄະເນແລະກົດລະບຽບຈະຖືກດັດແກ້ຈົນກ່ວາຜູ້ພັດທະນາຖືວ່າການຄາດຄະເນຜົນປະໂຫຍດແລະເປັນປະໂຫຍດ.

ຕົວຢ່າງຂອງປະເພດວັນທີ

ການຈັດປະເພດ, ແລະເຕັກນິກການຂຸດຄົ້ນຂໍ້ມູນອື່ນໆ, ແມ່ນຢູ່ຫລັງຫຼາຍຂອງປະສົບການປະຈໍາວັນຂອງພວກເຮົາເປັນຜູ້ບໍລິໂພກ.

ການຄາດຄະເນດິນຟ້າອາກາດອາດຈະນໍາໃຊ້ການຈັດປະເພດເພື່ອລາຍງານວ່າມື້ຈະມີຝົນ, ບ່ອນມີແດດຫຼືຝົນ. ປະກອບອາຊີບທາງການແພດອາດຈະວິເຄາະເງື່ອນໄຂສຸຂະພາບໃນການຄາດຄະເນຜົນໄດ້ຮັບດ້ານການປິ່ນປົວ. ປະເພດຂອງວິທີການຈັດປະເພດ, Naive Bayesian, ໃຊ້ probability ເງື່ອນໄຂທີ່ຈະຈັດປະເພດອີເມວສະແປມ. ຈາກການກວດສອບການສໍ້ໂກງກັບການສະເຫນີຜະລິດຕະພັນ, ການຈັດປະເພດແມ່ນຢູ່ຫລັງ scenes ທຸກມື້ການວິເຄາະຂໍ້ມູນແລະການຜະລິດການຄາດຄະເນ.