K-mean Clustering ແມ່ນຫຍັງ?

ການຂຸດຄົ້ນຂໍ້ມູນທີ່ມີວິທີການວິທີ k-mean

ລະບົບການກະ ແຈກກະຈາຍຂອງ k- ແມ່ນຫມາຍເຖິງການຂຸດຄົ້ນຂໍ້ມູນແລະເຄື່ອງມືການຮຽນຮູ້ເຄື່ອງມືທີ່ໃຊ້ໃນການສັງເກດກຸ່ມໃນກຸ່ມຂອງການສັງເກດທີ່ກ່ຽວຂ້ອງໂດຍບໍ່ມີຄວາມຮູ້ກ່ຽວກັບສາຍພົວພັນເຫຼົ່ານັ້ນ. ໂດຍການເອົາຕົວຢ່າງ, ວິທີການພະຍາຍາມສະແດງໃຫ້ເຫັນວ່າໃນກຸ່ມໃດ, ຫຼືກຸ່ມ, ຂໍ້ມູນທີ່ກ່ຽວຂ້ອງກັບຈໍານວນກຸ່ມທີ່ຖືກກໍານົດໂດຍຄ່າ k.

ວິທີການ k - ຫມາຍເຖິງແມ່ນຫນຶ່ງໃນເຕັກນິກການ clustering ທີ່ງ່າຍດາຍແລະມັນຖືກນໍາໃຊ້ທົ່ວໄປໃນຮູບພາບທາງດ້ານການແພດ, ຊີວະວິທະຍາແລະທົ່ງທີ່ກ່ຽວຂ້ອງ. ປະໂຫຍດຂອງ k- ຫມາຍຄວາມວ່າການຈັດກຸ່ມແມ່ນວ່າມັນບອກກ່ຽວກັບຂໍ້ມູນຂອງທ່ານ (ໂດຍນໍາໃຊ້ແບບຟອມ unsupervised) ແທນທີ່ຈະວ່າທ່ານຕ້ອງແນະນໍາຂັ້ນຕອນກ່ຽວກັບຂໍ້ມູນໃນຕອນເລີ່ມຕົ້ນ (ການນໍາໃຊ້ຮູບແບບທີ່ໄດ້ຮັບມອບຫມາຍຂອງວິທີການ).

ມັນແມ່ນບາງຄັ້ງເອີ້ນວ່າ Lloyd's Algorithm, ໂດຍສະເພາະໃນວົງການວິທະຍາສາດຄອມພິວເຕີເນື່ອງຈາກວ່າວິທີການມາດຕະຖານໄດ້ຖືກສະເຫນີໂດຍ Stuart Lloyd ຄັ້ງທໍາອິດໃນປີ 1957. ຄໍາວ່າ "k-means" ແມ່ນ coined ໃນ 1967 ໂດຍ James McQueen.

ວິທີການ k -magnetic algorithm functions

ລະບົບວິທີ k- ຫມາຍເຖິງວິທີການວິວັຖນາການທີ່ມີຊື່ວ່າວິທີການປະຕິບັດງານ. ການສັງເກດການກຸ່ມ algorithm ເປັນກຸ່ມ k , ບ່ອນທີ່ k ຖືກສະຫນອງໃຫ້ເປັນພາລາມິເຕີປະກອບ. ຫຼັງຈາກນັ້ນມັນມອບຫມາຍການສັງເກດການແຕ່ລະກຸ່ມໃຫ້ອີງໃສ່ຄວາມໃກ້ຊິດຂອງການສັງເກດການກັບຄວາມຫມາຍຂອງກຸ່ມ. ຄວາມຫມາຍຂອງກຸ່ມນີ້ແມ່ນຖືກປະຕິເສດແລະຂັ້ນຕອນເລີ່ມຕົ້ນອີກເທື່ອຫນຶ່ງ. ນີ້ແມ່ນວິທີການເຮັດວຽກຂອງ algorithm:

  1. ສູດການເລືອກທີ່ຈະເລືອກ k ຈຸດທີ່ເປັນສູນກາງຕົ້ນສະບັບ (ຫມາຍຄວາມວ່າ).
  2. ຈຸດແຕ່ລະຂໍ້ມູນໃນຊຸດຂໍ້ມູນໄດ້ຖືກມອບຫມາຍໃຫ້ກຸ່ມທີ່ປິດ, ອີງຕາມໄລຍະຫ່າງ Euclidean ລະຫວ່າງຈຸດແຕ່ລະກຸ່ມແຕ່ລະກຸ່ມ.
  3. ແຕ່ລະກຸ່ມແກັດແມ່ນ recomputed ເປັນສະເລ່ຍຂອງຈຸດໃນກຸ່ມນັ້ນ.
  4. ຂັ້ນຕອນທີ 2 ແລະ 3 ເຮັດຊ້ໍາຈົນກ່ວາກຸ່ມດັ່ງກ່າວສະຫຼຸບ. ການປະສົມປະສານອາດຈະຖືກກໍານົດໄວ້ແຕກຕ່າງກັນໄປຕາມການປະຕິບັດແຕ່ມັນກໍ່ຫມາຍຄວາມວ່າບໍ່ມີການສັງເກດເຫັນການປ່ຽນແປງກຸ່ມເມື່ອຂັ້ນຕອນທີ 2 ແລະ 3 ຖືກຊ້ໍາຫຼືວ່າການປ່ຽນແປງບໍ່ເຮັດໃຫ້ມີຄວາມແຕກຕ່າງໃນການກໍານົດຂອງກຸ່ມ.

ການເລືອກຈໍານວນກຸ່ມ

ຫນຶ່ງໃນຂໍ້ບົກຜ່ອງຕົ້ນຕໍກັບ k- ຫມາຍຄວາມວ່າການຈັດກຸ່ມແມ່ນຄວາມຈິງທີ່ວ່າທ່ານຕ້ອງລະບຸຈໍານວນຂອງກຸ່ມເປັນການປ້ອນຂໍ້ມູນໃນລະບົບ. ຕາມການອອກແບບ, ລະບົບການຄິດໄລ່ບໍ່ສາມາດກໍານົດຈໍານວນກຸ່ມທີ່ເຫມາະສົມແລະແມ່ນຂຶ້ນກັບຜູ້ໃຊ້ເພື່ອລະບຸໄວ້ໃນລ່ວງຫນ້າ.

ຕົວຢ່າງ: ຖ້າທ່ານມີກຸ່ມປະຊາຊົນທີ່ເປັນກຸ່ມທີ່ກ່ຽວຂ້ອງກັບຕົວເລກລະດັບເພດຊາຍທີ່ເປັນເພດຊາຍຫລືເພດຍິງ, ການເອີ້ນວ່າລະບົບ k- ຫມາຍຄວາມວ່າໃຊ້ k = 3 ຈະບັງຄັບໃຫ້ປະຊາຊົນເຂົ້າສາມກຸ່ມເມື່ອມີສອງເທົ່າ input ຂອງ k = 2, ຈະໃຫ້ເຫມາະສົມທໍາມະຊາດຫຼາຍ.

ເຊັ່ນດຽວກັນ, ຖ້າຫາກວ່າກຸ່ມຂອງບຸກຄົນໄດ້ຖືກຈັດກຸ່ມໄດ້ຢ່າງງ່າຍດາຍໂດຍອີງຕາມລັດແລະທ່ານເອີ້ນວ່າລະບົບ k - ຫມາຍຄວາມວ່າດ້ວຍ k = 20, ຜົນໄດ້ຮັບອາດຈະເປັນປະໂຫຍດເກີນໄປ.

ສໍາລັບເຫດຜົນນີ້, ມັນມັກຈະເປັນຄວາມຄິດທີ່ດີທີ່ຈະທົດລອງໃຊ້ຄ່າຕ່າງໆຂອງ k ເພື່ອກໍານົດມູນຄ່າທີ່ເຫມາະສົມກັບຂໍ້ມູນຂອງທ່ານ. ທ່ານຍັງອາດຈະຕ້ອງຄົ້ນຫາການນໍາໃຊ້ ລະບົບການຂຸດຄົ້ນຂໍ້ມູນອື່ນໆ ໃນການຊອກຫາຂອງທ່ານສໍາລັບຄວາມຮູ້ທີ່ຮູ້ຈັກຂອງເຄື່ອງຈັກ.