ສິ່ງທີ່ທ່ານຕ້ອງການຮູ້ກ່ຽວກັບການກັ່ນຕອງ Spam Bayesian

by Heinz Tschabitscher

ຊອກຮູ້ວິທີສະຖິຕິຊ່ວຍໃຫ້ກ່ອງຈົດຫມາຍຂອງທ່ານສະອາດ

ການກັ່ນຕອງຂີ້ເຫຍື້ອ Bayesian ຄິດໄລ່ຄວາມເປັນໄປໄດ້ຂອງຂໍ້ຄວາມທີ່ຖືກຂີ້ເຫຍື້ອອີງໃສ່ເນື້ອໃນຂອງມັນ. ບໍ່ເຫມືອນກັບການກັ່ນຕອງຂອງເນື້ອຫາທີ່ງ່າຍດາຍ, ການກັ່ນຕອງ Bayesian ໄດ້ຮຽນຮູ້ຈາກການສະແປມແລະຈາກອີເມລທີ່ດີ, ມັນເຮັດໃຫ້ວິທີການຕ້ານການຂີ້ເຫຍື້ອທີ່ມີປະສິດທິຜົນແລະມີປະສິດຕິພາບທີ່ດີທີ່ສຸດ.

ທ່ານຮູ້ວິທີການ Email Junk ແນວໃດ?

ຄິດເຖິງວິທີທີ່ທ່ານຊອກຫາສະ ແປມ . ການລວດໄວແມ່ນໄວທີ່ສຸດ. ທ່ານຮູ້ວ່າສິ່ງທີ່ຂີ້ເຫຍື້ອມີລັກສະນະຄ້າຍຄືກັນ, ແລະທ່ານຮູ້ວ່າສິ່ງທີ່ອີເມລທີ່ດີມີຄືແນວໃດ.

ຄວາມເປັນໄປໄດ້ຂອງຂີ້ເຫຍື້ອທີ່ຄ້າຍຄືກັບຈົດຫມາຍທີ່ດີແມ່ນປະມານ ... ສູນ.

ການຮວບຮວມການກັ່ນຕອງໃນເນື້ອຫາບໍ່ເຫມາະສົມ

ມັນຈະບໍ່ດີຖ້າການກັ່ນຕອງຂີ້ເຫຍື້ອອັດຕະໂນມັດເຮັດວຽກເຊັ່ນດຽວກັນ, ບໍ?

ການກໍານົດການກັ່ນຕອງຂີ້ເຫຍື້ອແບບເນື້ອຫາທີ່ໃຊ້ເວລາພຽງແຕ່ເຮັດໄດ້. ພວກເຂົາຊອກຫາຄໍາແລະລັກສະນະອື່ນໆທີ່ເປັນປົກກະຕິຂອງ spam. ອົງປະກອບລັກສະນະໃດກໍ່ຕາມແມ່ນໄດ້ມອບຫມາຍຄະແນນ, ແລະຄະແນນ spam ສໍາລັບຂໍ້ຄວາມທັງຫມົດແມ່ນຖືກຄິດໄລ່ຈາກຄະແນນສ່ວນບຸກຄົນ. ການກັ່ນຕອງການກັ່ນຕອງບາງຢ່າງຍັງຊອກຫາລັກສະນະຂອງຈົດຫມາຍທີ່ຖືກຕ້ອງ, ຫຼຸດລົງຄະແນນສຸດທ້າຍຂອງຂໍ້ຄວາມ.

ວິທີການກັ່ນຕອງການກວດສອບຈະເຮັດວຽກ, ແຕ່ວ່າມັນຍັງມີຂໍ້ຈໍາກັດຫຼາຍ:

ບັນຊີລາຍຊື່ຂອງລັກສະນະທີ່ຖືກສ້າງຂຶ້ນຈາກສະແປມ (ແລະອີເມລທີ່ດີ) ທີ່ມີໃຫ້ກັບວິສະວະກອນຂອງກອງ. ເພື່ອໃຫ້ໄດ້ຮັບຄວາມເຂົ້າໃຈດີໆຂອງ spam ທົ່ວໄປຜູ້ໃດກໍ່ຕາມອາດຈະໄດ້ຮັບ, mail ຈະຕ້ອງໄດ້ເກັບກໍາຢູ່ທີ່ຫຼາຍຮ້ອຍທີ່ຢູ່ອີເມວ. ນີ້ເຮັດໃຫ້ປະສິດທິພາບຂອງການກັ່ນຕອງຫຼຸດລົງ, ໂດຍສະເພາະແມ່ນ ຄຸນລັກສະນະຂອງອີເມລທີ່ດີຈະແຕກຕ່າງກັນສໍາລັບແຕ່ລະບຸກຄົນ , ແຕ່ນີ້ບໍ່ໄດ້ຖືກປະຕິບັດ.
ຄຸນລັກສະນະທີ່ຈະຊອກຫາແມ່ນຫຼາຍຫຼືຫນ້ອຍທີ່ ກໍານົດໄວ້ໃນແກນ . ຖ້າ spammers ເຮັດໃຫ້ຄວາມພະຍາຍາມທີ່ຈະປັບຕົວ (ແລະເຮັດໃຫ້ໂປແກມຂອງພວກເຂົາຄ້າຍຄື mail ດີກັບການກັ່ນຕອງ), ຄຸນລັກສະນະການກັ່ນຕອງຕ້ອງໄດ້ຮັບການປັບດ້ວຍຕົນເອງ - ຄວາມພະຍາຍາມທີ່ໃຫຍ່ກວ່າ.
ຄະແນນທີ່ໄດ້ຮັບມອບຫມາຍໃຫ້ແຕ່ລະຄໍາອາດແມ່ນອີງໃສ່ການຄາດຄະເນທີ່ດີ, ແຕ່ວ່າມັນຍັງຄົງເປັນຕົວເລືອກ. ແລະເຊັ່ນດຽວກັນກັບບັນຊີລາຍຊື່ຂອງລັກສະນະ, ມັນບໍ່ສາມາດດັດແປງໂລກທີ່ປ່ຽນແປງຂອງສະແປມທົ່ວໄປ, ຫຼືຄວາມຕ້ອງການຂອງຜູ້ໃຊ້ແຕ່ລະຄົນ.

Bayesian Spam Filters Tweak ດ້ວຍຕົນເອງ, ການເຮັດດີຂຶ້ນແລະດີກວ່າເກົ່າ

ການກັ່ນຕອງ Spam Bayesian ແມ່ນປະເພດຂອງການກັ່ນຕອງການກັ່ນຕອງເນື້ອຫາ, ເຊັ່ນດຽວກັນ. ວິທີການຂອງພວກເຂົາບໍ່ມີບັນຫາຂອງການກັ່ນຕອງຂີ້ເຫຍື້ອງ່າຍດາຍ, ເຖິງແມ່ນວ່າ, ແລະມັນເຮັດຢ່າງຮຸນແຮງ. ນັບຕັ້ງແຕ່ການອ່ອນເພຍຂອງການກັ່ນຕອງການກວດແມ່ນຢູ່ໃນບັນຊີລາຍຊື່ຂອງລັກສະນະທີ່ກໍານົດໄວ້ດ້ວຍຕົນເອງແລະຄະແນນຂອງເຂົາເຈົ້າ, ລາຍການນີ້ຖືກລົບລ້າງ.

ແທນທີ່ຈະ, ຕົວກອງ Spam Bayesian ກໍ່ສ້າງບັນຊີດ້ວຍຕົນເອງ. ຕົວຢ່າງ, ທ່ານເລີ່ມຕົ້ນດ້ວຍອີເມວຂະຫນາດໃຫຍ່ (ໃຫຍ່) ທີ່ທ່ານໄດ້ຈັດແບ່ງເປັນອີເມວຂີ້ເຫຍື້ອ, ແລະອີເມວທີ່ດີອີກ. ການກັ່ນຕອງເບິ່ງທັງສອງແລະວິເຄາະຈົດຫມາຍທີ່ຖືກຕ້ອງເຊັ່ນດຽວກັນກັບສະແປມເພື່ອຄິດໄລ່ຄວາມເປັນໄປໄດ້ຂອງລັກສະນະຕ່າງໆທີ່ປາກົດຢູ່ໃນສະແປມແລະໃນຈົດຫມາຍທີ່ດີ.

ວິທີການ Filter Spam Bayesian ກວດສອບອີເມວ

ລັກສະນະການກັ່ນຕອງຂີ້ເຫຍື້ອ Bayesian ສາມາດຊອກຫາຢູ່:

ຄໍາສັບຕ່າງໆໃນ ຮ່າງກາຍ ຂອງຂໍ້ຄວາມ, ແນ່ນອນ, ແລະ
ຕົວຢ່າງຂອງມັນ (ຜູ້ສົ່ງແລະ ເສັ້ນທາງຂໍ້ຄວາມ , ຕົວຢ່າງ!), ແຕ່ຍັງ
ລັກສະນະອື່ນໆເຊັ່ນ HTML / CSS code (ເຊັ່ນສີແລະຮູບແບບອື່ນໆ), ຫຼືແມ້ກະທັ້ງ
ຄູ່ຄໍາ, ວະລີແລະ
ຂໍ້ມູນ meta (ບ່ອນທີ່ມີປະໂຫຍກໂດຍສະເພາະ, ຕົວຢ່າງ).

ຕົວຢ່າງເຊັ່ນ "Cartesian" ບໍ່ເຄີຍປາກົດຢູ່ໃນສະແປມແຕ່ມັກຈະຢູ່ໃນອີເມວທີ່ຖືກຕ້ອງທີ່ທ່ານໄດ້ຮັບ, ຄວາມເປັນໄປໄດ້ທີ່ "Cartesian" ສະແດງວ່າສະແປມຢູ່ໃກ້ສູນ. "Toner", ໃນທາງກົງກັນຂ້າມ, ປາກົດຢູ່ສະເພາະ, ແລະມັກ, ຢູ່ໃນສະແປມ. "Toner" ມີຄວາມເປັນໄປໄດ້ສູງທີ່ຖືກພົບເຫັນຢູ່ໃນສະແປມ, ບໍ່ຫຼາຍກວ່າ 1 (100%).

ໃນເວລາທີ່ຂໍ້ຄວາມໃຫມ່ມາຮອດ, ມັນຖືກວິເຄາະໂດຍການກັ່ນຕອງ Spam Bayesian, ແລະຄວາມເປັນໄປໄດ້ຂອງຂໍ້ຄວາມສົມບູນທີ່ຖືກສະແປມຖືກຄິດໄລ່ໂດຍໃຊ້ລັກສະນະຂອງບຸກຄົນ.

ຖືວ່າຂໍ້ຄວາມມີທັງ "Cartesian" ແລະ "toner". ຈາກຄໍາເຫຼົ່ານີ້ເທົ່ານັ້ນມັນຍັງບໍ່ຊັດເຈນວ່າພວກເຮົາມີອີເມວ spam ຫຼື legit. ຄຸນລັກສະນະອື່ນໆຈະ (ຫວັງເປັນຢ່າງຍິ່ງແລະອາດຈະເປັນໄປໄດ້) ຊີ້ບອກເຖິງຄວາມເປັນໄປໄດ້ທີ່ອະນຸຍາດໃຫ້ຕົວກອງຈະຈັດແບ່ງຂໍ້ຄວາມເປັນ spam ຫຼື mail ດີ.

Filter Spam Bayesian ສາມາດຮຽນຮູ້ໂດຍອັດຕະໂນມັດ

ໃນປັດຈຸບັນທີ່ພວກເຮົາມີການຈັດປະເພດ, ຂໍ້ຄວາມສາມາດຖືກນໍາໃຊ້ເພື່ອຝຶກອົບຮົມຕົວກັ່ນຕົວເອງຕື່ມອີກ. ໃນກໍລະນີນີ້, ອາດຈະມີການຄາດຄະເນຂອງ "Cartesian" ທີ່ສະແດງວ່າອີເມວທີ່ດີຈະຖືກຫຼຸດລົງ (ຖ້າຂໍ້ຄວາມທີ່ມີທັງ "Cartesian" ແລະ "toner" ຖືກພົບວ່າເປັນສະແປມ), ຫຼືຄວາມຫນ້າເຊື່ອຖືຂອງ "toner" ສະແດງ spam ຈະຕ້ອງຖືກພິຈາລະນາ.

ການນໍາໃຊ້ເຕັກນິກແບບອັດຕະໂນມັດນີ້, ການກັ່ນຕອງ Bayesian ສາມາດ ຮຽນຮູ້ຈາກການຕັດສິນໃຈຂອງຕົວເອງແລະຂອງຜູ້ໃຊ້ (ຖ້າເຈົ້າແກ້ໄຂຂໍ້ຜິດພາດໂດຍການກັ່ນຕອງດ້ວຍຕົນເອງ). ການປັບຕົວເຂົ້າກັນຂອງ Bayesian ຍັງເຮັດໃຫ້ແນ່ໃຈວ່າພວກເຂົາມີປະສິດຕິຜົນສູງສຸດສໍາລັບຜູ້ໃຊ້ອີເມວແຕ່ລະຄົນ. ໃນຂະນະທີ່ສະແປມຂອງຜູ້ຄົນສ່ວນໃຫຍ່ອາດມີຄຸນລັກສະນະທີ່ຄ້າຍຄືກັນ, ຈົດຫມາຍທີ່ຖືກຕ້ອງແມ່ນແຕກຕ່າງກັນສໍາລັບທຸກໆຄົນ.

ສາມາດ Spammers ໄດ້ຮັບການກັ່ນຕອງ Bayesian ທີ່ຜ່ານມາ?

ລັກສະນະຂອງອີເມລທີ່ຖືກຕ້ອງແມ່ນສໍາຄັນສໍາລັບຂະບວນການກັ່ນຕອງຂອງ Bayesian spam ເປັນ spam. ຖ້າຫາກວ່າການກັ່ນຕອງໄດ້ຖືກຝຶກອົບຮົມໂດຍສະເພາະສໍາລັບຜູ້ໃຊ້ທຸກໆຄົນ, spammers ຈະມີເວລາທີ່ຍາກຫຼາຍທີ່ຈະເຮັດວຽກກ່ຽວກັບການກັ່ນຕອງຂີ້ເຫຍື້ອຂອງທຸກໆຄົນ (ຫຼືແມ້ກະທັ້ງຄົນສ່ວນໃຫຍ່), ແລະຕົວກອງສາມາດປັບຕົວກັບຜູ້ສົ່ງຂໍ້ຄວາມ spammers ສ່ວນໃຫຍ່.

Spammers ພຽງແຕ່ຈະເຮັດໃຫ້ມັນຜ່ານການກັ່ນຕອງ Bayesian ດີການຝຶກອົບຮົມຖ້າຫາກວ່າພວກເຂົາເຮັດໃຫ້ຂໍ້ຄວາມຂີ້ເຫຍື້ອຂອງພວກເຂົາເບິ່ງຢ່າງສົມບູນຄືກັບອີເມວທົ່ວໄປທີ່ທຸກຄົນສາມາດໄດ້ຮັບ.

Spammers ບໍ່ໄດ້ສົ່ງອີເມວສະເພາະເຊັ່ນນີ້. ໃຫ້ພວກເຮົາສົມມຸດວ່ານີ້ແມ່ນຍ້ອນວ່າອີເມວເຫຼົ່ານີ້ບໍ່ໄດ້ເຮັດວຽກເປັນອີເມວຂີ້ເຫຍື້ອ. ດັ່ງນັ້ນ, ໂອກາດທີ່ພວກເຂົາຈະບໍ່ໄດ້ຮັບການປະຕິບັດໃນເວລາທີ່ປະກະຕິອີເມວທີ່ຫນ້າເບື່ອແມ່ນວິທີດຽວທີ່ຈະເຮັດໃຫ້ມັນຜ່ານການກັ່ນຕອງຂີ້ເຫຍື້ອ.

ຖ້າຫາກວ່າພວກໂຈນສະຫລັດປ່ຽນສະມັກອີເລັກໂທຣນິກ, ພວກເຮົາຈະເຫັນຫລາຍໆ spam ຢູ່ໃນກ່ອງຈົດຫມາຍຂອງພວກເຮົາອີກເທື່ອຫນຶ່ງ, ແລະອີເມລ໌ອາດຈະເປັນ ຄວາມອຸກອັ່ງ ຍ້ອນວ່າມັນຢູ່ໃນມື້ກ່ອນທີ່ Bayesian (ຫຼືຮ້າຍແຮງກວ່າເກົ່າ). ມັນຍັງຈະທໍາລາຍຕະຫຼາດສໍາລັບປະເພດຂອງການຂີ້ເຫຍື້ອທີ່ສຸດ, ເຖິງແມ່ນວ່າ, ແລະດັ່ງນັ້ນຈຶ່ງຈະບໍ່ມີເວລາດົນ.

ຕົວຊີ້ວັດທີ່ເຂັ້ມແຂງສາມາດເປັນການກັ່ນຕອງ Spies Bayesian Achilles & # 39; ເກີບ

ຫນຶ່ງໃນຂໍ້ຍົກເວັ້ນສາມາດໄດ້ຮັບການຮັບຮູ້ວ່າຜູ້ສົ່ງອີເມວສາມາດເຮັດວຽກໄດ້ໂດຍຜ່ານການກັ່ນຕອງ Bayesian ເຖິງແມ່ນວ່າເນື້ອຫາປົກກະຕິຂອງພວກເຂົາ. ມັນແມ່ນຢູ່ໃນລັກສະນະຂອງສະຖິຕິ Bayesian ວ່າຄໍາສັບຫນຶ່ງຫຼືລັກສະນະທີ່ມັກຈະປາກົດຢູ່ໃນອີເມລທີ່ດີສາມາດມີຄວາມສໍາຄັນດັ່ງທີ່ຈະເຮັດໃຫ້ຂໍ້ຄວາມໃດໆຈາກການຊອກຫາຄ້າຍຄືສະແປມທີ່ຖືກຈັດອັນດັບໄວ້ຕາມການກັ່ນຕອງ.

ຖ້າຜູ້ສົ່ງອີເມວພົບວິທີການກໍານົດຄໍາສັບທີ່ດີທີ່ສຸດຂອງອີເມວຂອງທ່ານໃຫ້ຖືກຕ້ອງໂດຍໃຊ້ ໃບຮັບເງິນຄືນ HTML ເພື່ອເບິ່ງຂໍ້ຄວາມທີ່ທ່ານເປີດ, ເຊັ່ນ: - ພວກເຂົາສາມາດປະກອບມີຫນຶ່ງໃນພວກເຂົາຢູ່ໃນອີເມວຂີ້ເຫຍື້ອ, ຝຶກອົບຮົມ Bayesian.

John Graham-Cumming ໄດ້ພະຍາຍາມນີ້ໂດຍການປ່ອຍສອງຕົວກັ່ນຕອງ Bayesian ເຮັດວຽກຕໍ່ກັນແລະກັນ, "ທີ່ບໍ່ດີ" ທີ່ເຫມາະສົມກັບຂໍ້ຄວາມທີ່ພົບເຫັນເພື່ອໃຫ້ໄດ້ຜ່ານການກັ່ນຕອງ "ດີ". ລາວເວົ້າວ່າມັນເຮັດວຽກ, ເຖິງແມ່ນວ່າຂະບວນການນີ້ໃຊ້ເວລາຫຼາຍແລະສັບສົນ. ພວກເຮົາບໍ່ຄິດວ່າພວກເຮົາຈະເຫັນຫຼາຍຢ່າງນີ້, ຢ່າງຫນ້ອຍບໍ່ແມ່ນໃນຂະຫນາດໃຫຍ່, ແລະບໍ່ເຫມາະສົມກັບລັກສະນະອີເມວຂອງບຸກຄົນ. Spammers ອາດຈະ (ຊອກຫາ) ສະແດງບາງຄໍາສໍາລັບອົງການຈັດຕັ້ງ (ບາງສິ່ງບາງຢ່າງເຊັ່ນ: "Almaden" ສໍາລັບບາງຄົນຢູ່ໃນ IBM ອາດຈະ?) ແທນທີ່ຈະ.

ປົກກະຕິແລ້ວ, ສະແປມຈະສະເຫມີ (ຢ່າງຫຼວງຫຼາຍ) ແຕກຕ່າງຈາກອີເມລປົກກະຕິຫຼືມັນຈະບໍ່ສະແປມ, ເຖິງແມ່ນວ່າ.

ເສັ້ນທາງລຸ່ມ: ຄວາມເຂັ້ມຂົ້ນຂອງ Bayesian Filtering ສາມາດເປັນຄວາມອ່ອນແອຂອງມັນ

ການກັ່ນຕອງຂີ້ເຫຍື້ອ Bayesian ແມ່ນການກັ່ນຕອງ ເນື້ອຫາ ທີ່:

ໄດ້ ຮັບການຝຶກອົບຮົມໂດຍສະເພາະເພື່ອຮັບຮູ້ສະມາຊິກອີເມວຂອງບຸກຄົນແລະອີເມລທີ່ດີ , ເຮັດໃຫ້ພວກເຂົາມີປະສິດທິຜົນສູງແລະມີຄວາມຫຍຸ້ງຍາກໃນການປັບຕົວໃຫ້ກັບຜູ້ສົ່ງອີເມວ.
ສາມາດສືບຕໍ່ແລະໂດຍບໍ່ມີຄວາມພະຍາຍາມຫຼາຍຫຼືການວິເຄາະຄູ່ມືການ ປັບຕົວເຂົ້າ ກັບ tricks ຫລ້າສຸດຂອງ spammers.
ເອົາຈົດຫມາຍທີ່ດີຂອງຜູ້ໃຊ້ແຕ່ລະຄົນເຂົ້າໃນບັນຊີແລະມີ ອັດຕາທີ່ບໍ່ດີທີ່ສຸດ .
ແຕ່ຫນ້າເສຍດາຍ, ຖ້າຫາກວ່ານີ້ເຮັດໃຫ້ເກີດຄວາມໄວ້ວາງໃຈຕາບອດໃນການກັ່ນຕອງຂີ້ເຫຍື້ອ Bayesian, ມັນເຮັດໃຫ້ ຂໍ້ຜິດພາດໃນບາງຄັ້ງກໍ່ຮ້າຍແຮງກວ່າເກົ່າ . ຜົນກະທົບກົງກັນຂ້າມຂອງການປະຕິເສດ ທີ່ບໍ່ຖືກຕ້ອງ (ຂີ້ເຫຍື້ອທີ່ຄ້າຍຄືກັບອີເມລປົກກະຕິ) ມີທ່າແຮງທີ່ຈະລົບກວນແລະຂັດຂວາງຜູ້ໃຊ້.