Facebook ใช้ Machine Learning ตรวจสอบบัญชีปลอมอย่างไร

Mar 10, 2020 M.Pussapol

ผู้ฉ้อโกงใช้บัญชีปลอม เพื่อกระจายสแปม ลิงค์ฟิชชิ่ง หรือมัลแวร์ ตอนนี้ Facebook กำลังเปิดเผยรายละเอียดเกี่ยวกับวิธีการใช้ AI ในการตอบโต้

ในปี 2019 โดยเฉลี่ยแล้ว Facebook  ปิดบัญชีปลอม 2 พันล้านบัญชีต่อไตรมาส บรรดาผู้ฉ้อโกง หรือ Fraudster  ใช้บัญชีปลอมเหล่านี้เพื่อกระจายสแปม ลิงค์ฟิชชิ่ง หรือมัลแวร์ มันเป็นธุรกิจประเภททำนาบนหลังคน สามารถทำลายล้างผู้ใช้ไร้เดียงสาที่หลงติดกับดักอย่างง่ายดาย

เมื่อไม่นานมานี้ Facebook ได้เปิดเผยรายละเอียดเกี่ยวกับระบบ Machine Learning ที่ใช้เพื่อรับมือกับความท้าทายนี้ ยักษ์ใหญ่ด้านเทคโนโลยีแยกความแตกต่างระหว่างบัญชีปลอม 2 ประเภท

อันดับแรกมี "บัญชีที่ผู้ใช้อาจจำแนกประเภทสับสน" โปรไฟล์ส่วนบุคคลสำหรับธุรกิจหรือสัตว์เลี้ยงที่ตีความเป็น 2 นัยได้ว่าเป็น Page หรือไม่ สิ่งเหล่านี้จัดการได้ค่อนข้างตรงไปตรงมา คือ Convert  ทั้งหมดเป็น  Page

อีกส่วนหนึ่งที่ดูจะซีเรียสกว่า คือ “การละเมิดบัญชี” เหล่านี้เป็นโปรไฟล์ส่วนบุคคลที่มีส่วนร่วมในการหลอกลวง สแปมหรือละเมิดข้อกำหนดการให้บริการของแพลตฟอร์ม บัญชีที่ละเมิดจะต้องถูกลบออกโดยเร็วที่สุด โดยไม่ขยายวงในการทำลายบัญชีจริงกว้างเกินไป

ในการทำเช่นนี้ Facebook จะใช้การถอดรหัสและ Machine Learning เพื่อบล็อกบัญชีปลอมทั้งก่อนที่จะถูกสร้างขึ้น หรือก่อนที่มันจะเปิดใช้งาน กล่าวอีกนัยหนึ่งคือ ก่อนที่มันจะเป็นอันตรายต่อผู้ใช้งานจริง

ขั้นตอนสุดท้าย คือ หลังจากที่บัญชีปลอมได้เผยแพร่แล้ว สิ่งนี้เกิดขึ้นเมื่อการตรวจจับซับซ้อนมากขึ้น มีระบบ Machine Learning ใหม่ที่เรียกว่า Deep Entity Classification (DEC) เข้ามาล้วงข้อมูลลึกมากขึ้น

DEC เรียนรู้ที่จะแยกแยะผู้ใช้ปลอมกับผู้ใช้จริงโดยใช้รูปแบบการเชื่อมต่อผ่านเครือข่าย สิ่งนี้เรียกว่า "“Deep Features" ซึ่งรวมข้อมูลต่างๆ เช่น อายุเฉลี่ย หรือการกระจายเพศของเพื่อนของผู้ใช้

Facebook ใช้ฟีเจอร์ที่ลึกกว่า 20,000 รายการในการกำหนดลักษณะของแต่ละบัญชี โดยแสดงภาพรวมของการทำงานของแต่ละโปรไฟล์ เพื่อให้ผู้ต้องการโจมตีระบบแม้จะเปลี่ยนกลยุทธ์ไปเรื่อยๆ ก็ยังคงทำได้ยาก

ระบบเริ่มต้นด้วยการใช้ฉลากที่สร้างจากเครื่องจักรที่มีความแม่นยำต่ำจำนวนมาก สิ่งเหล่านี้สร้างขึ้นจากการผสมผสานของกฎและโมเดล Machine Learning อื่นๆ ที่ประเมินว่าผู้ใช้เป็นตัวจริงหรือตัวปลอม เมื่อข้อมูลนั้นถูกนำมาใช้เพื่อสร้างปัญญาประดิษฐ์แล้ว แบบจำลองจะถูกปรับแต่งด้วยชุดข้อมูลขนาดเล็กที่มีความแม่นยำสูง ซึ่งสร้างขึ้นโดยผู้คนทั่วโลกที่มีความเข้าใจในวัฒนธรรมท้องถิ่น

ระบบการจำแนกขั้นสุดท้ายสามารถระบุ 1 ใน 4 ประเภทของโปรไฟล์ปลอม ประกอบด้วย

  1. บัญชีผิดกฎหมายไม่ได้เป็นตัวแทนของบุคคล
  2. บัญชีที่ถูกบุกรุกของผู้ใช้จริงที่ถูกโจมตีโดยผู้โจมตี
  3. ผู้ส่งอีเมลขยะที่ส่งข้อความสร้างรายได้ซ้ำๆ
  4. หลอกลวงผู้ใช้งาน เปิดเผยข้อมูลส่วนบุคคล

นับตั้งแต่มีการนำ DEC มาใช้ Facebook เปิดเผยว่า ระบบช่วยให้เหลือบัญชีปลอมบนแพลตฟอร์มประมาณ 5% ของActive User รายเดือน

ทั้งนี้ รายละเอียดของความพยายามในการสะสางภายในของ Facebook เกิดขึ้นท่ามกลางความกังวลเกี่ยวกับการจัดการเรื่องการเลือกตั้งประธานาธิบดีสหรัฐ โดยเฉพาะที่เกี่ยวกับข้อมูลปลอม  

เพื่อการเลือกตั้งบริสุทธิ์ยุติธรรม

ทีม Facebook กล่าวว่า เวลาการเปิดเผยเรื่องนี้เป็นเรื่องบังเอิญเท่านั้น

“นี่เป็นแค่พูดถึงการละเมิดทั่วๆ ไป ไม่ได้มีเป้าหมายเฉพาะเจาะจงเกี่ยวกับหัวข้อการเลือกตั้ง ” Daniel Bernhardt ผู้จัดการฝ่ายวิศวกรรมของทีม Community Integrity ของ Facebook กล่าว แต่ DEC (Deep Entity Classification)จะทำให้สมบูรณ์ขึ้น โดยเสริมศักยภาพอื่นๆ ของแพลตฟอร์มที่จะลดการโฆษณาชวนเชื่อของการเลือกตั้ง เนื่องจากระบบใช้คุณลักษณะที่ลึก เพื่อจัดหมวดหมู่แต่ละโปรไฟล์ จึงมีความยืดหยุ่น ไม่ถูกหลอกลวงง่ายๆ โดยภาพโปรไฟล์ของข้อมูลปลอม 

Aviv Ovadya ผู้ก่อตั้ง Thoughtful Technology Project องค์กรไม่แสวงหาผลกำไร ซึ่งเป็นผู้ศึกษาการออกแบบและกำกับดูแลแพลตฟอร์มด้านธรรมาภิบาล กล่าวว่า ความพยายามของ Facebook ในการเพิ่มความโปร่งใสให้กับกระบวน การทำงานของพวกเขานั้นน่ายกย่อง

 “มันมีประโยชน์ และมีพลังมากหากพูดคุยกันอย่างพิถีพิถันเกี่ยวกับการตัดสินใจเชิงสถาปัตยกรรม - และวิธีการทำงานของระบบรักษาความปลอดภัย - ที่บริษัทอื่นๆ สามารถเลียนแบบได้” เขากล่าว “เนื่องจากบริษัทอย่าง Facebook มีทรัพยากรในการลงทุนมากกว่าบริษัทขนาดเล็กอย่างมีนัยสำคัญ จึงเป็นประโยชน์อย่างยิ่งที่จะทำเรื่อง Knowledge Sharing”

แต่ความพยายามบนเส้นทางเพิ่มความโปร่งใสให้กับกระบวนการทำงานยังอีกยาวไกล  ด้วยผู้ใช้งานรายเดือน 2.5 พันล้านราย 5% เป็นบัญชีปลอม ซึ่งเท่ากับ 125 ล้านบัญชี Machine Learning จะก้าวหน้าไปได้เร็วแค่ไหน: ไม่ว่าจะได้รับข้อมูลมากเท่าไหร่ มันก็ย่อมไม่สามารถจับผิดทุกบัญชีปลอมด้วยความแม่นยำสมบูรณ์แบบ

ท้ายที่สุดแล้ว แพลตฟอร์มคงต้องหันไปใช้การผสมผสานระหว่างมนุษย์กับเครื่องจักรเพื่อแก้ไขปัญหานี้

ที่มา   MIT TECHNOLOGY REVIEW

 

Copyright © 2015-2016 บริษัท แบรนด์เอจ มาร์เก็ตติ้ง รีซอร์สเซส จำกัด.
All rights reserved.