การตรวจจับการฉ้อโกงในการเรียนรู้ของเครื่อง: สิ่งที่คุณต้องรู้ [2022]

เผยแพร่แล้ว: 2021-01-02

อาหาร เสื้อผ้า เครื่องประดับ หรือเฟอร์นิเจอร์ ทุกสิ่งที่คุณเคยซื้อจากร้านค้าบนถนนที่พลุกพล่านสามารถซื้อออนไลน์ได้แล้ว อีคอมเมิร์ซเป็นอุตสาหกรรมที่มีมูลค่าหลายพันล้านดอลลาร์และกำลังเพิ่มขึ้นเรื่อยๆ จำเป็นต้องพูด สิ่งนี้ก็อยู่ในเงื้อมมือของโลกแห่งอาชญากรเช่นกัน อาชญากรออนไลน์มีอยู่ในทุกภาคส่วนออนไลน์ที่คุณสามารถตั้งชื่อได้

การตรวจจับการฉ้อโกงด้วยการเรียนรู้ของเครื่องเป็นไปได้เนื่องจากความสามารถของแบบจำลองในการเรียนรู้จากข้อมูลการฉ้อโกงในอดีต เพื่อรับรู้รูปแบบและคาดการณ์ความถูกต้องของธุรกรรมในอนาคต ในกรณีส่วนใหญ่จะมีประสิทธิภาพมากกว่ามนุษย์เนื่องจากความเร็วและประสิทธิภาพของการประมวลผลข้อมูล

การฉ้อโกงทางอินเทอร์เน็ตบางประเภท ได้แก่:

  • การปลอมแปลงรหัส ทุกวันนี้ ID ถูกประดิษฐ์ขึ้นอย่างดีจนแทบเป็นไปไม่ได้ที่มนุษย์จะตรวจสอบความถูกต้องและป้องกันการฉ้อโกงข้อมูลประจำตัว

ด้วยการใช้ AI ทำให้สามารถวิเคราะห์ลักษณะต่างๆ ของลักษณะบัตรประจำตัวเพื่อให้มีผลกับความถูกต้องของเอกสาร ซึ่งช่วยให้บริษัทต่างๆ สามารถกำหนดเกณฑ์ความปลอดภัยของตนเองได้เมื่อมีการร้องขอซึ่งต้องใช้เอกสารประจำตัวบางอย่าง

    • กลโกงสินเชื่อธนาคาร. สิ่งเหล่านี้อาจเกิดขึ้นได้หากมีบุคคลติดต่อคุณและเสนอโครงการเงินกู้ที่มีเงื่อนไขที่น่าสงสัย ที่นี่บุคคลที่ติดต่อคุณจะขอรายละเอียดธนาคารของคุณหรือชำระเงินล่วงหน้า โดยไม่มีข้อมูลบริษัทที่เหมาะสม หรือแม้แต่ใช้หมายเลขติดต่อระหว่างประเทศ AI สามารถจัดการการฉ้อโกงดังกล่าวได้อย่างง่ายดายโดยใช้บันทึกการสมัครสินเชื่อก่อนหน้าเพื่อกรองผู้ผิดนัดเงินกู้
  • อีเมลฟิชชิ่ง นี่เป็นอาชญากรรมทางอินเทอร์เน็ตประเภทหนึ่งที่มีการโฆษณาเว็บไซต์และข้อความปลอมให้กับผู้ใช้ โดยขอให้พวกเขาแบ่งปันข้อมูลส่วนบุคคล หากบุคคลไม่ระมัดระวังมากเกินไป เขาหรือเธออาจป้อนข้อมูลที่เป็นความลับซึ่งสามารถทำให้พวกเขาเสี่ยงต่อการคุกคามได้ วิธีที่ดีที่สุดในการหลีกเลี่ยงการฉ้อโกงนี้คือให้ผู้ใช้ระมัดระวังตัวเอง อย่างไรก็ตาม AI สามารถค้นหาอีเมลหลอกลวงได้โดยการกรองโดยใช้อัลกอริธึมการเรียนรู้ของเครื่องพื้นฐาน เช่น การถดถอย
  • การฉ้อโกงบัตรเครดิต นี่เป็นประเภทการฉ้อโกงการชำระเงินที่พบบ่อยที่สุด เนื่องจากรายละเอียดทั้งหมดถูกจัดเก็บออนไลน์ ซึ่งทำให้อาชญากรและแฮกเกอร์เข้าถึงได้ง่ายขึ้น การ์ดที่ส่งทางไปรษณีย์สามารถถูกสกัดกั้นได้อย่างง่ายดาย วิธีหนึ่งในการกรองธุรกรรมการฉ้อโกงดังกล่าวโดยใช้การเรียนรู้ของเครื่องได้อธิบายไว้ด้านล่าง
  • การโจรกรรมข้อมูลประจำตัว แมชชีนเลิร์นนิงสำหรับตรวจจับการโจรกรรมข้อมูลระบุตัวตนช่วยตรวจสอบเอกสารระบุตัวตนที่มีค่า เช่น หนังสือเดินทาง บัตร PAN หรือใบขับขี่แบบเรียลไทม์ นอกจากนี้ บางครั้งอาจต้องใช้ข้อมูลไบโอเมตริกเพื่อปรับปรุงความปลอดภัยให้ดียิ่งขึ้น วิธีการรักษาความปลอดภัยเหล่านี้ต้องการการรับรองความถูกต้องด้วยตนเอง ซึ่งช่วยลดโอกาสในการฉ้อโกงได้มาก

อ่านเพิ่มเติมเกี่ยวกับ: เงินเดือนวิศวกรการเรียนรู้ของเครื่องในอินเดีย

แบบจำลองทำนายการฉ้อโกงโดยใช้ข้อมูลบัตรเครดิต

ที่นี่ใช้ชุดข้อมูล Kaggle ที่มีชื่อเสียงมากเพื่อแสดงให้เห็นว่าการตรวจจับการฉ้อโกงทำงานอย่างไรโดยใช้โมเดลโครงข่ายประสาทเทียมอย่างง่าย

การนำเข้า:

นำเข้า แพนด้า เป็น pd

นำเข้า numpy เป็น np

นำเข้า เทนเซอร์โฟลว์ เป็น tf

นำเข้า keras

จาก sklearn.preprocessing นำเข้า StandardScaler

จาก keras.models นำเข้า Sequential

จาก keras.layers นำเข้า หนาแน่น

จาก sklearn.model_selection นำเข้า train_test_split

จาก sklearn.metrics นำเข้า การจัดหมวดหมู่ _report

ลองดูชุดข้อมูล ที่ นี่ คอลัมน์ จำนวนเงิน จะถูกทำให้เป็นมาตรฐานเช่นเดียวกับคุณลักษณะอื่นๆ และ คอลัมน์ เวลา จะถูกลบออกเนื่องจากไม่เกี่ยวข้อง

data= pd.read_csv ( 'creditcard.csv' )

data [ 'Amount_norm' ] = StandardScaler () .fit_transform ( ข้อมูล [ 'Amount' ] .values.reshape ( -1 , 1 ))

data= data.drop ([ 'จำนวน' ], แกน= 1 )

data= data.drop ([ 'เวลา' ], แกน= 1 )

ข้อมูล=ข้อมูล [: -1 ]

data.info()

หลังจากล้างข้อมูลแล้ว ชุดข้อมูลของเรามีคุณลักษณะทั้งหมด 28 รายการและหนึ่งเป้าหมาย โดยทั้งหมดมีค่าทศนิยมซึ่งไม่ว่างเปล่า

เป้าหมายของเราคือ คอลัมน์ Class ซึ่งกำหนดว่าธุรกรรมบัตรเครดิตนั้นเป็นการฉ้อโกงหรือไม่ ดังนั้นชุดข้อมูลจึงถูกแบ่งออกเป็นการฝึกและการทดสอบ โดยรักษาอัตราส่วนการแยก 80:20 ตามปกติ ( random_state ได้รับการแก้ไขเพื่อช่วยให้คุณทำซ้ำข้อมูลแยกของคุณ)

X = data.iloc [:, data.columns != 'คลาส' ]

y = data.iloc [:, data.columns == 'คลาส' ]

X_train , X_test , y_train , y_test = train_test_split ( X , y , test_size = 0.2 , random_state= 0 )

เราใช้โมเดลตามลำดับจาก ไลบรารี keras เพื่อสร้างโครงข่ายประสาทเทียมที่มี 3 ชั้นหนาแน่น เลเยอร์เอาต์พุตมีเซลล์ประสาทเพียงเซลล์เดียวซึ่งจะใช้ ฟังก์ชัน sigmoid เพื่อให้ผลลัพธ์เป็นคลาสบวกหรือคลาสลบ

จากนั้นโมเดลจะคอมไพล์ด้วย adam Optimizer แม้ว่าขอแนะนำอย่างยิ่งให้คุณลองใช้ค่าพารามิเตอร์ไฮเปอร์ที่แตกต่างกันด้วยตัวเอง เช่น จำนวนหน่วยในแต่ละเลเยอร์ การเปิดใช้งาน ตัวเพิ่มประสิทธิภาพ ฯลฯ เพื่อดูว่าสิ่งใดดีที่สุดสำหรับค่าที่กำหนด ชุดข้อมูล

รุ่น= ลำดับ ()

model.add ( หนาแน่น ( หน่วย = 16 , การเปิดใช้งาน = 'relu' , input_dim = 29 ))

model.add ( หนาแน่น ( หน่วย = 16 , การเปิดใช้งาน = 'relu' ))

model.add ( หนาแน่น ( หน่วย = 1 , การเปิดใช้งาน = 'sigmoid' ))

แบบอย่าง. คอมไพล์ ( เครื่องมือเพิ่มประสิทธิภาพ = 'adam' , การสูญเสีย = 'binary_crossentropy' , เมตริก = [ 'ความแม่นยำ' ])

model.fit ( X_train , y_train , batch_size = 32 , ยุค = 15 )

นี่คือผลลัพธ์หลังจากรันโมเดลในช่วงสองสามยุค

เราเห็นว่าโมเดลให้ความแม่นยำ 99.97% เร็วมาก ด้านล่างนี้ y_pred มีการคาดคะเนของแบบจำลองของเราเกี่ยวกับข้อมูลการทดสอบ และมีการแสดงสรุปประสิทธิภาพของแบบจำลองอย่างละเอียด

y_pred = model.predict ( X_test )

y_pred = ( y_pred > 0.5 )

พิมพ์ ( types_report ( y_test , y_pred ))

อ่าน: แนวคิดโครงการแมชชีนเลิร์นนิงสำหรับผู้เริ่มต้น

บทสรุป

ด้วยวิธีนี้ เราจึงประสบความสำเร็จในการสร้างแบบจำลองที่มีความแม่นยำสูงเพื่อระบุธุรกรรมที่เป็นการฉ้อโกง สิ่งเหล่านี้มีประโยชน์มากสำหรับวัตถุประสงค์ในการบริหารความเสี่ยง

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

เป็นผู้นำการปฏิวัติเทคโนโลยีที่ขับเคลื่อนด้วย AI

PG DIPLOMA ในการเรียนรู้ของเครื่องและปัญญาประดิษฐ์
เรียนรู้เพิ่มเติม