ภาพรวมของการทำเหมืองตามกฎของสมาคมและการนำไปใช้

เผยแพร่แล้ว: 2019-06-05

Association Rule Mining ตามชื่อที่แนะนำ กฎการเชื่อมโยงเป็นคำสั่ง if/then ง่ายๆ ที่ช่วยค้นหาความสัมพันธ์ระหว่างฐานข้อมูลเชิงสัมพันธ์ที่ดูเหมือนเป็นอิสระหรือที่เก็บข้อมูลอื่นๆ

อัลกอริธึมการเรียนรู้ของเครื่องส่วนใหญ่ทำงานกับชุดข้อมูลที่เป็นตัวเลขและด้วยเหตุนี้จึงมีแนวโน้มที่จะเป็นทางคณิตศาสตร์ อย่างไรก็ตาม การขุดกฎการเชื่อมโยงเหมาะสำหรับข้อมูลที่ไม่ใช่ตัวเลขและเป็นหมวดหมู่ และต้องการมากกว่าการนับธรรมดาเพียงเล็กน้อย

การทำเหมืองตามกฎการเชื่อมโยงเป็นขั้นตอนที่มีจุดมุ่งหมายเพื่อสังเกตรูปแบบ ความสัมพันธ์ หรือการเชื่อมโยงที่เกิดขึ้นบ่อยครั้งจากชุดข้อมูลที่พบในฐานข้อมูลประเภทต่างๆ เช่น ฐานข้อมูลเชิงสัมพันธ์ ฐานข้อมูลธุรกรรม และที่เก็บรูปแบบอื่นๆ

กฎสมาคมมี 2 ส่วน:

  • ก่อน (ถ้า) และ
  • ผลที่ตามมา (แล้ว)

เหตุการณ์ก่อนคือสิ่งที่พบในข้อมูล และผลที่ตามมาคือรายการที่พบร่วมกับเหตุการณ์ก่อนหน้า ดูกฎนี้เช่น:

“ถ้าลูกค้าซื้อขนมปัง เขามีโอกาส 70% ที่จะซื้อนม”

ในกฎการเชื่อมโยงข้างต้น ขนมปังเป็นปัจจัยก่อนและนมเป็นผลที่ตามมา พูดง่ายๆ ก็คือกฎสมาคมของร้านค้าปลีกในการกำหนดเป้าหมายลูกค้าให้ดีขึ้น หากกฎข้างต้นเป็นผลจากการวิเคราะห์ชุดข้อมูลบางชุดอย่างละเอียด ก็สามารถนำมาใช้เพื่อปรับปรุงการบริการลูกค้าได้ไม่เพียงเท่านั้น แต่ยังช่วยเพิ่มรายได้ของบริษัทอีกด้วย
กฎการเชื่อมโยงถูกสร้างขึ้นโดยการวิเคราะห์ข้อมูลอย่างถี่ถ้วนและค้นหารูปแบบถ้าหรือจากนั้นบ่อยครั้ง จากนั้นจะสังเกตความสัมพันธ์ที่สำคัญโดยขึ้นอยู่กับพารามิเตอร์สองตัวต่อไปนี้:

  1. การสนับสนุน : การสนับสนุนระบุว่าความสัมพันธ์แบบ if/then ปรากฏในฐานข้อมูลบ่อยเพียงใด
  2. ความมั่นใจ : ความมั่นใจบอกถึงจำนวนครั้งที่พบว่าความสัมพันธ์เหล่านี้เป็นความจริง

ดังนั้นในการทำธุรกรรมที่มีสินค้าหลายรายการ Association Rule Mining จะพยายามค้นหากฎเกณฑ์ที่ควบคุมวิธีการหรือเหตุผลที่มักซื้อผลิตภัณฑ์/รายการดังกล่าวร่วมกัน ตัวอย่างเช่น เนยถั่วและเยลลี่มักซื้อร่วมกันเพราะว่าผู้คนจำนวนมากชอบทำแซนด์วิช PB&J

การขุดตามกฎสมาคมบางครั้งเรียกว่า "การวิเคราะห์ตะกร้าตลาด" เนื่องจากเป็นพื้นที่การใช้งานครั้งแรกของการขุดสมาคม จุดมุ่งหมายคือการค้นหาการเชื่อมโยงของรายการที่เกิดขึ้นร่วมกันบ่อยกว่าที่คุณคาดหวังจากการสุ่มสุ่มตัวอย่างความเป็นไปได้ทั้งหมด เรื่องเล็กคลาสสิกของเบียร์และผ้าอ้อมจะช่วยให้เข้าใจเรื่องนี้ดีขึ้น

เรื่องราวดำเนินไปในลักษณะนี้: ชายหนุ่มชาวอเมริกันที่ไปที่ร้านในวันศุกร์เพื่อซื้อผ้าอ้อมเด็กมักจะชอบหยิบขวดเบียร์ไปด้วย แม้ว่าจะไม่เกี่ยวข้องและคลุมเครือที่อาจฟังดูเป็นฆราวาส การขุดกฎสมาคมแสดงให้เราเห็นว่าอย่างไรและทำไม!
มาวิเคราะห์ตัวเองกันหน่อยไหม
สมมติว่าฐานข้อมูลธุรกรรมการขายปลีกของ X store มีข้อมูลต่อไปนี้:

  • จำนวนธุรกรรมทั้งหมด: 600,000
  • ธุรกรรมที่มีผ้าอ้อม: 7,500 (1.25 เปอร์เซ็นต์)
  • ธุรกรรมที่มีเบียร์: 60,000 (10 เปอร์เซ็นต์)
  • ธุรกรรมที่มีทั้งเบียร์และผ้าอ้อม: 6,000 (1.0 เปอร์เซ็นต์)

จากตัวเลขด้านบนนี้ เราสามารถสรุปได้ว่าหากไม่มีความสัมพันธ์ระหว่างเบียร์กับผ้าอ้อม (กล่าวคือ มีความเป็นอิสระทางสถิติ) เราก็จะมีผู้ซื้อผ้าอ้อมเพียง 10% เท่านั้นที่จะซื้อเบียร์ด้วย

อย่างไรก็ตาม แม้อาจดูน่าประหลาดใจก็ตาม ตัวเลขบอกเราว่า 80% (=6000/7500) ของผู้ที่ซื้อผ้าอ้อมสำเร็จรูปก็ซื้อเบียร์ เช่นกัน
นี่คือการก้าวกระโดดที่สำคัญของ 8 จากความน่าจะเป็นที่คาดไว้ ปัจจัยการเพิ่มขึ้นนี้เรียกว่า ลิฟต์ – ซึ่งเป็นอัตราส่วนของความถี่ที่สังเกตได้ของการเกิดขึ้นร่วมของรายการของเราและความถี่ที่คาดหวัง

เรากำหนดลิฟต์ได้อย่างไร?
เพียงคำนวณธุรกรรมในฐานข้อมูลและดำเนินการทางคณิตศาสตร์อย่างง่าย
ตัวอย่างเช่น ในตัวอย่างของเรา กฎการเชื่อมโยงที่สมเหตุสมผลข้อหนึ่งสามารถระบุได้ว่าผู้ที่ซื้อผ้าอ้อมเด็กจะซื้อเบียร์ด้วยปัจจัยลิฟต์เท่ากับ 8 หากเราพูดในทางคณิตศาสตร์ ลิฟต์สามารถคำนวณเป็นอัตราส่วนของความน่าจะเป็นร่วมกันของสองรายการ x และ y หารด้วยผลคูณของความน่าจะเป็น
ยก = P(x,y)/[P(x)P(y)]
อย่างไรก็ตาม หากทั้งสองรายการมีความเป็นอิสระทางสถิติ ความน่าจะเป็นร่วมกันของทั้งสองรายการจะเท่ากับผลคูณของความน่าจะเป็น หรืออีกนัยหนึ่งคือ
P(x,y)=P(x)P(y),
ซึ่งทำให้ปัจจัยการยก = 1 จุดที่น่าสนใจที่ควรกล่าวถึงในที่นี้คือ การต่อต้านสหสัมพันธ์สามารถให้ค่า Lift น้อยกว่า 1 ซึ่งสอดคล้องกับรายการที่ไม่เกิดร่วมกันซึ่งไม่ค่อยเกิดขึ้นพร้อมกัน
Association Rule Mining ช่วยให้นักวิทยาศาสตร์ด้านข้อมูลค้นพบรูปแบบที่พวกเขาไม่เคยรู้ว่ามีอยู่จริง
พื้นฐานพื้นฐานของสถิติสำหรับวิทยาศาสตร์ข้อมูล

สารบัญ

มาดูบางประเด็นที่ Association Rule Mining ช่วยได้มากทีเดียว:

  1. การวิเคราะห์ตะกร้าตลาด:

นี่เป็นตัวอย่างทั่วไปที่สุดของการทำเหมืองเชื่อมโยง ข้อมูลถูกเก็บรวบรวมโดยใช้เครื่องสแกนบาร์โค้ดในซูเปอร์มาร์เก็ตส่วนใหญ่ ฐานข้อมูลนี้เรียกว่าฐานข้อมูล "ตะกร้าตลาด" ประกอบด้วยบันทึกจำนวนมากเกี่ยวกับธุรกรรมในอดีต ระเบียนเดียวแสดงรายการทั้งหมดที่ลูกค้าซื้อในการขายครั้งเดียว การรู้ว่ากลุ่มใดมีแนวโน้มที่จะเลือกชุดสินค้าใดทำให้ร้านค้าเหล่านี้มีอิสระในการปรับรูปแบบร้านค้าและแคตตาล็อกร้านค้าเพื่อจัดวางสินค้าที่เกี่ยวข้องกันอย่างเหมาะสมที่สุด

  1. การวินิจฉัยทางการแพทย์:

กฎของสมาคมในการวินิจฉัยทางการแพทย์สามารถเป็นประโยชน์สำหรับการช่วยเหลือแพทย์ในการรักษาผู้ป่วย การวินิจฉัยไม่ใช่กระบวนการที่ง่ายและมีขอบเขตของข้อผิดพลาดซึ่งอาจส่งผลให้ผลลัพธ์สุดท้ายไม่น่าเชื่อถือ การใช้การขุดกฎความสัมพันธ์เชิงสัมพันธ์ เราสามารถระบุความน่าจะเป็นของการเจ็บป่วยที่เกี่ยวข้องกับปัจจัยและอาการต่างๆ นอกจากนี้ การใช้เทคนิคการเรียนรู้ อินเทอร์เฟซนี้สามารถขยายได้โดยการเพิ่มอาการใหม่และกำหนดความสัมพันธ์ระหว่างสัญญาณใหม่กับโรคที่เกี่ยวข้อง

  1. ข้อมูลสำมะโน:

ทุกรัฐบาลมีข้อมูลสำมะโนประชากรมากมาย ข้อมูลนี้สามารถนำไปใช้ในการวางแผนบริการสาธารณะที่มีประสิทธิภาพ (การศึกษา สุขภาพ การคมนาคมขนส่ง) ตลอดจนช่วยเหลือธุรกิจสาธารณะ (สำหรับการตั้งโรงงานแห่งใหม่ ห้างสรรพสินค้า และแม้แต่การตลาดสำหรับผลิตภัณฑ์เฉพาะ) การประยุกต์ใช้การทำเหมืองตามกฎของสมาคมและการทำเหมืองข้อมูลมีศักยภาพมหาศาลในการสนับสนุนนโยบายสาธารณะที่ดีและทำให้เกิดการทำงานที่มีประสิทธิภาพของสังคมประชาธิปไตย

  1. ลำดับโปรตีน:

โปรตีนเป็นลำดับที่ประกอบด้วยกรดอะมิโน 20 ชนิด โปรตีนแต่ละชนิดมีโครงสร้าง 3 มิติที่ไม่ซ้ำกัน ซึ่งขึ้นอยู่กับลำดับของกรดอะมิโนเหล่านี้ การเปลี่ยนแปลงลำดับเล็กน้อยอาจทำให้เกิดการเปลี่ยนแปลงโครงสร้างซึ่งอาจเปลี่ยนการทำงานของโปรตีน การพึ่งพาโปรตีนที่ทำงานในลำดับกรดอะมิโนนี้เป็นหัวข้อของการวิจัยที่ยอดเยี่ยม ก่อนหน้านี้คิดว่าซีเควนซ์เหล่านี้เป็นแบบสุ่ม แต่ตอนนี้เชื่อแล้วว่าไม่ใช่ Nitin Gupta, Nitin Mangal, Kamal Tiwari และ Pabitra Mitra ได้ถอดรหัสธรรมชาติของความสัมพันธ์ระหว่างกรดอะมิโนต่างๆ ที่มีอยู่ในโปรตีน ความรู้และความเข้าใจเกี่ยวกับกฎการเชื่อมโยงเหล่านี้จะมีประโยชน์อย่างยิ่งในระหว่างการสังเคราะห์โปรตีนเทียม

ด้วยเหตุนี้ ฉันหวังว่าฉันจะสามารถชี้แจงทุกสิ่งที่คุณจำเป็นต้องรู้เกี่ยวกับการทำเหมืองกฎการเชื่อมโยง
หากคุณมีข้อสงสัย ข้อสงสัย หรือข้อเสนอแนะ - ทิ้งความคิดเห็นไว้ด้านล่าง!

ตัวอย่างการใช้งานการทำเหมืองข้อมูลตามกฎสมาคมมีอะไรบ้าง

เทคนิคในการระบุรูปแบบทั่วไป ความสัมพันธ์ การเชื่อมโยง และโครงสร้างเชิงสาเหตุจากชุดข้อมูลที่จัดเก็บไว้ในฐานข้อมูลต่างๆ รวมถึงฐานข้อมูลเชิงสัมพันธ์ ฐานข้อมูลธุรกรรม และรูปแบบอื่นๆ ของที่เก็บข้อมูล เรียกว่า การขุดกฎการเชื่อมโยง การทำเหมืองตามกฎของสมาคมช่วยให้สามารถค้นหาการเชื่อมต่อและการเชื่อมโยงที่น่าสนใจระหว่างรายการข้อมูลชุดใหญ่ได้ กฎนี้ระบุว่ารายการใดรายการหนึ่งปรากฏในธุรกรรมบ่อยเพียงใด ตัวอย่างที่ดีคือการวิเคราะห์ตามตลาด กฎของสมาคมมีความสำคัญในการทำเหมืองข้อมูลสำหรับการวิเคราะห์และคาดการณ์พฤติกรรมผู้บริโภค การวิเคราะห์ลูกค้า การวิเคราะห์ตะกร้าตลาด การจัดกลุ่มผลิตภัณฑ์ การออกแบบแคตตาล็อก และเค้าโครงร้านค้า ล้วนเป็นตัวอย่างของสถานที่ที่พวกเขาว่าจ้าง ในการสร้างโปรแกรมการเรียนรู้ของเครื่อง โปรแกรมเมอร์ใช้กฎการเชื่อมโยง

เมื่อพูดถึงกฎสมาคมการขุด เหตุใดหลักการ Apriori จึงมีประสิทธิภาพ

สำหรับการขุดชุดไอเท็มบ่อยครั้งและการเรียนรู้กฎการเชื่อมโยง Apriori เป็นอัลกอริธึมฐานข้อมูลเชิงสัมพันธ์ ทำงานโดยการค้นหาแต่ละไอเท็มทั่วไปในฐานข้อมูล จากนั้นขยายไปยังชุดไอเท็มที่ใหญ่ขึ้นและใหญ่ขึ้น ตราบใดที่ชุดไอเท็มเหล่านั้นปรากฏขึ้นบ่อยครั้งเพียงพอ วิธี Apriori มีไว้สำหรับใช้กับฐานข้อมูลธุรกรรม และสร้างกฎการเชื่อมโยงโดยใช้ชุดรายการบ่อยๆ เกณฑ์การเชื่อมโยงเหล่านี้ใช้เพื่อกำหนดจุดแข็งหรือจุดอ่อนของการเชื่อมต่อระหว่างสองสิ่ง เราอาจสามารถลดจำนวนชุดรายการที่เราจำเป็นต้องประเมินโดยใช้แนวคิด Apriori

ข้อเสียของการทำเหมืองกฎสมาคมคืออะไร?

ข้อเสียเปรียบหลักของอัลกอริทึมของกฎการเชื่อมโยงคือการได้กฎที่น่าเบื่อ มีกฎที่ค้นพบจำนวนมาก และประสิทธิภาพของอัลกอริทึมต่ำ อัลกอริธึมที่ใช้มีพารามิเตอร์มากเกินไปสำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญในการทำเหมืองข้อมูล และกฎที่ผลิตขึ้นมากเกินไป ส่วนใหญ่ไม่น่าสนใจและมีความเข้าใจต่ำ