บทช่วยสอนการขุดข้อมูล: การทำเหมืองข้อมูลคืออะไร เทคนิคกระบวนการ
การทำเหมืองข้อมูลคืออะไร?
การทำเหมืองข้อมูล เป็นกระบวนการค้นหารูปแบบที่อาจเป็นประโยชน์จากชุดข้อมูลขนาดใหญ่ เป็นทักษะแบบสหวิทยาการที่ใช้ เรียนรู้เครื่องสถิติ และ AI เพื่อดึงข้อมูลเพื่อประเมินความน่าจะเป็นของเหตุการณ์ในอนาคต ข้อมูลเชิงลึกที่ได้จาก Data Mining ใช้สำหรับการตลาด การตรวจจับการฉ้อโกง การค้นพบทางวิทยาศาสตร์ ฯลฯ
การขุดข้อมูลคือการค้นพบความสัมพันธ์ที่ซ่อนอยู่ ไม่คาดฝัน และไม่เคยมีใครรู้มาก่อนแต่ยังคงถูกต้องระหว่างข้อมูล การขุดข้อมูลเรียกอีกอย่างว่า การค้นพบความรู้ในข้อมูล (KDD) การสกัดความรู้ การวิเคราะห์ข้อมูล/รูปแบบ การเก็บเกี่ยวข้อมูล เป็นต้น
ประเภทของข้อมูล
การขุดข้อมูลสามารถทำได้กับข้อมูลประเภทต่อไปนี้
- ฐานข้อมูลเชิงสัมพันธ์
- คลังข้อมูล
- ฐานข้อมูลขั้นสูงและที่เก็บข้อมูล
- ฐานข้อมูลเชิงวัตถุและเชิงวัตถุสัมพันธ์
- ฐานข้อมูลธุรกรรมและเชิงพื้นที่
- ฐานข้อมูลที่หลากหลายและล้าสมัย
- ฐานข้อมูลมัลติมีเดียและสตรีมมิ่ง
- ฐานข้อมูลข้อความ
- การขุดข้อความและการขุดเว็บ
กระบวนการดำเนินการของการขุดข้อมูล
มาศึกษาขั้นตอนการดำเนินการ Data Mining โดยละเอียดกันดีกว่า
ความเข้าใจทางธุรกิจ
ในระยะนี้ มีการกำหนดเป้าหมายทางธุรกิจและการทำเหมืองข้อมูล
- ขั้นแรก คุณต้องเข้าใจวัตถุประสงค์ทางธุรกิจและลูกค้าก่อน คุณต้องกำหนดสิ่งที่ลูกค้าของคุณต้องการ (ซึ่งหลายครั้งพวกเขาก็ไม่รู้ตัวเองด้วยซ้ำ)
- รวบรวมสถานการณ์การขุดข้อมูลในปัจจุบัน คำนึงถึงทรัพยากร สมมติฐาน ข้อจำกัด และปัจจัยสำคัญอื่นๆ ในการประเมินของคุณ
- ใช้วัตถุประสงค์ทางธุรกิจและสถานการณ์ปัจจุบัน กำหนดเป้าหมายการทำเหมืองข้อมูลของคุณ
- แผนการขุดข้อมูลที่ดีนั้นมีรายละเอียดมากและควรได้รับการพัฒนาเพื่อให้บรรลุเป้าหมายทั้งทางธุรกิจและการขุดข้อมูล
ความเข้าใจข้อมูล
ในระยะนี้ จะมีการดำเนินการตรวจสอบข้อมูลเพื่อตรวจสอบความเหมาะสมกับเป้าหมายการทำเหมืองข้อมูลหรือไม่
- ขั้นแรก ข้อมูลจะถูกรวบรวมจากแหล่งข้อมูลหลายแหล่งที่มีอยู่ในองค์กร
- แหล่งข้อมูลเหล่านี้อาจรวมถึงฐานข้อมูลหลายฐาน ตัวกรองแบบแบน หรือคิวบ์ข้อมูล มีปัญหา เช่น การจับคู่วัตถุและการรวมโครงร่าง ซึ่งอาจเกิดขึ้นระหว่างกระบวนการรวมข้อมูล เป็นกระบวนการที่ค่อนข้างซับซ้อนและยุ่งยาก เนื่องจากข้อมูลจากแหล่งต่างๆ ไม่น่าจะตรงกันได้ง่าย ตัวอย่างเช่น ตาราง A มีเอนทิตีที่มีชื่อว่า cust_no ในขณะที่ตาราง B อีกตารางหนึ่งมีเอนทิตีที่มีชื่อว่า cust-id
- ดังนั้นจึงเป็นเรื่องยากมากที่จะให้แน่ใจว่าวัตถุทั้งสองนี้อ้างอิงถึงค่าเดียวกันหรือไม่ ในที่นี้ ควรใช้ข้อมูลเมตาเพื่อลดข้อผิดพลาดในกระบวนการรวมข้อมูล
- ขั้นต่อไปคือการค้นหาคุณสมบัติของข้อมูลที่ได้มา วิธีที่ดีในการสำรวจข้อมูลคือการตอบคำถามการทำเหมืองข้อมูล (ตัดสินใจในระยะธุรกิจ) โดยใช้เครื่องมือการสืบค้น การรายงาน และการแสดงภาพ
- จากผลลัพธ์ของการสืบค้น ควรตรวจสอบคุณภาพของข้อมูล ข้อมูลสูญหายหากควรได้รับ
การเตรียมข้อมูล
ในระยะนี้ ข้อมูลจะพร้อมสำหรับการผลิต
กระบวนการเตรียมข้อมูลใช้เวลาประมาณ 90% ของเวลาของโครงการ
ข้อมูลจากแหล่งต่างๆ ควรเลือก ทำความสะอาด เปลี่ยนแปลง จัดรูปแบบ ไม่ระบุชื่อ และสร้าง (หากจำเป็น)
การล้างข้อมูลเป็นกระบวนการในการ "ล้าง" ข้อมูลโดยการปรับข้อมูลที่มีเสียงดังให้เรียบและเติมค่าที่หายไป
ตัวอย่างเช่น สำหรับโปรไฟล์ข้อมูลประชากรของลูกค้า ข้อมูลอายุหายไป ข้อมูลไม่สมบูรณ์และควรกรอก ในบางกรณีอาจมีข้อมูลผิดปกติ ตัวอย่างเช่น อายุมีค่า 300 ข้อมูลอาจไม่สอดคล้องกัน ตัวอย่างเช่น ชื่อของลูกค้าจะแตกต่างกันในตารางที่ต่างกัน
การดำเนินการแปลงข้อมูลจะเปลี่ยนแปลงข้อมูลเพื่อให้มีประโยชน์ในการขุดข้อมูล การแปลงต่อไปนี้สามารถนำไปใช้ได้
การแปลงข้อมูล
การดำเนินการแปลงข้อมูลจะมีส่วนช่วยให้กระบวนการขุดประสบความสำเร็จ
การปรับให้เรียบ: ช่วยขจัดเสียงรบกวนออกจากข้อมูล
การรวม: การดำเนินการสรุปหรือรวมข้อมูลจะถูกนำไปใช้กับข้อมูล กล่าวคือ ข้อมูลยอดขายรายสัปดาห์จะถูกรวบรวมเพื่อคำนวณยอดรวมรายเดือนและรายปี
ลักษณะทั่วไป: ในขั้นตอนนี้ ข้อมูลระดับต่ำจะถูกแทนที่ด้วยแนวคิดระดับสูงด้วยความช่วยเหลือของลำดับชั้นแนวคิด ตัวอย่างเช่น เมืองจะถูกแทนที่ด้วยเทศมณฑล
ปกติ: การทำให้เป็นมาตรฐานจะดำเนินการเมื่อมีการขยายขนาดข้อมูลแอ็ตทริบิวต์หรือลดขนาดลง ตัวอย่าง: ข้อมูลควรอยู่ในช่วง -2.0 ถึง 2.0 หลังการทำให้เป็นมาตรฐาน
การก่อสร้างคุณสมบัติ: คุณลักษณะเหล่านี้ถูกสร้างขึ้นและรวมชุดคุณลักษณะที่กำหนดซึ่งมีประโยชน์สำหรับการขุดข้อมูล
ผลลัพธ์ของกระบวนการนี้คือชุดข้อมูลสุดท้ายที่สามารถนำไปใช้ในการสร้างแบบจำลองได้
การสร้างแบบจำลอง
ในระยะนี้ แบบจำลองทางคณิตศาสตร์จะถูกนำมาใช้เพื่อกำหนดรูปแบบข้อมูล
- ตามวัตถุประสงค์ทางธุรกิจ ควรเลือกเทคนิคการสร้างแบบจำลองที่เหมาะสมสำหรับชุดข้อมูลที่เตรียมไว้
- สร้างสถานการณ์จำลองเพื่อทดสอบการตรวจสอบคุณภาพและความถูกต้องของแบบจำลอง
- รันโมเดลบนชุดข้อมูลที่เตรียมไว้
- ผลลัพธ์ควรได้รับการประเมินโดยผู้มีส่วนได้ส่วนเสียทั้งหมดเพื่อให้แน่ใจว่าแบบจำลองนั้นสามารถบรรลุวัตถุประสงค์การขุดข้อมูลได้
การประเมินผล
ในระยะนี้ รูปแบบที่ระบุจะได้รับการประเมินตามวัตถุประสงค์ทางธุรกิจ
- ผลลัพธ์ที่สร้างโดยแบบจำลองการขุดข้อมูลควรได้รับการประเมินตามวัตถุประสงค์ทางธุรกิจ
- การทำความเข้าใจธุรกิจเป็นกระบวนการที่ต้องทำซ้ำๆ ในความเป็นจริง แม้จะเข้าใจความต้องการทางธุรกิจใหม่ๆ อาจเพิ่มขึ้นเนื่องจากการขุดข้อมูล
- การตัดสินใจดำเนินการหรือไม่ดำเนินการเพื่อย้ายโมเดลในขั้นตอนการปรับใช้
การใช้งาน
ในระยะการปรับใช้ คุณจะส่งการค้นพบการขุดข้อมูลของคุณไปยังการดำเนินงานทางธุรกิจในแต่ละวัน
- ความรู้หรือข้อมูลที่ค้นพบในระหว่างกระบวนการขุดข้อมูลควรทำให้ง่ายต่อการเข้าใจสำหรับผู้มีส่วนได้ส่วนเสียที่ไม่ใช่ด้านเทคนิค
- มีการสร้างแผนการปรับใช้โดยละเอียดสำหรับการจัดส่ง การบำรุงรักษา และการตรวจสอบการค้นพบการขุดข้อมูล
- รายงานโครงการขั้นสุดท้ายจะถูกสร้างขึ้นพร้อมกับบทเรียนที่ได้เรียนรู้และประสบการณ์หลักในระหว่างโครงการ ซึ่งจะช่วยปรับปรุงนโยบายธุรกิจขององค์กร
เทคนิคการขุดข้อมูล
1. การจำแนกประเภท
การวิเคราะห์นี้ใช้เพื่อดึงข้อมูลที่สำคัญและเกี่ยวข้องเกี่ยวกับข้อมูลและข้อมูลเมตา วิธีการขุดข้อมูลนี้ช่วยในการจำแนกข้อมูลในคลาสต่างๆ
2. Clusterไอเอ็นจี
Clusterการวิเคราะห์เป็นเทคนิคการทำเหมืองข้อมูลเพื่อระบุข้อมูลที่เหมือนกัน กระบวนการนี้ช่วยให้เข้าใจความแตกต่างและความคล้ายคลึงระหว่างข้อมูล
3. การถดถอย
การวิเคราะห์การถดถอยเป็นวิธีการขุดข้อมูลเพื่อระบุและวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร ใช้เพื่อระบุความน่าจะเป็นของตัวแปรเฉพาะเมื่อมีตัวแปรอื่นอยู่ด้วย
4. กฎสมาคม
เทคนิคการทำเหมืองข้อมูลนี้ช่วยในการค้นหาการเชื่อมโยงระหว่างสองรายการขึ้นไป ค้นพบรูปแบบที่ซ่อนอยู่ในชุดข้อมูล
5. การตรวจจับภายนอก
เทคนิคการขุดข้อมูลประเภทนี้หมายถึงการสังเกตรายการข้อมูลในชุดข้อมูลที่ไม่ตรงกับรูปแบบที่คาดหวังหรือพฤติกรรมที่คาดหวัง เทคนิคนี้สามารถใช้ได้ในหลายโดเมน เช่น การบุกรุก การตรวจจับ การฉ้อโกง หรือการตรวจจับข้อผิดพลาด เป็นต้น การตรวจจับภายนอกเรียกอีกอย่างว่าการวิเคราะห์ค่าผิดปกติหรือการขุดค่าค่าผิดปกติ
6. รูปแบบตามลำดับ
เทคนิคการขุดข้อมูลนี้ช่วยในการค้นพบหรือระบุรูปแบบหรือแนวโน้มที่คล้ายคลึงกันในข้อมูลธุรกรรมในช่วงระยะเวลาหนึ่ง
7. การทำนาย
การทำนายได้ใช้การผสมผสานเทคนิคอื่นๆ ของการขุดข้อมูล เช่น แนวโน้ม รูปแบบลำดับ การจัดกลุ่ม การจำแนกประเภท ฯลฯ โดยวิเคราะห์เหตุการณ์หรืออินสแตนซ์ในอดีตในลำดับที่ถูกต้องเพื่อทำนายเหตุการณ์ในอนาคต
ความท้าทายในการใช้งานเหมืองข้อมูล
- ผู้เชี่ยวชาญที่มีทักษะจำเป็นในการกำหนดแบบสอบถามการขุดข้อมูล
- การติดตั้งมากเกินไป: เนื่องจากฐานข้อมูลการฝึกอบรมมีขนาดเล็ก โมเดลอาจไม่เหมาะกับสถานะในอนาคต
- การทำเหมืองข้อมูลจำเป็นต้องมีฐานข้อมูลขนาดใหญ่ซึ่งบางครั้งก็ยากต่อการจัดการ
- การดำเนินธุรกิจอาจจำเป็นต้องได้รับการแก้ไขเพื่อกำหนดว่าจะใช้ข้อมูลที่เปิดเผยหรือไม่
- หากชุดข้อมูลไม่หลากหลาย ผลการขุดข้อมูลอาจไม่แม่นยำ
- ข้อมูลการบูรณาการที่จำเป็นจากฐานข้อมูลที่หลากหลายและระบบข้อมูลทั่วโลกอาจมีความซับซ้อน
ตัวอย่างการทำเหมืองข้อมูล
ในหลักสูตร Data Mining นี้ เราจะมาเรียนรู้เกี่ยวกับ Data Mining ด้วยตัวอย่าง:
1 ตัวอย่าง:
พิจารณาหัวหน้าฝ่ายการตลาดด้านบริการโทรคมนาคมที่ต้องการเพิ่มรายได้จากบริการทางไกล สำหรับ ROI ที่สูงจากความพยายามในการขายและการตลาด การสร้างโปรไฟล์ลูกค้าเป็นสิ่งสำคัญ เขามีแหล่งรวมข้อมูลลูกค้ามากมาย เช่น อายุ เพศ รายได้ ประวัติเครดิต ฯลฯ แต่มันเป็นไปไม่ได้ที่จะระบุลักษณะของผู้ที่ชอบการโทรทางไกลด้วยการวิเคราะห์ด้วยตนเอง การใช้เทคนิคการขุดข้อมูล เขาอาจค้นพบรูปแบบระหว่างผู้ใช้โทรศัพท์ทางไกลระดับสูงและคุณลักษณะของพวกเขา
ตัวอย่างเช่น เขาอาจเรียนรู้ว่าลูกค้าที่ดีที่สุดของเขาคือผู้หญิงที่แต่งงานแล้วอายุระหว่าง 45 ถึง 54 ปี ซึ่งสร้างรายได้มากกว่า 80,000 ดอลลาร์ต่อปี ความพยายามทางการตลาดสามารถกำหนดเป้าหมายไปยังกลุ่มประชากรดังกล่าวได้
2 ตัวอย่าง:
ธนาคารต้องการค้นหาวิธีใหม่ๆ เพื่อเพิ่มรายได้จากการดำเนินการบัตรเครดิต พวกเขาต้องการตรวจสอบว่าการใช้งานจะเพิ่มขึ้นเป็นสองเท่าหรือไม่หากค่าธรรมเนียมลดลงครึ่งหนึ่ง
ธนาคารมีบันทึกหลายปีเกี่ยวกับยอดคงเหลือบัตรเครดิตโดยเฉลี่ย จำนวนเงินที่ชำระ การใช้วงเงินเครดิต และพารามิเตอร์หลักอื่นๆ พวกเขาสร้างแบบจำลองเพื่อตรวจสอบผลกระทบของนโยบายธุรกิจใหม่ที่เสนอ ผลลัพธ์ข้อมูลแสดงให้เห็นว่าการลดค่าธรรมเนียมลงครึ่งหนึ่งสำหรับฐานลูกค้าเป้าหมายสามารถเพิ่มรายได้ได้ 10 ล้านดอลลาร์
เครื่องมือขุดข้อมูล
ต่อไปนี้เป็น 2 รายการที่ได้รับความนิยม เครื่องมือขุดข้อมูล ใช้กันอย่างแพร่หลายในอุตสาหกรรม
R-ภาษา:
ภาษาอาร์ เป็นเครื่องมือโอเพ่นซอร์สสำหรับการคำนวณเชิงสถิติและกราฟิก R มีการทดสอบทางสถิติแบบคลาสสิก การวิเคราะห์อนุกรมเวลา การจำแนกประเภท และเทคนิคกราฟิกที่หลากหลาย มีระบบจัดการและจัดเก็บข้อมูลที่มีประสิทธิภาพ
Oracle การทำเหมืองข้อมูล:
Oracle การทำเหมืองข้อมูล ที่นิยมเรียกกันว่า ODM เป็นโมดูลของ Oracle ฐานข้อมูลการวิเคราะห์ขั้นสูง เครื่องมือขุดข้อมูลนี้ช่วยให้นักวิเคราะห์ข้อมูลสามารถสร้างข้อมูลเชิงลึกโดยละเอียดและคาดการณ์ได้ ช่วยคาดการณ์พฤติกรรมของลูกค้า พัฒนาโปรไฟล์ลูกค้า ระบุโอกาสในการขายต่อเนื่อง
ประโยชน์ของการขุดข้อมูล
- เทคนิคการทำเหมืองข้อมูลช่วยให้บริษัทได้รับข้อมูลตามองค์ความรู้
- การขุดข้อมูลช่วยให้องค์กรสามารถปรับเปลี่ยนการดำเนินงานและการผลิตให้เกิดผลกำไรได้
- การทำเหมืองข้อมูลเป็นโซลูชันที่คุ้มค่าและมีประสิทธิภาพเมื่อเปรียบเทียบกับแอปพลิเคชันข้อมูลทางสถิติอื่นๆ
- การทำเหมืองข้อมูลช่วยในกระบวนการตัดสินใจ
- อำนวยความสะดวกในการทำนายแนวโน้มและพฤติกรรมอัตโนมัติตลอดจนการค้นพบรูปแบบที่ซ่อนอยู่โดยอัตโนมัติ
- สามารถนำไปใช้ในระบบใหม่และแพลตฟอร์มที่มีอยู่ได้
- เป็นกระบวนการที่รวดเร็วซึ่งทำให้ผู้ใช้สามารถวิเคราะห์ข้อมูลจำนวนมากได้โดยใช้เวลาน้อยลง
ข้อเสียของการขุดข้อมูล
- มีโอกาสที่บริษัทอาจขายข้อมูลที่เป็นประโยชน์ของลูกค้าให้กับบริษัทอื่นเพื่อเงิน ตัวอย่างเช่น อเมริกัน เอ็กซ์เพรส ขายการซื้อบัตรเครดิตของลูกค้าของตนให้กับบริษัทอื่น
- ซอฟต์แวร์วิเคราะห์การขุดข้อมูลจำนวนมากใช้งานยากและต้องมีการฝึกอบรมล่วงหน้าจึงจะใช้งานได้
- เครื่องมือขุดข้อมูลต่างๆ ทำงานในลักษณะที่แตกต่างกันเนื่องจากอัลกอริทึมที่ใช้ในการออกแบบแตกต่างกัน ดังนั้น การเลือกเครื่องมือขุดข้อมูลที่ถูกต้องจึงเป็นงานที่ยากมาก
- เทคนิคการทำเหมืองข้อมูลนั้นไม่ถูกต้อง และอาจทำให้เกิดผลกระทบร้ายแรงได้ในบางสภาวะ
แอปพลิเคชั่นการขุดข้อมูล
การใช้งาน | การใช้ |
---|---|
คมนาคม | เทคนิคการทำเหมืองข้อมูลใช้ในภาคการสื่อสารเพื่อคาดการณ์พฤติกรรมของลูกค้าเพื่อเสนอแคมเปญที่ตรงเป้าหมายและเกี่ยวข้องสูง |
ประกันภัย | การขุดข้อมูลช่วยให้บริษัทประกันภัยกำหนดราคาผลิตภัณฑ์ให้มีกำไรและส่งเสริมข้อเสนอใหม่ๆ ให้กับลูกค้าใหม่หรือลูกค้าปัจจุบันของตน |
การศึกษา | การทำเหมืองข้อมูลมีประโยชน์ต่อนักการศึกษาในการเข้าถึงข้อมูลของนักเรียน คาดการณ์ระดับความสำเร็จ และค้นหานักเรียนหรือกลุ่มนักเรียนที่ต้องการความสนใจเป็นพิเศษ เช่น นักเรียนที่อ่อนวิชาคณิตศาสตร์ |
การผลิต | ด้วยความช่วยเหลือของผู้ผลิตการทำเหมืองข้อมูลสามารถคาดการณ์การสึกหรอของสินทรัพย์การผลิตได้ พวกเขาสามารถคาดหวังการบำรุงรักษาซึ่งจะช่วยลดเวลาหยุดทำงานให้เหลือน้อยที่สุด |
การธนาคาร | การทำเหมืองข้อมูลช่วยให้ภาคการเงินเข้าใจถึงความเสี่ยงด้านตลาดและจัดการการปฏิบัติตามกฎระเบียบ ช่วยให้ธนาคารสามารถระบุผู้ที่ผิดนัดชำระหนี้ได้ เพื่อตัดสินใจว่าจะออกบัตรเครดิต สินเชื่อ ฯลฯ หรือไม่ |
ขายปลีก | เทคนิคการทำเหมืองข้อมูลช่วยให้ร้านค้าปลีกและร้านขายของชำระบุและจัดเรียงสินค้าที่ขายได้มากที่สุดในตำแหน่งที่เอาใจใส่มากที่สุด ช่วยให้เจ้าของร้านค้าได้รับข้อเสนอที่กระตุ้นให้ลูกค้าเพิ่มการใช้จ่าย |
ผู้ให้บริการ | ผู้ให้บริการ เช่น อุตสาหกรรมโทรศัพท์มือถือและสาธารณูปโภคใช้ Data Mining เพื่อคาดการณ์สาเหตุที่ลูกค้าออกจากบริษัท โดยจะวิเคราะห์รายละเอียดการเรียกเก็บเงิน การโต้ตอบกับฝ่ายบริการลูกค้า การร้องเรียนที่ส่งถึงบริษัท เพื่อกำหนดคะแนนความน่าจะเป็นให้กับลูกค้าแต่ละราย และเสนอสิ่งจูงใจ |
E-Commerce | เว็บไซต์อีคอมเมิร์ซใช้ Data Mining เพื่อเสนอการขายต่อเนื่องและการขายต่อยอดผ่านเว็บไซต์ของพวกเขา หนึ่งในชื่อที่มีชื่อเสียงที่สุดคือ Amazonซึ่งใช้เทคนิคการขุดข้อมูลเพื่อดึงดูดลูกค้าเข้าสู่ร้านอีคอมเมิร์ซมากขึ้น |
ซูเปอร์มาร์เก็ต | การทำเหมืองข้อมูลช่วยให้กฎเกณฑ์ของซูเปอร์มาร์เก็ตสามารถคาดการณ์ได้ว่าผู้ซื้อจะคาดหวังหรือไม่ ด้วยการประเมินรูปแบบการซื้อ พวกเขาสามารถค้นหาลูกค้าผู้หญิงที่มีแนวโน้มว่าจะตั้งครรภ์มากที่สุด พวกเขาสามารถเริ่มกำหนดเป้าหมายผลิตภัณฑ์ต่างๆ เช่น แป้งเด็ก ร้านขายเด็ก ผ้าอ้อม และอื่นๆ |
การสืบสวนอาชญากรรม | การทำเหมืองข้อมูลช่วยให้หน่วยงานสืบสวนอาชญากรรมจัดกำลังเจ้าหน้าที่ตำรวจ (อาชญากรรมมีแนวโน้มที่จะเกิดขึ้นที่ไหนและเมื่อใด) ใครบ้างที่จะตรวจค้นที่จุดผ่านแดน ฯลฯ |
ชีวสารสนเทศศาสตร์ | การทำเหมืองข้อมูลช่วยในการขุดข้อมูลทางชีววิทยาจากชุดข้อมูลขนาดใหญ่ที่รวบรวมในด้านชีววิทยาและการแพทย์ |
สรุป
- คำจำกัดความของ Data Mining: Data Mining คือทั้งหมดที่เกี่ยวกับการอธิบายอดีตและการทำนายอนาคตผ่าน การวิเคราะห์ข้อมูล.
- การทำเหมืองข้อมูลช่วยดึงข้อมูลจากชุดข้อมูลขนาดใหญ่ เป็นกระบวนการขุดหาความรู้จากข้อมูล
- กระบวนการทำเหมืองข้อมูลประกอบด้วยความเข้าใจทางธุรกิจ ความเข้าใจข้อมูล การเตรียมข้อมูล การสร้างแบบจำลอง วิวัฒนาการ การปรับใช้
- เทคนิคการขุดข้อมูลที่สำคัญ ได้แก่ การจำแนกประเภท การจัดกลุ่ม การถดถอย กฎการเชื่อมโยง การตรวจจับภายนอก รูปแบบลำดับ และการทำนาย
- ภาษา R ที่ Oracle การทำเหมืองข้อมูลเป็นเครื่องมือและเทคนิคการทำเหมืองข้อมูลที่โดดเด่น
- เทคนิคการทำเหมืองข้อมูลช่วยให้บริษัทได้รับข้อมูลตามองค์ความรู้
- ข้อเสียเปรียบหลักของการขุดข้อมูลคือซอฟต์แวร์วิเคราะห์หลายตัวใช้งานยากและต้องมีการฝึกอบรมล่วงหน้าจึงจะใช้งานได้
- การทำเหมืองข้อมูลถูกนำมาใช้ในอุตสาหกรรมที่หลากหลาย เช่น การสื่อสาร การประกันภัย การศึกษา การผลิต การธนาคาร การค้าปลีก ผู้ให้บริการ อีคอมเมิร์ซ ซูเปอร์มาร์เก็ต ชีวสารสนเทศศาสตร์