คำถามและคำตอบสัมภาษณ์วิทยาศาสตร์ข้อมูล 50 อันดับแรก (PDF)
ต่อไปนี้เป็นคำถามและคำตอบในการสัมภาษณ์ Data Science สำหรับผู้สมัครใหม่และมีประสบการณ์เพื่อให้ได้งานในฝัน
คำถามสัมภาษณ์วิทยาศาสตร์ข้อมูลสำหรับนักศึกษาใหม่
1. วิทยาศาสตร์ข้อมูลคืออะไร?
Data Science คือสาขาการศึกษาที่เกี่ยวข้องกับการดึงข้อมูลเชิงลึกจากข้อมูลจำนวนมหาศาลโดยใช้วิธีการทางวิทยาศาสตร์ อัลกอริทึม และกระบวนการต่างๆ ช่วยให้คุณค้นพบรูปแบบที่ซ่อนอยู่จากข้อมูลดิบ คำว่า Data Science เกิดขึ้นเนื่องจากวิวัฒนาการของสถิติทางคณิตศาสตร์ การวิเคราะห์ข้อมูล และข้อมูลขนาดใหญ่
2. อะไรคือความแตกต่างระหว่างวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง?
ข้อมูลวิทยาศาสตร์ เป็นการผสมผสานระหว่างอัลกอริทึม เครื่องมือ และเทคนิคการเรียนรู้ของเครื่อง ซึ่งช่วยให้คุณค้นหารูปแบบที่ซ่อนอยู่ทั่วไปจากข้อมูลดิบที่กำหนดให้ ในขณะที่การเรียนรู้ของเครื่องเป็นสาขาหนึ่งของวิทยาการคอมพิวเตอร์ ซึ่งเกี่ยวข้องกับการเขียนโปรแกรมระบบเพื่อเรียนรู้และปรับปรุงโดยอัตโนมัติตามประสบการณ์
3. ตั้งชื่ออคติสามประเภทที่อาจเกิดขึ้นระหว่างการสุ่มตัวอย่าง
ในกระบวนการสุ่มตัวอย่างมีความเอนเอียงอยู่สามประเภท ได้แก่:
- เลือกอคติ
- ภายใต้อคติความคุ้มครอง
- อคติผู้รอดชีวิต
4. อภิปรายอัลกอริทึมแผนผังการตัดสินใจ
แผนผังการตัดสินใจเป็นอัลกอริทึมแมชชีนเลิร์นนิงที่ได้รับการดูแลยอดนิยม ส่วนใหญ่จะใช้สำหรับการถดถอยและการจำแนกประเภท อนุญาตให้แบ่งชุดข้อมูลออกเป็นชุดย่อยที่มีขนาดเล็กลง แผนผังการตัดสินใจสามารถจัดการข้อมูลทั้งเชิงหมวดหมู่และเชิงตัวเลขได้
5. ความน่าจะเป็นและความน่าจะเป็นก่อนหน้าคืออะไร?
ความน่าจะเป็นก่อนหน้าคือสัดส่วนของตัวแปรตามในชุดข้อมูล ในขณะที่ความน่าจะเป็นคือความน่าจะเป็นที่จะจำแนกผู้สังเกตการณ์ที่กำหนดต่อหน้าตัวแปรอื่น
6. อธิบายระบบผู้แนะนำ?
เป็นคลาสย่อยของเทคนิคการกรองข้อมูล ช่วยให้คุณคาดการณ์การตั้งค่าหรือการให้คะแนนที่ผู้ใช้มีแนวโน้มที่จะให้กับผลิตภัณฑ์
7. บอกข้อเสียสามประการของการใช้แบบจำลองเชิงเส้น
ข้อเสียสามประการของโมเดลเชิงเส้นคือ:
- การสันนิษฐานความเป็นเส้นตรงของข้อผิดพลาด
- คุณไม่สามารถใช้แบบจำลองนี้กับผลลัพธ์แบบไบนารีหรือแบบนับได้
- มีปัญหาเรื่อง overfitting มากมายที่ไม่สามารถแก้ไขได้
8. เหตุใดคุณจึงต้องทำการสุ่มตัวอย่างใหม่?
การสุ่มตัวอย่างใหม่จะทำในกรณีต่อไปนี้:
- การประมาณความแม่นยำของสถิติตัวอย่างโดยการวาดแบบสุ่มโดยแทนที่จากชุดของจุดข้อมูลหรือใช้เป็นชุดย่อยของข้อมูลที่เข้าถึงได้
- การแทนที่ป้ายกำกับบนจุดข้อมูลเมื่อทำการทดสอบที่จำเป็น
- การตรวจสอบแบบจำลองโดยใช้เซ็ตย่อยแบบสุ่ม
9. รายชื่อห้องสมุดใน Python ใช้สำหรับการวิเคราะห์ข้อมูลและการคำนวณทางวิทยาศาสตร์
10. การวิเคราะห์กำลังคืออะไร?
การวิเคราะห์กำลังเป็นส่วนสำคัญของการออกแบบการทดลอง ช่วยให้คุณกำหนดขนาดตัวอย่างที่ต้องการเพื่อค้นหาผลกระทบของขนาดที่กำหนดจากสาเหตุที่มีระดับความมั่นใจที่เฉพาะเจาะจง นอกจากนี้ยังช่วยให้คุณสามารถปรับใช้ความน่าจะเป็นเฉพาะในข้อจำกัดขนาดตัวอย่างได้
11. อธิบายการกรองแบบร่วมมือกัน
การกรองการทำงานร่วมกันใช้เพื่อค้นหารูปแบบที่ถูกต้องโดยการทำงานร่วมกันของมุมมอง แหล่งข้อมูลหลายแหล่ง และเอเจนต์ต่างๆ
12. อคติคืออะไร?
อคติเป็นข้อผิดพลาดที่เกิดขึ้นในโมเดลของคุณ เนื่องจากอัลกอริทึมการเรียนรู้ของเครื่องใช้งานง่ายเกินไป” มันสามารถนำไปสู่การ underfitting
13. อภิปราย 'ไร้เดียงสา' ในอัลกอริทึม Naive Bayes หรือไม่
แบบจำลองอัลกอริทึม Naive Bayes มีพื้นฐานมาจากทฤษฎีบท Bayes มันอธิบายความน่าจะเป็นของเหตุการณ์ ขึ้นอยู่กับความรู้เดิมเกี่ยวกับเงื่อนไขที่อาจเกี่ยวข้องกับเหตุการณ์นั้น ๆ
14. การถดถอยเชิงเส้นคืออะไร?
การถดถอยเชิงเส้นเป็นวิธีการเขียนโปรแกรมทางสถิติโดยทำนายคะแนนของตัวแปร 'A' จากคะแนนของตัวแปรตัวที่สอง 'B' B เรียกว่าตัวแปรทำนายและ A เป็นตัวแปรเกณฑ์
15. จงระบุความแตกต่างระหว่างค่าคาดหวังและค่าเฉลี่ย
มีความแตกต่างไม่มาก แต่ทั้งสองคำนี้ใช้ในบริบทที่ต่างกัน โดยทั่วไปแล้วค่าเฉลี่ยจะถูกอ้างถึงเมื่อคุณกำลังพูดถึงการแจกแจงความน่าจะเป็น ในขณะที่ค่าที่คาดหวังจะถูกอ้างถึงในบริบทของตัวแปรสุ่ม
16. จุดมุ่งหมายของการดำเนินการทดสอบ A/B คืออะไร?
การทดสอบ AB ใช้เพื่อดำเนินการทดสอบแบบสุ่มด้วยตัวแปรสองตัว ได้แก่ A และ B เป้าหมายของวิธีการทดสอบนี้คือการค้นหาการเปลี่ยนแปลงในหน้าเว็บเพื่อเพิ่มหรือเพิ่มผลลัพธ์ของกลยุทธ์
17. การเรียนรู้ทั้งมวลคืออะไร?
วงดนตรีนี้เป็นวิธีการผสมผสานกลุ่มผู้เรียนที่หลากหลายเข้าด้วยกันเพื่อพัฒนาเสถียรภาพและพลังการทำนายของแบบจำลองแบบด้นสด วิธีการเรียนรู้ Ensemble สองประเภทคือ:
การห่อ
วิธีการบรรจุถุงช่วยให้คุณนำผู้เรียนที่คล้ายกันไปใช้กับประชากรกลุ่มตัวอย่างจำนวนไม่มาก ช่วยให้คุณคาดการณ์ได้ใกล้ยิ่งขึ้น
การส่งเสริม
Boosting เป็นวิธีการแบบวนซ้ำซึ่งช่วยให้คุณสามารถปรับน้ำหนักของการสังเกตโดยขึ้นอยู่กับการจำแนกประเภทครั้งสุดท้ายได้ Boosting จะลดข้อผิดพลาดของอคติและช่วยให้คุณสร้างแบบจำลองเชิงทำนายที่แข็งแกร่งได้
18. อธิบายค่าลักษณะเฉพาะและค่าลักษณะเฉพาะ
Eigenvector มีไว้สำหรับทำความเข้าใจการแปลงเชิงเส้น นักวิทยาศาสตร์ข้อมูลจำเป็นต้องคำนวณเวกเตอร์ลักษณะเฉพาะสำหรับเมทริกซ์ความแปรปรวนร่วมหรือความสัมพันธ์ ค่าลักษณะเฉพาะคือทิศทางควบคู่ไปกับการใช้การแปลงเชิงเส้นเฉพาะโดยการบีบอัด การพลิก หรือการยืด
19. กำหนดคำว่า cross-validation
การตรวจสอบความถูกต้องข้ามเป็นเทคนิคการตรวจสอบความถูกต้องสำหรับการประเมินว่าผลลัพธ์ของการวิเคราะห์ทางสถิติจะสรุปเป็นภาพรวมสำหรับชุดข้อมูลอิสระอย่างไร วิธีการนี้ใช้ในพื้นหลังที่มีการพยากรณ์วัตถุประสงค์ และจำเป็นต้องประเมินว่าแบบจำลองจะบรรลุผลสำเร็จได้แม่นยำเพียงใด
20. อธิบายขั้นตอนสำหรับโครงการวิเคราะห์ข้อมูล
ต่อไปนี้เป็นขั้นตอนสำคัญที่เกี่ยวข้องกับโครงการวิเคราะห์:
- เข้าใจปัญหาทางธุรกิจ
- สำรวจข้อมูลและศึกษาอย่างรอบคอบ
- เตรียมข้อมูลสำหรับการสร้างแบบจำลองโดยการค้นหาค่าที่หายไปและการแปลงตัวแปร
- เริ่มรันโมเดลและวิเคราะห์ผลลัพธ์ Big Data
- ตรวจสอบโมเดลด้วยชุดข้อมูลใหม่
- ใช้แบบจำลองและติดตามผลลัพธ์เพื่อวิเคราะห์ประสิทธิภาพของแบบจำลองในช่วงเวลาที่กำหนด
21. อภิปรายโครงข่ายประสาทเทียม
เครือข่ายประสาทเทียม (ANN) คือชุดอัลกอริทึมพิเศษที่ปฏิวัติการเรียนรู้ของเครื่องจักร ช่วยให้คุณปรับตัวตามอินพุตที่เปลี่ยนแปลงไป ดังนั้นเครือข่ายจึงสร้างผลลัพธ์ที่ดีที่สุดโดยไม่ต้องออกแบบเกณฑ์เอาต์พุตใหม่
22. การขยายพันธุ์กลับคืออะไร?
การขยายพันธุ์ด้านหลังเป็นหัวใจสำคัญของการฝึกโครงข่ายประสาทเทียม เป็นวิธีการปรับน้ำหนักของโครงข่ายประสาทเทียมโดยขึ้นอยู่กับอัตราข้อผิดพลาดที่ได้รับในยุคก่อนหน้า การปรับแต่งอย่างเหมาะสมจะช่วยลดอัตราข้อผิดพลาดและทำให้โมเดลมีความน่าเชื่อถือโดยการเพิ่มลักษณะทั่วไป
23. ป่าสุ่มคืออะไร?
ฟอเรสต์สุ่มเป็นวิธีการเรียนรู้ของเครื่องซึ่งช่วยให้คุณทำงานการถดถอยและการจัดหมวดหมู่ทุกประเภท นอกจากนี้ยังใช้สำหรับการรักษาค่าที่หายไปและค่าผิดปกติ
24. การมีอคติในการคัดเลือกมีความสำคัญอย่างไร?
อคติในการเลือกเกิดขึ้นเมื่อไม่มีการสุ่มแบบเจาะจงเกิดขึ้นขณะเลือกบุคคลหรือกลุ่มหรือข้อมูลที่จะวิเคราะห์ โดยแนะนำว่ากลุ่มตัวอย่างที่ให้มาไม่ได้เป็นตัวแทนของประชากรที่ต้องการวิเคราะห์อย่างแน่นอน
25. วิธีการจัดกลุ่มแบบ K-means คืออะไร
การจัดกลุ่มแบบ K-means เป็นวิธีการเรียนรู้แบบไม่มีผู้ดูแลที่สำคัญ เป็นเทคนิคการจัดกลุ่มข้อมูลโดยใช้กลุ่มข้อมูลชุดหนึ่งที่เรียกว่า K clusters ซึ่งใช้สำหรับการจัดกลุ่มเพื่อค้นหาความคล้ายคลึงกันของข้อมูล
คำถามสัมภาษณ์นักวิทยาศาสตร์ข้อมูลสำหรับผู้มีประสบการณ์
26. อธิบายความแตกต่างระหว่าง Data Science และ Data Analytics
นักวิทยาศาสตร์ข้อมูลจำเป็นต้องแบ่งข้อมูลเพื่อดึงข้อมูลเชิงลึกอันมีค่าที่นักวิเคราะห์ข้อมูลสามารถนำไปใช้กับสถานการณ์ทางธุรกิจในโลกแห่งความเป็นจริงได้ ความแตกต่างที่สำคัญระหว่างทั้งสองคือนักวิทยาศาสตร์ข้อมูลมีความรู้ทางเทคนิคมากกว่านักวิเคราะห์ธุรกิจ นอกจากนี้ พวกเขาไม่จำเป็นต้องเข้าใจธุรกิจที่จำเป็นสำหรับการแสดงข้อมูลเป็นภาพ
27. อธิบายค่า p?
เมื่อคุณทำการทดสอบสมมติฐานในสถิติ ค่า p-value จะช่วยให้คุณระบุจุดแข็งของผลลัพธ์ได้ เป็นตัวเลขระหว่าง 0 ถึง 1 ขึ้นอยู่กับค่า จะช่วยให้คุณระบุจุดแข็งของผลลัพธ์ที่ต้องการได้
28. กำหนดคำว่าการเรียนรู้เชิงลึก
การเรียนรู้เชิงลึกเป็นประเภทย่อยของการเรียนรู้ของเครื่องจักร ซึ่งเกี่ยวข้องกับอัลกอริทึมที่ได้รับแรงบันดาลใจจากโครงสร้างที่เรียกว่าเครือข่ายประสาทเทียม (ANN)
29. อธิบายวิธีการรวบรวมและวิเคราะห์ข้อมูลเพื่อใช้โซเชียลมีเดียทำนายสภาพอากาศ
คุณสามารถรวบรวมข้อมูลโซเชียลมีเดียได้โดยใช้ Facebook, Twitter, API ของ Instagram ตัวอย่างเช่น สำหรับทวีตเตอร์ เราสามารถสร้างฟีเจอร์จากแต่ละทวีตได้ เช่น วันที่ทวีต รีทวีต รายชื่อผู้ติดตาม ฯลฯ จากนั้นคุณสามารถใช้แบบจำลองอนุกรมเวลาหลายตัวแปรเพื่อทำนายสภาพอากาศได้
30. เมื่อใดที่คุณจำเป็นต้องอัพเดตอัลกอริธึมใน Data science?
คุณจำเป็นต้องอัปเดตอัลกอริทึมในสถานการณ์ต่อไปนี้:
- คุณต้องการให้โมเดลข้อมูลของคุณพัฒนาเป็นสตรีมข้อมูลโดยใช้โครงสร้างพื้นฐาน
- แหล่งข้อมูลพื้นฐานกำลังเปลี่ยนแปลงหากไม่คงที่
31. การแจกแจงแบบปกติคืออะไร
การแจกแจงแบบปกติคือชุดของตัวแปรต่อเนื่องที่กระจายไปทั่วเส้นโค้งปกติหรือในรูปของเส้นโค้งระฆัง คุณสามารถพิจารณาว่าเป็นการแจกแจงความน่าจะเป็นแบบต่อเนื่องซึ่งมีประโยชน์ในด้านสถิติ การวิเคราะห์ตัวแปรและความสัมพันธ์ของตัวแปรจะมีประโยชน์เมื่อเราใช้เส้นโค้งการแจกแจงแบบปกติ
32. ภาษาใดดีที่สุดสำหรับการวิเคราะห์ข้อความ? อาร์หรือ Python?
Python จะเหมาะกับการวิเคราะห์ข้อความมากกว่าเนื่องจากประกอบด้วยไลบรารี่มากมายที่เรียกว่าแพนด้า ช่วยให้คุณสามารถใช้งานระดับสูงได้ เครื่องมือวิเคราะห์ข้อมูล และโครงสร้างข้อมูล ในขณะที่ R ไม่มีคุณสมบัตินี้
33. อธิบายประโยชน์ของการใช้สถิติโดย Data Scientist
สถิติช่วยให้นักวิทยาศาสตร์ข้อมูลเข้าใจความคาดหวังของลูกค้าได้ดีขึ้น การใช้วิธีการทางสถิติ นักวิทยาศาสตร์ข้อมูลสามารถรับความรู้เกี่ยวกับความสนใจของผู้บริโภค พฤติกรรม การมีส่วนร่วม การรักษาผู้ใช้ ฯลฯ นอกจากนี้ยังช่วยให้คุณสร้างแบบจำลองข้อมูลที่มีประสิทธิภาพเพื่อตรวจสอบการอนุมานและการคาดการณ์บางอย่างได้
34. ตั้งชื่อกรอบการเรียนรู้เชิงลึกประเภทต่างๆ
- ไพทอร์ช
- Microsoft ชุดเครื่องมือเกี่ยวกับความรู้ความเข้าใจ
- TensorFlow
- Caffe
- เชนเนอร์
- Keras
35.อธิบายตัวเข้ารหัสอัตโนมัติ
Autoencoders คือเครือข่ายการเรียนรู้ที่ช่วยให้คุณแปลงอินพุตเป็นเอาต์พุตโดยมีจำนวนข้อผิดพลาดน้อยลง ซึ่งหมายความว่าเอาต์พุตจะใกล้เคียงกับอินพุตมากที่สุด
36. กำหนดเครื่อง Boltzmann
เครื่องจักร Boltzmann เป็นอัลกอริทึมการเรียนรู้แบบง่ายๆ ที่ช่วยให้คุณค้นพบฟีเจอร์ต่างๆ ที่แสดงถึงความสม่ำเสมอที่ซับซ้อนในข้อมูลการฝึกอบรม อัลกอริทึมนี้ช่วยให้คุณปรับน้ำหนักและปริมาณให้เหมาะสมสำหรับปัญหาที่กำหนด
37. อธิบายว่าเหตุใดการล้างข้อมูลจึงมีความจำเป็น และวิธีการที่คุณใช้เพื่อรักษาข้อมูลที่สะอาด
ข้อมูลที่สกปรกมักจะนำไปสู่ความไม่ถูกต้องภายใน ซึ่งอาจสร้างความเสียหายต่อโอกาสขององค์กรใดๆ ได้ ตัวอย่างเช่น หากคุณต้องการดำเนินแคมเปญการตลาดแบบกำหนดเป้าหมาย อย่างไรก็ตาม ข้อมูลของเราแจ้งคุณอย่างไม่ถูกต้องว่าผลิตภัณฑ์ใดผลิตภัณฑ์หนึ่งจะเป็นที่ต้องการของกลุ่มเป้าหมายของคุณ แคมเปญจะล้มเหลว
38. การกระจายแบบเบ้ & การกระจายแบบสม่ำเสมอคืออะไร?
การกระจายแบบเบ้เกิดขึ้นเมื่อมีการกระจายข้อมูลในด้านใดด้านหนึ่งของโครงเรื่อง ในขณะที่การกระจายแบบสม่ำเสมอจะถูกระบุเมื่อข้อมูลมีการกระจายเท่ากันในช่วง
39. เมื่อ underfitting เกิดขึ้นในแบบจำลองคงที่?
Underfitting เกิดขึ้นเมื่อแบบจำลองทางสถิติหรืออัลกอริธึมการเรียนรู้ของเครื่องไม่สามารถจับแนวโน้มพื้นฐานของข้อมูลได้
40. การเรียนรู้แบบเสริมแรงคืออะไร?
การเรียนรู้แบบเสริมกำลังเป็นกลไกการเรียนรู้เกี่ยวกับวิธีการจับคู่สถานการณ์กับการกระทำ ผลลัพธ์ที่ได้จะช่วยให้คุณเพิ่มสัญญาณรางวัลไบนารี่ได้ ในวิธีนี้ ผู้เรียนไม่ได้บอกว่าต้องทำอะไร แต่ต้องค้นหาว่าการกระทำใดให้รางวัลสูงสุดแทน เนื่องจากวิธีนี้ใช้กลไกการให้รางวัล/การลงโทษ
41. ตั้งชื่ออัลกอริทึมที่ใช้กันทั่วไป
อัลกอริธึมที่นิยมใช้กันมากที่สุดสี่ประการโดย Data Scientist ได้แก่:
- การถดถอยเชิงเส้น
- การถดถอยโลจิสติก
- ป่าสุ่ม
- เคเอ็นเอ็น
42. ความแม่นยำคืออะไร?
ความแม่นยำเป็นตัวชี้วัดข้อผิดพลาดที่ใช้กันมากที่สุดคือกลไกการจำแนกประเภท ช่วงของมันคือตั้งแต่ 0 ถึง 1 โดยที่ 1 แทน 100%
43. การวิเคราะห์แบบตัวแปรเดียวคืออะไร?
การวิเคราะห์ที่ใช้กับไม่มีแอตทริบิวต์ในแต่ละครั้งเรียกว่าการวิเคราะห์แบบตัวแปรเดียว Boxมีการใช้โครงเรื่องกันอย่างแพร่หลายและเป็นแบบจำลองที่ไม่แปรเปลี่ยน
44. คุณจะเอาชนะความท้าทายต่อสิ่งที่คุณค้นพบได้อย่างไร?
เพื่อเอาชนะความท้าทายในการค้นหาของฉัน เราต้องสนับสนุนการอภิปราย แสดงให้เห็นถึงความเป็นผู้นำ และเคารพทางเลือกต่างๆ
45. อธิบายเทคนิคการสุ่มแบบคลัสเตอร์ใน Data Science
วิธีการสุ่มแบบคลัสเตอร์ใช้เมื่อการศึกษาประชากรเป้าหมายที่กระจายอยู่ทั่วไปมีความท้าทาย และไม่สามารถใช้การสุ่มแบบง่ายได้
46. ระบุความแตกต่างระหว่างชุดตรวจสอบและชุดทดสอบ
ชุดการตรวจสอบความถูกต้องส่วนใหญ่ถือว่าเป็นส่วนหนึ่งของชุดการฝึก เนื่องจากใช้สำหรับการเลือกพารามิเตอร์ ซึ่งช่วยให้คุณหลีกเลี่ยงการติดตั้งโมเดลที่ถูกสร้างขึ้นมากเกินไป
ในขณะที่ชุดทดสอบใช้สำหรับการทดสอบหรือประเมินประสิทธิภาพของโมเดลการเรียนรู้ของเครื่องที่ได้รับการฝึก
47. อธิบายคำว่า สูตรความน่าจะเป็นแบบทวินาม ?
“การแจกแจงแบบทวินามประกอบด้วยความน่าจะเป็นของความสำเร็จทุกประการที่เป็นไปได้ในการทดลอง N สำหรับเหตุการณ์อิสระที่มีความน่าจะเป็นที่ π จะเกิดขึ้น”
48. การเรียกคืนคืออะไร?
การเรียกคืนคืออัตราส่วนของอัตราบวกที่แท้จริงเทียบกับอัตราบวกจริง มีตั้งแต่ 0 ถึง 1
49. อภิปรายการแจกแจงแบบปกติ
การแจกแจงแบบปกติจะกระจายเท่าๆ กัน โดยค่าเฉลี่ย ค่ามัธยฐาน และแบบวิธีเท่ากัน
50. ในขณะที่ทำงานกับชุดข้อมูล คุณจะเลือกตัวแปรที่สำคัญได้อย่างไร? อธิบาย
คุณสามารถใช้วิธีการเลือกตัวแปรดังต่อไปนี้:
- ลบตัวแปรที่สัมพันธ์กันก่อนที่จะเลือกตัวแปรที่สำคัญ
- ใช้การถดถอยเชิงเส้นและเลือกตัวแปรที่ขึ้นอยู่กับค่า p นั้น
- ใช้การเลือกแบบย้อนกลับ การเลือกแบบไปข้างหน้า และการเลือกแบบขั้นตอน
- ใช้ Xgboost, Random Forest และลงจุดแผนภูมิความสำคัญของตัวแปร
- วัดข้อมูลที่ได้รับสำหรับชุดคุณสมบัติที่กำหนด และเลือกคุณสมบัติยอดนิยมตามลำดับ
51. เป็นไปได้หรือไม่ที่จะจับความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาด?
ใช่ เราสามารถใช้การวิเคราะห์เทคนิคความแปรปรวนร่วมเพื่อจับความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและตัวแปรเชิงหมวดหมู่
52. การรักษาตัวแปรเชิงหมวดหมู่ให้เป็นตัวแปรต่อเนื่องจะส่งผลให้แบบจำลองการทำนายดีขึ้นหรือไม่
ใช่ ค่าหมวดหมู่ควรได้รับการพิจารณาว่าเป็นตัวแปรต่อเนื่องเฉพาะเมื่อตัวแปรนั้นมีลำดับในธรรมชาติเท่านั้น จึงเป็นแบบจำลองการคาดการณ์ที่ดีกว่า
คำถามสัมภาษณ์เหล่านี้จะช่วยในวีว่าของคุณ (วาจา)