คำถามและคำตอบสัมภาษณ์วิทยาศาสตร์ข้อมูล 50 อันดับแรก (PDF)

ต่อไปนี้เป็นคำถามและคำตอบในการสัมภาษณ์ Data Science สำหรับผู้สมัครใหม่และมีประสบการณ์เพื่อให้ได้งานในฝัน

 

คำถามสัมภาษณ์วิทยาศาสตร์ข้อมูลสำหรับนักศึกษาใหม่

1. วิทยาศาสตร์ข้อมูลคืออะไร?

Data Science คือสาขาการศึกษาที่เกี่ยวข้องกับการดึงข้อมูลเชิงลึกจากข้อมูลจำนวนมหาศาลโดยใช้วิธีการทางวิทยาศาสตร์ อัลกอริทึม และกระบวนการต่างๆ ช่วยให้คุณค้นพบรูปแบบที่ซ่อนอยู่จากข้อมูลดิบ คำว่า Data Science เกิดขึ้นเนื่องจากวิวัฒนาการของสถิติทางคณิตศาสตร์ การวิเคราะห์ข้อมูล และข้อมูลขนาดใหญ่


2. อะไรคือความแตกต่างระหว่างวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง?

ข้อมูลวิทยาศาสตร์ เป็นการผสมผสานระหว่างอัลกอริทึม เครื่องมือ และเทคนิคการเรียนรู้ของเครื่อง ซึ่งช่วยให้คุณค้นหารูปแบบที่ซ่อนอยู่ทั่วไปจากข้อมูลดิบที่กำหนดให้ ในขณะที่การเรียนรู้ของเครื่องเป็นสาขาหนึ่งของวิทยาการคอมพิวเตอร์ ซึ่งเกี่ยวข้องกับการเขียนโปรแกรมระบบเพื่อเรียนรู้และปรับปรุงโดยอัตโนมัติตามประสบการณ์

ข้อมูลวิทยาศาสตร์


3. ตั้งชื่ออคติสามประเภทที่อาจเกิดขึ้นระหว่างการสุ่มตัวอย่าง

ในกระบวนการสุ่มตัวอย่างมีความเอนเอียงอยู่สามประเภท ได้แก่:

  • เลือกอคติ
  • ภายใต้อคติความคุ้มครอง
  • อคติผู้รอดชีวิต

4. อภิปรายอัลกอริทึมแผนผังการตัดสินใจ

แผนผังการตัดสินใจเป็นอัลกอริทึมแมชชีนเลิร์นนิงที่ได้รับการดูแลยอดนิยม ส่วนใหญ่จะใช้สำหรับการถดถอยและการจำแนกประเภท อนุญาตให้แบ่งชุดข้อมูลออกเป็นชุดย่อยที่มีขนาดเล็กลง แผนผังการตัดสินใจสามารถจัดการข้อมูลทั้งเชิงหมวดหมู่และเชิงตัวเลขได้


5. ความน่าจะเป็นและความน่าจะเป็นก่อนหน้าคืออะไร?

ความน่าจะเป็นก่อนหน้าคือสัดส่วนของตัวแปรตามในชุดข้อมูล ในขณะที่ความน่าจะเป็นคือความน่าจะเป็นที่จะจำแนกผู้สังเกตการณ์ที่กำหนดต่อหน้าตัวแปรอื่น


6. อธิบายระบบผู้แนะนำ?

เป็นคลาสย่อยของเทคนิคการกรองข้อมูล ช่วยให้คุณคาดการณ์การตั้งค่าหรือการให้คะแนนที่ผู้ใช้มีแนวโน้มที่จะให้กับผลิตภัณฑ์


7. บอกข้อเสียสามประการของการใช้แบบจำลองเชิงเส้น

ข้อเสียสามประการของโมเดลเชิงเส้นคือ:

  • การสันนิษฐานความเป็นเส้นตรงของข้อผิดพลาด
  • คุณไม่สามารถใช้แบบจำลองนี้กับผลลัพธ์แบบไบนารีหรือแบบนับได้
  • มีปัญหาเรื่อง overfitting มากมายที่ไม่สามารถแก้ไขได้

8. เหตุใดคุณจึงต้องทำการสุ่มตัวอย่างใหม่?

การสุ่มตัวอย่างใหม่จะทำในกรณีต่อไปนี้:

  • การประมาณความแม่นยำของสถิติตัวอย่างโดยการวาดแบบสุ่มโดยแทนที่จากชุดของจุดข้อมูลหรือใช้เป็นชุดย่อยของข้อมูลที่เข้าถึงได้
  • การแทนที่ป้ายกำกับบนจุดข้อมูลเมื่อทำการทดสอบที่จำเป็น
  • การตรวจสอบแบบจำลองโดยใช้เซ็ตย่อยแบบสุ่ม

9. รายชื่อห้องสมุดใน Python ใช้สำหรับการวิเคราะห์ข้อมูลและการคำนวณทางวิทยาศาสตร์


10. การวิเคราะห์กำลังคืออะไร?

การวิเคราะห์กำลังเป็นส่วนสำคัญของการออกแบบการทดลอง ช่วยให้คุณกำหนดขนาดตัวอย่างที่ต้องการเพื่อค้นหาผลกระทบของขนาดที่กำหนดจากสาเหตุที่มีระดับความมั่นใจที่เฉพาะเจาะจง นอกจากนี้ยังช่วยให้คุณสามารถปรับใช้ความน่าจะเป็นเฉพาะในข้อจำกัดขนาดตัวอย่างได้


11. อธิบายการกรองแบบร่วมมือกัน

การกรองการทำงานร่วมกันใช้เพื่อค้นหารูปแบบที่ถูกต้องโดยการทำงานร่วมกันของมุมมอง แหล่งข้อมูลหลายแหล่ง และเอเจนต์ต่างๆ


12. อคติคืออะไร?

อคติเป็นข้อผิดพลาดที่เกิดขึ้นในโมเดลของคุณ เนื่องจากอัลกอริทึมการเรียนรู้ของเครื่องใช้งานง่ายเกินไป” มันสามารถนำไปสู่การ underfitting


13. อภิปราย 'ไร้เดียงสา' ในอัลกอริทึม Naive Bayes หรือไม่

แบบจำลองอัลกอริทึม Naive Bayes มีพื้นฐานมาจากทฤษฎีบท Bayes มันอธิบายความน่าจะเป็นของเหตุการณ์ ขึ้นอยู่กับความรู้เดิมเกี่ยวกับเงื่อนไขที่อาจเกี่ยวข้องกับเหตุการณ์นั้น ๆ


14. การถดถอยเชิงเส้นคืออะไร?

การถดถอยเชิงเส้นเป็นวิธีการเขียนโปรแกรมทางสถิติโดยทำนายคะแนนของตัวแปร 'A' จากคะแนนของตัวแปรตัวที่สอง 'B' B เรียกว่าตัวแปรทำนายและ A เป็นตัวแปรเกณฑ์


15. จงระบุความแตกต่างระหว่างค่าคาดหวังและค่าเฉลี่ย

มีความแตกต่างไม่มาก แต่ทั้งสองคำนี้ใช้ในบริบทที่ต่างกัน โดยทั่วไปแล้วค่าเฉลี่ยจะถูกอ้างถึงเมื่อคุณกำลังพูดถึงการแจกแจงความน่าจะเป็น ในขณะที่ค่าที่คาดหวังจะถูกอ้างถึงในบริบทของตัวแปรสุ่ม


16. จุดมุ่งหมายของการดำเนินการทดสอบ A/B คืออะไร?

การทดสอบ AB ใช้เพื่อดำเนินการทดสอบแบบสุ่มด้วยตัวแปรสองตัว ได้แก่ A และ B เป้าหมายของวิธีการทดสอบนี้คือการค้นหาการเปลี่ยนแปลงในหน้าเว็บเพื่อเพิ่มหรือเพิ่มผลลัพธ์ของกลยุทธ์


17. การเรียนรู้ทั้งมวลคืออะไร?

วงดนตรีนี้เป็นวิธีการผสมผสานกลุ่มผู้เรียนที่หลากหลายเข้าด้วยกันเพื่อพัฒนาเสถียรภาพและพลังการทำนายของแบบจำลองแบบด้นสด วิธีการเรียนรู้ Ensemble สองประเภทคือ:

การห่อ

วิธีการบรรจุถุงช่วยให้คุณนำผู้เรียนที่คล้ายกันไปใช้กับประชากรกลุ่มตัวอย่างจำนวนไม่มาก ช่วยให้คุณคาดการณ์ได้ใกล้ยิ่งขึ้น

การส่งเสริม

Boosting เป็นวิธีการแบบวนซ้ำซึ่งช่วยให้คุณสามารถปรับน้ำหนักของการสังเกตโดยขึ้นอยู่กับการจำแนกประเภทครั้งสุดท้ายได้ Boosting จะลดข้อผิดพลาดของอคติและช่วยให้คุณสร้างแบบจำลองเชิงทำนายที่แข็งแกร่งได้


18. อธิบายค่าลักษณะเฉพาะและค่าลักษณะเฉพาะ

Eigenvector มีไว้สำหรับทำความเข้าใจการแปลงเชิงเส้น นักวิทยาศาสตร์ข้อมูลจำเป็นต้องคำนวณเวกเตอร์ลักษณะเฉพาะสำหรับเมทริกซ์ความแปรปรวนร่วมหรือความสัมพันธ์ ค่าลักษณะเฉพาะคือทิศทางควบคู่ไปกับการใช้การแปลงเชิงเส้นเฉพาะโดยการบีบอัด การพลิก หรือการยืด


19. กำหนดคำว่า cross-validation

การตรวจสอบความถูกต้องข้ามเป็นเทคนิคการตรวจสอบความถูกต้องสำหรับการประเมินว่าผลลัพธ์ของการวิเคราะห์ทางสถิติจะสรุปเป็นภาพรวมสำหรับชุดข้อมูลอิสระอย่างไร วิธีการนี้ใช้ในพื้นหลังที่มีการพยากรณ์วัตถุประสงค์ และจำเป็นต้องประเมินว่าแบบจำลองจะบรรลุผลสำเร็จได้แม่นยำเพียงใด


20. อธิบายขั้นตอนสำหรับโครงการวิเคราะห์ข้อมูล

ต่อไปนี้เป็นขั้นตอนสำคัญที่เกี่ยวข้องกับโครงการวิเคราะห์:

  • เข้าใจปัญหาทางธุรกิจ
  • สำรวจข้อมูลและศึกษาอย่างรอบคอบ
  • เตรียมข้อมูลสำหรับการสร้างแบบจำลองโดยการค้นหาค่าที่หายไปและการแปลงตัวแปร
  • เริ่มรันโมเดลและวิเคราะห์ผลลัพธ์ Big Data
  • ตรวจสอบโมเดลด้วยชุดข้อมูลใหม่
  • ใช้แบบจำลองและติดตามผลลัพธ์เพื่อวิเคราะห์ประสิทธิภาพของแบบจำลองในช่วงเวลาที่กำหนด

21. อภิปรายโครงข่ายประสาทเทียม

เครือข่ายประสาทเทียม (ANN) คือชุดอัลกอริทึมพิเศษที่ปฏิวัติการเรียนรู้ของเครื่องจักร ช่วยให้คุณปรับตัวตามอินพุตที่เปลี่ยนแปลงไป ดังนั้นเครือข่ายจึงสร้างผลลัพธ์ที่ดีที่สุดโดยไม่ต้องออกแบบเกณฑ์เอาต์พุตใหม่


22. การขยายพันธุ์กลับคืออะไร?

การขยายพันธุ์ด้านหลังเป็นหัวใจสำคัญของการฝึกโครงข่ายประสาทเทียม เป็นวิธีการปรับน้ำหนักของโครงข่ายประสาทเทียมโดยขึ้นอยู่กับอัตราข้อผิดพลาดที่ได้รับในยุคก่อนหน้า การปรับแต่งอย่างเหมาะสมจะช่วยลดอัตราข้อผิดพลาดและทำให้โมเดลมีความน่าเชื่อถือโดยการเพิ่มลักษณะทั่วไป


23. ป่าสุ่มคืออะไร?

ฟอเรสต์สุ่มเป็นวิธีการเรียนรู้ของเครื่องซึ่งช่วยให้คุณทำงานการถดถอยและการจัดหมวดหมู่ทุกประเภท นอกจากนี้ยังใช้สำหรับการรักษาค่าที่หายไปและค่าผิดปกติ


24. การมีอคติในการคัดเลือกมีความสำคัญอย่างไร?

อคติในการเลือกเกิดขึ้นเมื่อไม่มีการสุ่มแบบเจาะจงเกิดขึ้นขณะเลือกบุคคลหรือกลุ่มหรือข้อมูลที่จะวิเคราะห์ โดยแนะนำว่ากลุ่มตัวอย่างที่ให้มาไม่ได้เป็นตัวแทนของประชากรที่ต้องการวิเคราะห์อย่างแน่นอน


25. วิธีการจัดกลุ่มแบบ K-means คืออะไร

การจัดกลุ่มแบบ K-means เป็นวิธีการเรียนรู้แบบไม่มีผู้ดูแลที่สำคัญ เป็นเทคนิคการจัดกลุ่มข้อมูลโดยใช้กลุ่มข้อมูลชุดหนึ่งที่เรียกว่า K clusters ซึ่งใช้สำหรับการจัดกลุ่มเพื่อค้นหาความคล้ายคลึงกันของข้อมูล


คำถามสัมภาษณ์นักวิทยาศาสตร์ข้อมูลสำหรับผู้มีประสบการณ์

26. อธิบายความแตกต่างระหว่าง Data Science และ Data Analytics

นักวิทยาศาสตร์ข้อมูลจำเป็นต้องแบ่งข้อมูลเพื่อดึงข้อมูลเชิงลึกอันมีค่าที่นักวิเคราะห์ข้อมูลสามารถนำไปใช้กับสถานการณ์ทางธุรกิจในโลกแห่งความเป็นจริงได้ ความแตกต่างที่สำคัญระหว่างทั้งสองคือนักวิทยาศาสตร์ข้อมูลมีความรู้ทางเทคนิคมากกว่านักวิเคราะห์ธุรกิจ นอกจากนี้ พวกเขาไม่จำเป็นต้องเข้าใจธุรกิจที่จำเป็นสำหรับการแสดงข้อมูลเป็นภาพ


27. อธิบายค่า p?

เมื่อคุณทำการทดสอบสมมติฐานในสถิติ ค่า p-value จะช่วยให้คุณระบุจุดแข็งของผลลัพธ์ได้ เป็นตัวเลขระหว่าง 0 ถึง 1 ขึ้นอยู่กับค่า จะช่วยให้คุณระบุจุดแข็งของผลลัพธ์ที่ต้องการได้


28. กำหนดคำว่าการเรียนรู้เชิงลึก

การเรียนรู้เชิงลึกเป็นประเภทย่อยของการเรียนรู้ของเครื่องจักร ซึ่งเกี่ยวข้องกับอัลกอริทึมที่ได้รับแรงบันดาลใจจากโครงสร้างที่เรียกว่าเครือข่ายประสาทเทียม (ANN)


29. อธิบายวิธีการรวบรวมและวิเคราะห์ข้อมูลเพื่อใช้โซเชียลมีเดียทำนายสภาพอากาศ

คุณสามารถรวบรวมข้อมูลโซเชียลมีเดียได้โดยใช้ Facebook, Twitter, API ของ Instagram ตัวอย่างเช่น สำหรับทวีตเตอร์ เราสามารถสร้างฟีเจอร์จากแต่ละทวีตได้ เช่น วันที่ทวีต รีทวีต รายชื่อผู้ติดตาม ฯลฯ จากนั้นคุณสามารถใช้แบบจำลองอนุกรมเวลาหลายตัวแปรเพื่อทำนายสภาพอากาศได้


30. เมื่อใดที่คุณจำเป็นต้องอัพเดตอัลกอริธึมใน Data science?

คุณจำเป็นต้องอัปเดตอัลกอริทึมในสถานการณ์ต่อไปนี้:

  • คุณต้องการให้โมเดลข้อมูลของคุณพัฒนาเป็นสตรีมข้อมูลโดยใช้โครงสร้างพื้นฐาน
  • แหล่งข้อมูลพื้นฐานกำลังเปลี่ยนแปลงหากไม่คงที่

31. การแจกแจงแบบปกติคืออะไร

การแจกแจงแบบปกติคือชุดของตัวแปรต่อเนื่องที่กระจายไปทั่วเส้นโค้งปกติหรือในรูปของเส้นโค้งระฆัง คุณสามารถพิจารณาว่าเป็นการแจกแจงความน่าจะเป็นแบบต่อเนื่องซึ่งมีประโยชน์ในด้านสถิติ การวิเคราะห์ตัวแปรและความสัมพันธ์ของตัวแปรจะมีประโยชน์เมื่อเราใช้เส้นโค้งการแจกแจงแบบปกติ


32. ภาษาใดดีที่สุดสำหรับการวิเคราะห์ข้อความ? อาร์หรือ Python?

Python จะเหมาะกับการวิเคราะห์ข้อความมากกว่าเนื่องจากประกอบด้วยไลบรารี่มากมายที่เรียกว่าแพนด้า ช่วยให้คุณสามารถใช้งานระดับสูงได้ เครื่องมือวิเคราะห์ข้อมูล และโครงสร้างข้อมูล ในขณะที่ R ไม่มีคุณสมบัตินี้


33. อธิบายประโยชน์ของการใช้สถิติโดย Data Scientist

สถิติช่วยให้นักวิทยาศาสตร์ข้อมูลเข้าใจความคาดหวังของลูกค้าได้ดีขึ้น การใช้วิธีการทางสถิติ นักวิทยาศาสตร์ข้อมูลสามารถรับความรู้เกี่ยวกับความสนใจของผู้บริโภค พฤติกรรม การมีส่วนร่วม การรักษาผู้ใช้ ฯลฯ นอกจากนี้ยังช่วยให้คุณสร้างแบบจำลองข้อมูลที่มีประสิทธิภาพเพื่อตรวจสอบการอนุมานและการคาดการณ์บางอย่างได้


34. ตั้งชื่อกรอบการเรียนรู้เชิงลึกประเภทต่างๆ

  • ไพทอร์ช
  • Microsoft ชุดเครื่องมือเกี่ยวกับความรู้ความเข้าใจ
  • TensorFlow
  • Caffe
  • เชนเนอร์
  • Keras

35.อธิบายตัวเข้ารหัสอัตโนมัติ

Autoencoders คือเครือข่ายการเรียนรู้ที่ช่วยให้คุณแปลงอินพุตเป็นเอาต์พุตโดยมีจำนวนข้อผิดพลาดน้อยลง ซึ่งหมายความว่าเอาต์พุตจะใกล้เคียงกับอินพุตมากที่สุด


36. กำหนดเครื่อง Boltzmann

เครื่องจักร Boltzmann เป็นอัลกอริทึมการเรียนรู้แบบง่ายๆ ที่ช่วยให้คุณค้นพบฟีเจอร์ต่างๆ ที่แสดงถึงความสม่ำเสมอที่ซับซ้อนในข้อมูลการฝึกอบรม อัลกอริทึมนี้ช่วยให้คุณปรับน้ำหนักและปริมาณให้เหมาะสมสำหรับปัญหาที่กำหนด


37. อธิบายว่าเหตุใดการล้างข้อมูลจึงมีความจำเป็น และวิธีการที่คุณใช้เพื่อรักษาข้อมูลที่สะอาด

ข้อมูลที่สกปรกมักจะนำไปสู่ความไม่ถูกต้องภายใน ซึ่งอาจสร้างความเสียหายต่อโอกาสขององค์กรใดๆ ได้ ตัวอย่างเช่น หากคุณต้องการดำเนินแคมเปญการตลาดแบบกำหนดเป้าหมาย อย่างไรก็ตาม ข้อมูลของเราแจ้งคุณอย่างไม่ถูกต้องว่าผลิตภัณฑ์ใดผลิตภัณฑ์หนึ่งจะเป็นที่ต้องการของกลุ่มเป้าหมายของคุณ แคมเปญจะล้มเหลว


38. การกระจายแบบเบ้ & การกระจายแบบสม่ำเสมอคืออะไร?

การกระจายแบบเบ้เกิดขึ้นเมื่อมีการกระจายข้อมูลในด้านใดด้านหนึ่งของโครงเรื่อง ในขณะที่การกระจายแบบสม่ำเสมอจะถูกระบุเมื่อข้อมูลมีการกระจายเท่ากันในช่วง


39. เมื่อ underfitting เกิดขึ้นในแบบจำลองคงที่?

Underfitting เกิดขึ้นเมื่อแบบจำลองทางสถิติหรืออัลกอริธึมการเรียนรู้ของเครื่องไม่สามารถจับแนวโน้มพื้นฐานของข้อมูลได้


40. การเรียนรู้แบบเสริมแรงคืออะไร?

การเรียนรู้แบบเสริมกำลังเป็นกลไกการเรียนรู้เกี่ยวกับวิธีการจับคู่สถานการณ์กับการกระทำ ผลลัพธ์ที่ได้จะช่วยให้คุณเพิ่มสัญญาณรางวัลไบนารี่ได้ ในวิธีนี้ ผู้เรียนไม่ได้บอกว่าต้องทำอะไร แต่ต้องค้นหาว่าการกระทำใดให้รางวัลสูงสุดแทน เนื่องจากวิธีนี้ใช้กลไกการให้รางวัล/การลงโทษ


41. ตั้งชื่ออัลกอริทึมที่ใช้กันทั่วไป

อัลกอริธึมที่นิยมใช้กันมากที่สุดสี่ประการโดย Data Scientist ได้แก่:

  • การถดถอยเชิงเส้น
  • การถดถอยโลจิสติก
  • ป่าสุ่ม
  • เคเอ็นเอ็น

42. ความแม่นยำคืออะไร?

ความแม่นยำเป็นตัวชี้วัดข้อผิดพลาดที่ใช้กันมากที่สุดคือกลไกการจำแนกประเภท ช่วงของมันคือตั้งแต่ 0 ถึง 1 โดยที่ 1 แทน 100%


43. การวิเคราะห์แบบตัวแปรเดียวคืออะไร?

การวิเคราะห์ที่ใช้กับไม่มีแอตทริบิวต์ในแต่ละครั้งเรียกว่าการวิเคราะห์แบบตัวแปรเดียว Boxมีการใช้โครงเรื่องกันอย่างแพร่หลายและเป็นแบบจำลองที่ไม่แปรเปลี่ยน


44. คุณจะเอาชนะความท้าทายต่อสิ่งที่คุณค้นพบได้อย่างไร?

เพื่อเอาชนะความท้าทายในการค้นหาของฉัน เราต้องสนับสนุนการอภิปราย แสดงให้เห็นถึงความเป็นผู้นำ และเคารพทางเลือกต่างๆ


45. อธิบายเทคนิคการสุ่มแบบคลัสเตอร์ใน Data Science

วิธีการสุ่มแบบคลัสเตอร์ใช้เมื่อการศึกษาประชากรเป้าหมายที่กระจายอยู่ทั่วไปมีความท้าทาย และไม่สามารถใช้การสุ่มแบบง่ายได้


46. ​​ระบุความแตกต่างระหว่างชุดตรวจสอบและชุดทดสอบ

ชุดการตรวจสอบความถูกต้องส่วนใหญ่ถือว่าเป็นส่วนหนึ่งของชุดการฝึก เนื่องจากใช้สำหรับการเลือกพารามิเตอร์ ซึ่งช่วยให้คุณหลีกเลี่ยงการติดตั้งโมเดลที่ถูกสร้างขึ้นมากเกินไป

ในขณะที่ชุดทดสอบใช้สำหรับการทดสอบหรือประเมินประสิทธิภาพของโมเดลการเรียนรู้ของเครื่องที่ได้รับการฝึก


47. อธิบายคำว่า สูตรความน่าจะเป็นแบบทวินาม ?

“การแจกแจงแบบทวินามประกอบด้วยความน่าจะเป็นของความสำเร็จทุกประการที่เป็นไปได้ในการทดลอง N สำหรับเหตุการณ์อิสระที่มีความน่าจะเป็นที่ π จะเกิดขึ้น”


48. การเรียกคืนคืออะไร?

การเรียกคืนคืออัตราส่วนของอัตราบวกที่แท้จริงเทียบกับอัตราบวกจริง มีตั้งแต่ 0 ถึง 1


49. อภิปรายการแจกแจงแบบปกติ

การแจกแจงแบบปกติจะกระจายเท่าๆ กัน โดยค่าเฉลี่ย ค่ามัธยฐาน และแบบวิธีเท่ากัน


50. ในขณะที่ทำงานกับชุดข้อมูล คุณจะเลือกตัวแปรที่สำคัญได้อย่างไร? อธิบาย

คุณสามารถใช้วิธีการเลือกตัวแปรดังต่อไปนี้:

  • ลบตัวแปรที่สัมพันธ์กันก่อนที่จะเลือกตัวแปรที่สำคัญ
  • ใช้การถดถอยเชิงเส้นและเลือกตัวแปรที่ขึ้นอยู่กับค่า p นั้น
  • ใช้การเลือกแบบย้อนกลับ การเลือกแบบไปข้างหน้า และการเลือกแบบขั้นตอน
  • ใช้ Xgboost, Random Forest และลงจุดแผนภูมิความสำคัญของตัวแปร
  • วัดข้อมูลที่ได้รับสำหรับชุดคุณสมบัติที่กำหนด และเลือกคุณสมบัติยอดนิยมตามลำดับ

51. เป็นไปได้หรือไม่ที่จะจับความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาด?

ใช่ เราสามารถใช้การวิเคราะห์เทคนิคความแปรปรวนร่วมเพื่อจับความสัมพันธ์ระหว่างตัวแปรต่อเนื่องและตัวแปรเชิงหมวดหมู่


52. การรักษาตัวแปรเชิงหมวดหมู่ให้เป็นตัวแปรต่อเนื่องจะส่งผลให้แบบจำลองการทำนายดีขึ้นหรือไม่

ใช่ ค่าหมวดหมู่ควรได้รับการพิจารณาว่าเป็นตัวแปรต่อเนื่องเฉพาะเมื่อตัวแปรนั้นมีลำดับในธรรมชาติเท่านั้น จึงเป็นแบบจำลองการคาดการณ์ที่ดีกว่า

คำถามสัมภาษณ์เหล่านี้จะช่วยในวีว่าของคุณ (วาจา)