50 câu hỏi và câu trả lời phỏng vấn khoa học dữ liệu hàng đầu (PDF)
Dưới đây là các câu hỏi và câu trả lời phỏng vấn Khoa học dữ liệu dành cho những ứng viên mới ra trường cũng như có kinh nghiệm để có được công việc mơ ước của họ.
Câu hỏi phỏng vấn khoa học dữ liệu dành cho người mới
1. Khoa học dữ liệu là gì?
Khoa học dữ liệu là lĩnh vực nghiên cứu liên quan đến việc trích xuất những hiểu biết sâu sắc từ lượng lớn dữ liệu bằng các phương pháp, thuật toán và quy trình khoa học khác nhau. Nó giúp bạn khám phá các mẫu ẩn từ dữ liệu thô. Thuật ngữ Khoa học dữ liệu đã xuất hiện do sự phát triển của thống kê toán học, phân tích dữ liệu và dữ liệu lớn.
2. Sự khác biệt giữa Khoa học dữ liệu và Học máy là gì?
Khoa học dữ liệu là sự kết hợp của các thuật toán, công cụ và kỹ thuật học máy giúp bạn tìm ra các mẫu ẩn phổ biến từ dữ liệu thô nhất định. Trong khi Machine learning là một nhánh của khoa học máy tính, liên quan đến lập trình hệ thống để tự động học hỏi và cải thiện theo kinh nghiệm.
3. Kể tên ba loại sai lệch có thể xảy ra trong quá trình lấy mẫu
Trong quá trình lấy mẫu, có ba loại sai lệch, đó là:
- Sự thiên vị lựa chọn
- Dưới mức độ bao phủ thiên vị
- Thiên vị sống sót
4. Thảo luận thuật toán Cây quyết định
Cây quyết định là một thuật toán học máy có giám sát phổ biến. Nó chủ yếu được sử dụng cho hồi quy và phân loại. Nó cho phép chia tập dữ liệu thành các tập con nhỏ hơn. Cây quyết định có thể xử lý cả dữ liệu phân loại và dữ liệu số.
5. Xác suất trước và khả năng xảy ra là gì?
Xác suất trước là tỷ lệ của biến phụ thuộc trong tập dữ liệu trong khi khả năng là xác suất phân loại một người quan sát nhất định khi có một số biến khác.
6. Giải thích hệ thống gợi ý?
Nó là một lớp con của kỹ thuật lọc thông tin. Nó giúp bạn dự đoán sở thích hoặc xếp hạng mà người dùng có thể dành cho sản phẩm.
7. Nêu ba nhược điểm của việc sử dụng mô hình tuyến tính
Ba nhược điểm của mô hình tuyến tính là:
- Giả định về tính tuyến tính của sai số.
- Bạn không thể sử dụng mô hình này cho kết quả nhị phân hoặc đếm
- Có rất nhiều vấn đề về trang bị quá mức mà nó không thể giải quyết được
8. Tại sao bạn cần thực hiện lấy mẫu lại?
Việc lấy mẫu lại được thực hiện trong các trường hợp dưới đây:
- Ước tính độ chính xác của thống kê mẫu bằng cách rút ngẫu nhiên có thay thế từ một tập hợp điểm dữ liệu hoặc sử dụng làm tập hợp con của dữ liệu có thể truy cập
- Thay thế nhãn trên các điểm dữ liệu khi thực hiện các thử nghiệm cần thiết
- Xác thực mô hình bằng cách sử dụng tập hợp con ngẫu nhiên
9. Liệt kê các thư viện trong Python được sử dụng để phân tích dữ liệu và tính toán khoa học.
- khoa học viễn tưởng
- Gấu trúc
- Matplotlib
- numpy
- khoa học viễn tưởng
- sơ sinh
10. Phân tích năng lượng là gì?
Phân tích công suất là một phần không thể thiếu trong thiết kế thử nghiệm. Nó giúp bạn xác định cỡ mẫu cần thiết để tìm ra tác động của một cỡ mẫu nhất định từ một nguyên nhân với mức độ đảm bảo cụ thể. Nó cũng cho phép bạn triển khai một xác suất cụ thể trong giới hạn kích thước mẫu.
11. Giải thích về lọc cộng tác
Lọc cộng tác được sử dụng để tìm kiếm các mẫu chính xác bằng cách cộng tác các quan điểm, nhiều nguồn dữ liệu và các tác nhân khác nhau.
12. Thiên vị là gì?
Xu hướng là một lỗi xuất hiện trong mô hình của bạn do thuật toán học máy quá đơn giản hóa.” Nó có thể dẫn đến tình trạng thiếu trang bị.
13. Thảo luận về 'ngây thơ' trong thuật toán Naive Bayes?
Mô hình Thuật toán Naive Bayes dựa trên Định lý Bayes. Nó mô tả xác suất của một sự kiện. Nó dựa trên kiến thức trước đây về các điều kiện có thể liên quan đến sự kiện cụ thể đó.
14. Hồi quy tuyến tính là gì?
Hồi quy tuyến tính là một phương pháp lập trình thống kê trong đó điểm của biến 'A' được dự đoán từ điểm của biến thứ hai 'B'. B được gọi là biến dự đoán và A là biến tiêu chí.
15. Nêu sự khác biệt giữa giá trị kỳ vọng và giá trị trung bình
Chúng không có nhiều khác biệt, nhưng cả hai thuật ngữ này đều được sử dụng trong các bối cảnh khác nhau. Giá trị trung bình thường được đề cập đến khi bạn đang thảo luận về phân bố xác suất trong khi giá trị kỳ vọng được đề cập đến trong bối cảnh của một biến ngẫu nhiên.
16. Mục đích của việc tiến hành A/B testing là gì?
Thử nghiệm AB được sử dụng để tiến hành thử nghiệm ngẫu nhiên với hai biến A và B. Mục tiêu của phương pháp thử nghiệm này là tìm ra những thay đổi đối với trang web nhằm tối đa hóa hoặc tăng kết quả của một chiến lược.
17. Học tập theo nhóm là gì?
Nhóm là một phương pháp kết hợp một nhóm người học đa dạng lại với nhau để ứng biến dựa trên tính ổn định và khả năng dự đoán của mô hình. Hai loại phương pháp học tập Ensemble là:
Đóng gói
Phương pháp đóng bao giúp bạn triển khai những người học tương tự trên các nhóm mẫu nhỏ. Nó giúp bạn đưa ra dự đoán gần hơn.
Tăng cường
Tăng cường là một phương pháp lặp lại cho phép bạn điều chỉnh trọng số của một quan sát tùy thuộc vào phân loại cuối cùng. Việc tăng cường làm giảm sai số và giúp bạn xây dựng các mô hình dự đoán mạnh mẽ.
18. Giải thích giá trị riêng và vectơ riêng
Các vectơ riêng dùng để hiểu các phép biến đổi tuyến tính. Nhà khoa học dữ liệu cần tính toán các vectơ riêng cho ma trận hiệp phương sai hoặc mối tương quan. Giá trị riêng là các hướng sử dụng các hành động biến đổi tuyến tính cụ thể bằng cách nén, lật hoặc kéo dài.
19. Định nghĩa thuật ngữ xác thực chéo
Xác thực chéo là một kỹ thuật xác thực để đánh giá kết quả phân tích thống kê sẽ tổng quát như thế nào đối với một tập dữ liệu Độc lập. Phương pháp này được sử dụng trong bối cảnh mục tiêu được dự báo và người ta cần ước tính mức độ chính xác mà một mô hình sẽ đạt được.
20. Giải thích các bước của dự án Phân tích dữ liệu
Sau đây là các bước quan trọng liên quan đến một dự án phân tích:
- Hiểu rõ vấn đề Doanh nghiệp
- Khám phá dữ liệu và nghiên cứu nó một cách cẩn thận.
- Chuẩn bị dữ liệu cho mô hình hóa bằng cách tìm các giá trị còn thiếu và chuyển đổi các biến.
- Bắt đầu chạy mô hình và phân tích kết quả Dữ liệu lớn.
- Xác thực mô hình với tập dữ liệu mới.
- Triển khai mô hình và theo dõi kết quả để phân tích hiệu suất của mô hình trong một khoảng thời gian cụ thể.
21. Thảo luận về Mạng lưới thần kinh nhân tạo
Mạng thần kinh nhân tạo (ANN) là một bộ thuật toán đặc biệt đã cách mạng hóa việc học máy. Nó giúp bạn thích ứng theo sự thay đổi đầu vào. Vì vậy, mạng tạo ra kết quả tốt nhất có thể mà không cần thiết kế lại tiêu chí đầu ra.
22. Tuyên truyền ngược là gì?
Lan truyền ngược là bản chất của việc huấn luyện mạng lưới thần kinh. Đây là phương pháp điều chỉnh trọng số của mạng lưới thần kinh phụ thuộc vào tỷ lệ lỗi đạt được ở kỷ nguyên trước đó. Việc điều chỉnh thích hợp giúp bạn giảm tỷ lệ lỗi và làm cho mô hình trở nên đáng tin cậy bằng cách tăng tính tổng quát của nó.
23. Rừng ngẫu nhiên là gì?
Rừng ngẫu nhiên là một phương pháp học máy giúp bạn thực hiện tất cả các loại nhiệm vụ hồi quy và phân loại. Nó cũng được sử dụng để xử lý các giá trị bị thiếu và các giá trị ngoại lệ.
24. Tầm quan trọng của việc có thành kiến lựa chọn là gì?
Xu hướng lựa chọn xảy ra khi không đạt được sự ngẫu nhiên cụ thể trong khi chọn các cá nhân, nhóm hoặc dữ liệu để phân tích. Nó gợi ý rằng mẫu đã cho không đại diện chính xác cho tổng thể dự định phân tích.
25. Phương pháp phân cụm K-means là gì?
Phân cụm K-means là một phương pháp học không giám sát quan trọng. Đó là kỹ thuật phân loại dữ liệu bằng cách sử dụng một tập hợp cụm nhất định được gọi là cụm K. Nó được triển khai để nhóm nhằm tìm ra sự giống nhau trong dữ liệu.
Câu hỏi phỏng vấn nhà khoa học dữ liệu dành cho người có kinh nghiệm
26. Giải thích sự khác biệt giữa Khoa học dữ liệu và Phân tích dữ liệu
Các nhà khoa học dữ liệu cần phân chia dữ liệu để rút ra những hiểu biết có giá trị mà nhà phân tích dữ liệu có thể áp dụng cho các tình huống kinh doanh trong thế giới thực. Sự khác biệt chính giữa hai điều này là các nhà khoa học dữ liệu có nhiều kiến thức kỹ thuật hơn nhà phân tích kinh doanh. Hơn nữa, họ không cần hiểu biết về hoạt động kinh doanh cần thiết để trực quan hóa dữ liệu.
27. Giải thích giá trị p?
Khi bạn tiến hành kiểm tra giả thuyết về thống kê, giá trị p cho phép bạn xác định độ mạnh của kết quả. Đó là một số từ 0 đến 1. Dựa vào giá trị, nó sẽ giúp bạn biểu thị mức độ của kết quả cụ thể.
28. Định nghĩa thuật ngữ deep learning
Deep Learning là một loại con của học máy. Nó liên quan đến các thuật toán lấy cảm hứng từ cấu trúc được gọi là mạng lưới thần kinh nhân tạo (ANN).
29. Giải thích phương pháp thu thập và phân tích dữ liệu để sử dụng mạng xã hội nhằm dự đoán điều kiện thời tiết.
Bạn có thể thu thập dữ liệu truyền thông xã hội bằng cách sử dụng API của Facebook, twitter, Instagram. Ví dụ: đối với người tweet, chúng tôi có thể xây dựng một tính năng từ mỗi tweet như ngày tweet, lượt tweet lại, danh sách người theo dõi, v.v. Sau đó, bạn có thể sử dụng mô hình chuỗi thời gian đa biến để dự đoán điều kiện thời tiết.
30. Khi nào bạn cần cập nhật thuật toán trong Khoa học dữ liệu?
Bạn cần cập nhật thuật toán trong tình huống sau:
- Bạn muốn mô hình dữ liệu của mình phát triển dưới dạng luồng dữ liệu bằng cơ sở hạ tầng
- Nguồn dữ liệu cơ bản đang thay đổiNếu nó không cố định
31. Phân phối bình thường là gì
Phân phối chuẩn là tập hợp các biến liên tục trải rộng trên một đường cong chuẩn hoặc có dạng đường cong hình chuông. Bạn có thể coi nó như một phân phối xác suất liên tục rất hữu ích trong thống kê. Việc phân tích các biến số và mối quan hệ của chúng sẽ rất hữu ích khi chúng ta sử dụng đường cong phân phối chuẩn.
32. Ngôn ngữ nào tốt nhất cho phân tích văn bản? R hoặc Python?
Python sẽ phù hợp hơn cho việc phân tích văn bản vì nó bao gồm một thư viện phong phú được gọi là gấu trúc. Nó cho phép bạn sử dụng cấp độ cao công cụ phân tích dữ liệu và cấu trúc dữ liệu, trong khi R không cung cấp tính năng này.
33. Giải thích lợi ích của việc sử dụng số liệu thống kê của các nhà khoa học dữ liệu
Thống kê giúp Nhà khoa học dữ liệu hiểu rõ hơn về kỳ vọng của khách hàng. Sử dụng phương pháp thống kê Các nhà khoa học dữ liệu có thể thu thập kiến thức về sự quan tâm, hành vi, mức độ tương tác, tỷ lệ giữ chân của người tiêu dùng, v.v. Nó cũng giúp bạn xây dựng các mô hình dữ liệu mạnh mẽ để xác thực những suy luận và dự đoán nhất định.
34. Kể tên các loại Deep Learning Framework
- ngọn đuốc
- Microsoft Bộ công cụ nhận thức
- TensorFlow
- Caffe
- xích
- Máy ảnh
35.Giải thích bộ mã hóa tự động
Bộ mã hóa tự động là mạng học tập. Nó giúp bạn chuyển đổi đầu vào thành đầu ra với ít lỗi hơn. Điều này có nghĩa là bạn sẽ nhận được đầu ra càng gần đầu vào càng tốt.
36. Xác định máy Boltzmann
Máy Boltzmann là một thuật toán học tập đơn giản. Nó giúp bạn khám phá những đặc điểm biểu diễn các quy luật phức tạp trong dữ liệu đào tạo. Thuật toán này cho phép bạn tối ưu hóa trọng số và số lượng cho bài toán đã cho.
37. Giải thích tại sao Làm sạch dữ liệu là cần thiết và bạn sử dụng phương pháp nào để duy trì dữ liệu sạch
Dữ liệu bẩn thường dẫn đến nội dung không chính xác, có thể gây tổn hại đến triển vọng của bất kỳ tổ chức nào. Ví dụ: nếu bạn muốn chạy một chiến dịch tiếp thị có mục tiêu. Tuy nhiên, dữ liệu của chúng tôi cho bạn biết không chính xác rằng đối tượng mục tiêu của bạn sẽ có nhu cầu về một sản phẩm cụ thể; chiến dịch sẽ thất bại.
38. Phân phối lệch & phân phối đồng đều là gì?
Phân phối lệch xảy ra khi dữ liệu được phân phối ở bất kỳ phía nào của biểu đồ trong khi phân phối đồng đều được xác định khi dữ liệu được trải đều bằng nhau trong phạm vi.
39. Khi xảy ra tình trạng thiếu trang bị trong mô hình tĩnh?
Việc trang bị không phù hợp xảy ra khi mô hình thống kê hoặc thuật toán học máy không thể nắm bắt được xu hướng cơ bản của dữ liệu.
40. Học tăng cường là gì?
Học tăng cường là một cơ chế học tập về cách ánh xạ các tình huống thành hành động. Kết quả cuối cùng sẽ giúp bạn tăng tín hiệu phần thưởng nhị phân. Trong phương pháp này, người học không được yêu cầu thực hiện hành động nào mà thay vào đó phải khám phá hành động nào mang lại phần thưởng tối đa. Vì phương pháp này dựa trên cơ chế thưởng/phạt.
41. Kể tên các thuật toán thường dùng.
Bốn thuật toán được nhà khoa học dữ liệu sử dụng phổ biến nhất là:
- Hồi quy tuyến tính
- Hồi quy logistic
- Rừng ngẫu nhiên
- KNN
42. Độ chính xác là gì?
Độ chính xác là thước đo lỗi được sử dụng phổ biến nhất trong cơ chế phân loại. Phạm vi của nó là từ 0 đến 1, trong đó 1 đại diện cho 100%
43. Phân tích đơn biến là gì?
Một phân tích không áp dụng cho thuộc tính nào tại một thời điểm được gọi là phân tích đơn biến. Boxcốt truyện được sử dụng rộng rãi, mô hình đơn biến.
44. Làm thế nào để bạn vượt qua những thách thức đối với những phát hiện của mình?
Để vượt qua những thách thức trong việc tìm kiếm của tôi, người ta cần khuyến khích thảo luận, Thể hiện khả năng lãnh đạo và tôn trọng các lựa chọn khác nhau.
45. Giải thích kỹ thuật lấy mẫu cụm trong Khoa học dữ liệu
Phương pháp lấy mẫu cụm được sử dụng khi việc nghiên cứu dân số mục tiêu trải rộng trên toàn bộ gặp khó khăn và không thể áp dụng lấy mẫu ngẫu nhiên đơn giản.
46. Nêu sự khác biệt giữa Bộ xác thực và Bộ kiểm tra
Bộ xác thực chủ yếu được coi là một phần của tập huấn luyện vì nó được sử dụng để chọn tham số giúp bạn tránh trang bị quá mức cho mô hình đang được xây dựng.
Trong khi Bộ kiểm tra được sử dụng để kiểm tra hoặc đánh giá hiệu suất của mô hình học máy được đào tạo.
47. Giải thích thuật ngữ Công thức xác suất nhị thức?
“Phân phối nhị thức chứa xác suất của mọi khả năng thành công trong N lần thử đối với các sự kiện độc lập có xác suất xảy ra là π.”
48. Thu hồi là gì?
Thu hồi là tỷ lệ giữa tỷ lệ dương tính thực sự so với tỷ lệ dương tính thực tế. Nó dao động từ 0 đến 1.
49. Thảo luận về phân phối chuẩn
Phân phối chuẩn được phân bổ đều như vậy giá trị trung bình, trung vị và mốt đều bằng nhau.
50. Trong khi làm việc trên một tập dữ liệu, bạn có thể chọn các biến quan trọng như thế nào? Giải thích
Bạn có thể sử dụng các phương pháp lựa chọn biến sau:
- Loại bỏ các biến tương quan trước khi chọn các biến quan trọng
- Sử dụng hồi quy tuyến tính và chọn các biến phụ thuộc vào giá trị p đó.
- Sử dụng Lựa chọn lùi, Lựa chọn tiến và Lựa chọn từng bước
- Sử dụng Xgboost, Random Forest và vẽ biểu đồ tầm quan trọng của biến.
- Đo lường mức tăng thông tin cho tập hợp các tính năng nhất định và chọn n tính năng hàng đầu cho phù hợp.
51. Có thể nắm bắt được mối tương quan giữa biến liên tục và biến phân loại không?
Có, chúng ta có thể sử dụng phân tích kỹ thuật hiệp phương sai để nắm bắt mối liên hệ giữa các biến liên tục và biến phân loại.
52. Xử lý một biến phân loại như một biến liên tục sẽ dẫn đến một mô hình dự đoán tốt hơn?
Có, giá trị phân loại chỉ nên được coi là một biến liên tục khi biến đó có bản chất là thứ tự. Vì vậy, nó là một mô hình dự đoán tốt hơn.
Những câu hỏi phỏng vấn này cũng sẽ giúp ích cho bài thi viva(orals) của bạn