Hướng dẫn học máy cho người mới bắt đầu: Khái niệm cơ bản về ML là gì
Học máy là gì?
Machine Learning là một hệ thống các thuật toán máy tính có thể học từ ví dụ thông qua việc tự cải thiện mà không cần lập trình viên mã hóa rõ ràng. Học máy là một phần của Trí tuệ nhân tạo kết hợp dữ liệu với các công cụ thống kê để dự đoán kết quả đầu ra có thể được sử dụng để đưa ra những hiểu biết sâu sắc có thể hành động.
Bước đột phá đến từ ý tưởng rằng một cỗ máy có thể học hỏi từ dữ liệu (ví dụ: ví dụ) để tạo ra kết quả chính xác. Học máy có liên quan chặt chẽ đến khai thác dữ liệu và mô hình dự đoán Bayes. Máy nhận dữ liệu làm đầu vào và sử dụng thuật toán để đưa ra câu trả lời.
Một nhiệm vụ học máy điển hình là đưa ra đề xuất. Đối với những người có một Netflix tài khoản, tất cả đề xuất về phim hoặc loạt phim đều dựa trên dữ liệu lịch sử của người dùng. Các công ty công nghệ đang sử dụng học tập không giám sát để cải thiện trải nghiệm người dùng với đề xuất cá nhân hóa.
Học máy cũng được sử dụng cho nhiều nhiệm vụ khác nhau như phát hiện gian lận, bảo trì dự đoán, tối ưu hóa danh mục đầu tư, tự động hóa nhiệm vụ, v.v.
Học máy so với lập trình truyền thống
Lập trình truyền thống khác biệt đáng kể so với học máy. Trong lập trình truyền thống, một lập trình viên sẽ mã hóa tất cả các quy tắc khi tham khảo ý kiến của một chuyên gia trong ngành mà phần mềm đang được phát triển. Mỗi quy tắc đều dựa trên một nền tảng logic; máy sẽ thực hiện đầu ra theo câu lệnh logic. Khi hệ thống trở nên phức tạp, cần phải viết thêm nhiều quy tắc. Việc duy trì có thể nhanh chóng trở nên không bền vững.
Học máy được cho là sẽ khắc phục được vấn đề này. Máy tìm hiểu mối tương quan giữa dữ liệu đầu vào và đầu ra và nó viết ra một quy tắc. Các lập trình viên không cần phải viết các quy tắc mới mỗi khi có dữ liệu mới. Các thuật toán thích ứng với dữ liệu và trải nghiệm mới để nâng cao hiệu quả theo thời gian.
Học máy hoạt động như thế nào?
Bây giờ trong hướng dẫn cơ bản về Machine learning dành cho người mới bắt đầu này, chúng ta sẽ tìm hiểu cách hoạt động của Machine Learning (ML):
Học máy là bộ não nơi mọi hoạt động học tập diễn ra. Cách máy học cũng tương tự như con người. Con người học hỏi từ kinh nghiệm. Càng biết nhiều, chúng ta càng có thể dự đoán dễ dàng hơn. Tương tự, khi chúng ta đối mặt với một tình huống chưa biết, khả năng thành công sẽ thấp hơn tình huống đã biết. Máy móc được đào tạo giống nhau. Để đưa ra dự đoán chính xác, máy sẽ xem một ví dụ. Khi chúng ta đưa cho máy một ví dụ tương tự, nó có thể tìm ra kết quả. Tuy nhiên, giống như con người, nếu nó cung cấp một ví dụ chưa từng thấy trước đây, máy sẽ gặp khó khăn trong việc dự đoán.
Mục tiêu cốt lõi của học máy là học tập và suy luận. Trước hết, máy học thông qua việc khám phá các mẫu. Phát hiện này được thực hiện nhờ vào dữ liệu. Một phần quan trọng của nhà khoa học dữ liệu là lựa chọn cẩn thận dữ liệu nào sẽ cung cấp cho máy. Danh sách các thuộc tính được sử dụng để giải quyết vấn đề được gọi là vectơ đặc trưng. Bạn có thể coi vectơ đặc trưng là một tập hợp con dữ liệu được sử dụng để giải quyết vấn đề.
Chiếc máy sử dụng một số thuật toán lạ mắt để đơn giản hóa thực tế và biến khám phá này thành một kiểu mẫu. Do đó, giai đoạn học được sử dụng để mô tả dữ liệu và tóm tắt nó thành mô hình.
Ví dụ, máy đang cố gắng hiểu mối quan hệ giữa tiền lương của một cá nhân và khả năng đến một nhà hàng sang trọng. Hóa ra máy tìm ra mối quan hệ cùng chiều giữa tiền lương và việc vào nhà hàng cao cấp: Đây là mô hình
suy luận
Khi mô hình được xây dựng, có thể kiểm tra mức độ mạnh mẽ của nó đối với dữ liệu chưa từng thấy trước đây. Dữ liệu mới được chuyển thành vectơ đặc trưng, đi qua mô hình và đưa ra dự đoán. Đây chính là phần hay nhất của học máy. Không cần phải cập nhật các quy tắc hoặc đào tạo lại mô hình. Bạn có thể sử dụng mô hình đã được đào tạo trước đó để suy luận về dữ liệu mới.
Hoạt động của các chương trình Học máy rất đơn giản và có thể được tóm tắt trong các điểm sau:
- Xác định một câu hỏi
- Thu thập dữ liệu
- Trực quan hóa dữ liệu
- Thuật toán huấn luyện
- Kiểm tra thuật toán
- Thu thập thông tin phản hồi
- Tinh chỉnh thuật toán
- Lặp lại 4-7 cho đến khi kết quả như ý
- Sử dụng mô hình để đưa ra dự đoán
Khi thuật toán có thể đưa ra kết luận đúng, nó sẽ áp dụng kiến thức đó vào các tập dữ liệu mới.
Machine Learning Algorithms và chúng được sử dụng ở đâu?
Bây giờ trong hướng dẫn Machine learning dành cho người mới bắt đầu này, chúng ta sẽ tìm hiểu thuật toán Machine Learning (ML) được sử dụng ở đâu:
Học máy có thể được nhóm thành hai nhiệm vụ học rộng: Được giám sát và Không giám sát. Có nhiều thuật toán khác
Học có giám sát
Một thuật toán sử dụng dữ liệu đào tạo và phản hồi từ con người để tìm hiểu mối quan hệ của đầu vào nhất định với đầu ra nhất định. Ví dụ: một người hành nghề có thể sử dụng chi phí tiếp thị và dự báo thời tiết làm dữ liệu đầu vào để dự đoán doanh số bán lon.
Bạn có thể sử dụng phương pháp học có giám sát khi đã biết dữ liệu đầu ra. Thuật toán sẽ dự đoán dữ liệu mới.
Có hai loại học có giám sát:
- Nhiệm vụ phân loại
- Nhiệm vụ hồi quy
phân loại
Hãy tưởng tượng bạn muốn dự đoán giới tính của khách hàng trong một quảng cáo. Bạn sẽ bắt đầu thu thập dữ liệu về chiều cao, cân nặng, công việc, tiền lương, giỏ hàng, v.v. từ cơ sở dữ liệu khách hàng của mình. Bạn biết rõ giới tính của từng khách hàng, chỉ có thể là nam hoặc nữ. Mục tiêu của trình phân loại sẽ là chỉ định xác suất là nam hay nữ (tức là nhãn) dựa trên thông tin (tức là các đặc điểm bạn đã thu thập). Khi mô hình học được cách nhận biết nam hay nữ, bạn có thể sử dụng dữ liệu mới để đưa ra dự đoán. Chẳng hạn, bạn vừa nhận được thông tin mới từ một khách hàng không xác định và bạn muốn biết đó là nam hay nữ. Nếu bộ phân loại dự đoán nam = 70%, điều đó có nghĩa là thuật toán chắc chắn 70% rằng khách hàng này là nam và 30% là nữ.
Nhãn có thể có hai hoặc nhiều lớp. Ví dụ Machine learning ở trên chỉ có hai lớp, nhưng nếu một bộ phân loại cần dự đoán đối tượng thì nó có hàng tá lớp (ví dụ: kính, bàn, giày, v.v. mỗi đối tượng đại diện cho một lớp)
Hồi quy
Khi đầu ra là một giá trị liên tục, nhiệm vụ là hồi quy. Ví dụ, một nhà phân tích tài chính có thể cần dự báo giá trị của một cổ phiếu dựa trên nhiều đặc điểm như vốn chủ sở hữu, diễn biến cổ phiếu trước đó, chỉ số kinh tế vĩ mô. Hệ thống sẽ được đào tạo để ước tính giá cổ phiếu với sai số thấp nhất có thể.
Thuật toán | Mô tả Chi tiết | Kiểu |
---|---|---|
Hồi quy tuyến tính | Tìm cách tương quan từng tính năng với đầu ra để giúp dự đoán các giá trị trong tương lai. | Hồi quy |
Hồi quy logistic | Mở rộng hồi quy tuyến tính được sử dụng cho các nhiệm vụ phân loại. Biến đầu ra 3 là nhị phân (ví dụ: chỉ đen hoặc trắng) thay vì liên tục (ví dụ: danh sách vô hạn các màu tiềm năng) | phân loại |
Cây quyết định | Mô hình phân loại hoặc hồi quy có khả năng diễn giải cao giúp phân chia các giá trị tính năng dữ liệu thành các nhánh tại các nút quyết định (ví dụ: nếu một tính năng là một màu thì mỗi màu có thể sẽ trở thành một nhánh mới) cho đến khi đưa ra quyết định cuối cùng | Hồi quy phân loại |
Vịnh Naive | Phương pháp Bayesian là một phương pháp phân loại sử dụng định lý Bayesian. Định lý cập nhật kiến thức trước đây về một sự kiện với xác suất độc lập của từng đặc điểm có thể ảnh hưởng đến sự kiện đó. | Hồi quy phân loại |
Hỗ trợ máy vector |
Máy Vector Hỗ trợ, hay SVM, thường được sử dụng cho nhiệm vụ phân loại. Thuật toán SVM tìm ra một siêu phẳng phân chia các lớp một cách tối ưu. Nó được sử dụng tốt nhất với một bộ giải phi tuyến tính. |
Hồi quy (không phổ biến lắm) phân loại |
Rừng ngẫu nhiên | Thuật toán được xây dựng dựa trên cây quyết định để cải thiện độ chính xác một cách đáng kể. Rừng ngẫu nhiên tạo ra các cây quyết định đơn giản nhiều lần và sử dụng phương pháp 'bỏ phiếu đa số' để quyết định nhãn nào sẽ trả về. Đối với nhiệm vụ phân loại, dự đoán cuối cùng sẽ là dự đoán có nhiều phiếu bầu nhất; trong khi đối với nhiệm vụ hồi quy, dự đoán trung bình của tất cả các cây là dự đoán cuối cùng. | Hồi quy phân loại |
AdaBoost | Kỹ thuật phân loại hoặc hồi quy sử dụng vô số mô hình để đưa ra quyết định nhưng cân nhắc chúng dựa trên độ chính xác của chúng trong việc dự đoán kết quả | Hồi quy phân loại |
Cây tăng cường độ dốc | Cây tăng cường độ dốc là một kỹ thuật phân loại/hồi quy tiên tiến. Nó đang tập trung vào lỗi do các cây trước đó gây ra và cố gắng sửa nó. | Hồi quy phân loại |
Học tập không giám sát
Trong học tập không giám sát, thuật toán khám phá dữ liệu đầu vào mà không được cung cấp biến đầu ra rõ ràng (ví dụ: khám phá dữ liệu nhân khẩu học của khách hàng để xác định các mẫu)
Bạn có thể sử dụng nó khi bạn không biết cách phân loại dữ liệu và bạn muốn thuật toán tìm mẫu và phân loại dữ liệu cho bạn
Tên thuật toán | Mô tả Chi tiết | Kiểu |
---|---|---|
K-có nghĩa là phân cụm | Đưa dữ liệu vào một số nhóm (k) trong đó mỗi nhóm chứa dữ liệu có đặc điểm tương tự nhau (do mô hình xác định chứ không phải do con người xác định trước) | Clustering |
Mô hình hỗn hợp Gaussian | Sự khái quát hóa của phân cụm k-mean mang lại sự linh hoạt hơn về kích thước và hình dạng của các nhóm (cụm) | Clustering |
Phân cụm theo thứ bậc | Chia các cụm theo cây phân cấp để tạo thành hệ thống phân loại.
Có thể được sử dụng cho Cluster khách hàng có thẻ khách hàng thân thiết |
Clustering |
Hệ thống đề xuất | Giúp xác định dữ liệu liên quan để đưa ra khuyến nghị. | Clustering |
PCA/T-SNE | Chủ yếu được sử dụng để giảm tính chiều của dữ liệu. Các thuật toán giảm số lượng đặc trưng xuống còn 3 hoặc 4 vectơ có phương sai cao nhất. | Giảm thứ nguyên |
Cách chọn thuật toán học máy
Bây giờ trong hướng dẫn cơ bản về Machine learning này, chúng ta sẽ tìm hiểu cách chọn thuật toán Machine Learning (ML):
Có rất nhiều thuật toán học máy. Việc lựa chọn thuật toán dựa trên mục tiêu.
Trong ví dụ về Machine learning bên dưới, nhiệm vụ là dự đoán loại hoa trong số ba giống. Các dự đoán dựa trên chiều dài và chiều rộng của cánh hoa. Hình ảnh mô tả kết quả của mười thuật toán khác nhau. Hình ảnh phía trên bên trái là tập dữ liệu. Dữ liệu được phân thành ba loại: đỏ, xanh nhạt và xanh đậm. Có một số nhóm. Ví dụ, từ hình ảnh thứ hai, mọi thứ ở phía trên bên trái thuộc về loại màu đỏ, ở phần giữa, có sự kết hợp của sự không chắc chắn và màu xanh nhạt trong khi phía dưới tương ứng với loại tối. Các hình ảnh khác hiển thị các thuật toán khác nhau và cách chúng cố gắng phân loại dữ liệu.
Những thách thức và hạn chế của Machine Learning
Bây giờ trong hướng dẫn Machine learning này, chúng ta sẽ tìm hiểu về những hạn chế của Machine Learning:
Thách thức chính của học máy là thiếu dữ liệu hoặc tính đa dạng của tập dữ liệu. Máy không thể học nếu không có sẵn dữ liệu. Ngoài ra, một tập dữ liệu thiếu đa dạng sẽ khiến máy gặp khó khăn. Một cỗ máy cần phải có tính không đồng nhất để tìm hiểu những hiểu biết sâu sắc có ý nghĩa. Rất hiếm khi một thuật toán có thể trích xuất thông tin khi không có hoặc có ít biến thể. Nên có ít nhất 20 quan sát mỗi nhóm để giúp máy học hỏi. Hạn chế này dẫn đến việc đánh giá và dự đoán kém.
Ứng dụng học máy
Bây giờ trong bài hướng dẫn Machine learning này, chúng ta cùng tìm hiểu các ứng dụng của Machine Learning:
Mở rộng:
- Học máy, hỗ trợ con người thực hiện các công việc hàng ngày, về mặt cá nhân hoặc thương mại mà không có toàn quyền kiểm soát đầu ra. Học máy như vậy được sử dụng theo nhiều cách khác nhau như Trợ lý ảo, Phân tích dữ liệu, giải pháp phần mềm. Người dùng chính là giảm thiểu sai sót do sự thiên vị của con người.
Tự động hóa:
- Học máy, hoạt động hoàn toàn tự động trong bất kỳ lĩnh vực nào mà không cần bất kỳ sự can thiệp nào của con người. Ví dụ: robot thực hiện các bước quy trình thiết yếu trong các nhà máy sản xuất.
Ngành tài chính
- Học máy đang ngày càng phổ biến trong ngành tài chính. Các ngân hàng chủ yếu sử dụng ML để tìm ra các mẫu bên trong dữ liệu nhưng cũng để ngăn ngừa gian lận.
Tổ chức chính phủ
- Chính phủ sử dụng ML để quản lý các tiện ích và an toàn công cộng. Lấy ví dụ về Trung Quốc với khả năng nhận dạng khuôn mặt khổng lồ. Chính phủ sử dụng Trí tuệ nhân tạo để ngăn chặn người đi ẩu.
Ngành chăm sóc sức khỏe
- Chăm sóc sức khỏe là một trong những ngành đầu tiên sử dụng máy học với tính năng phát hiện hình ảnh.
Marketing
- Việc sử dụng rộng rãi AI được thực hiện trong tiếp thị nhờ khả năng truy cập dữ liệu dồi dào. Trước thời đại dữ liệu đại chúng, các nhà nghiên cứu phát triển các công cụ toán học tiên tiến như phân tích Bayes để ước tính giá trị của một khách hàng. Với sự bùng nổ của dữ liệu, bộ phận tiếp thị dựa vào AI để tối ưu hóa mối quan hệ khách hàng và chiến dịch tiếp thị.
Ví dụ về ứng dụng Machine Learning trong Chuỗi cung ứng
Học máy mang lại kết quả tuyệt vời cho việc nhận dạng mẫu trực quan, mở ra nhiều ứng dụng tiềm năng trong kiểm tra và bảo trì vật lý trên toàn bộ mạng lưới chuỗi cung ứng.
Học không giám sát có thể nhanh chóng tìm kiếm các mẫu có thể so sánh được trong tập dữ liệu đa dạng. Đổi lại, máy có thể thực hiện kiểm tra chất lượng trên toàn bộ trung tâm hậu cần, kiểm tra lô hàng có hư hỏng và hao mòn hay không.
Ví dụ, IBMNền tảng Watson của có thể xác định hư hỏng của container vận chuyển. Watson kết hợp dữ liệu trực quan và dữ liệu dựa trên hệ thống để theo dõi, báo cáo và đưa ra đề xuất trong thời gian thực.
Trong năm qua, người quản lý hàng tồn kho chủ yếu dựa vào phương pháp chính để đánh giá và dự báo hàng tồn kho. Khi kết hợp dữ liệu lớn và học máy, các kỹ thuật dự báo tốt hơn đã được triển khai (cải thiện từ 20 đến 30% so với các công cụ dự báo truyền thống). Về mặt doanh thu, điều đó có nghĩa là tăng từ 2 đến 3% do chi phí tồn kho có thể giảm.
Ví dụ về Machine Learning Google Car
Ví dụ: mọi người đều biết chiếc xe Google. Chiếc xe có đầy tia laze trên nóc xe để cho nó biết vị trí của nó trong khu vực xung quanh. Nó có radar ở phía trước, thông báo cho xe về tốc độ và chuyển động của tất cả các xe xung quanh. Nó sử dụng tất cả dữ liệu đó để không chỉ tìm ra cách lái xe mà còn tìm ra và dự đoán những người lái xe tiềm năng xung quanh xe sẽ làm gì. Điều ấn tượng là chiếc xe đang xử lý gần một gigabyte dữ liệu một giây.
Tại sao Học máy lại quan trọng?
Học máy là công cụ tốt nhất cho đến nay để phân tích, hiểu và xác định một mẫu trong dữ liệu. Một trong những ý tưởng chính đằng sau học máy là máy tính có thể được đào tạo để tự động hóa các nhiệm vụ mà con người có thể toàn diện hoặc không thể thực hiện được. Sự vi phạm rõ ràng so với phân tích truyền thống là học máy có thể đưa ra quyết định với sự can thiệp tối thiểu của con người.
Hãy lấy ví dụ sau cho hướng dẫn ML này; một đại lý bán lẻ có thể ước tính giá của một ngôi nhà dựa trên kinh nghiệm của chính mình và kiến thức của anh ta về thị trường.
Một cỗ máy có thể được đào tạo để chuyển đổi kiến thức của một chuyên gia thành các tính năng. Đặc điểm là tất cả những đặc điểm của một ngôi nhà, khu phố, môi trường kinh tế,… tạo nên sự khác biệt về giá cả. Đối với một chuyên gia, có lẽ anh ta phải mất vài năm mới thành thạo nghệ thuật ước tính giá một ngôi nhà. Trình độ chuyên môn của anh ngày càng tốt hơn sau mỗi lần bán hàng.
Đối với máy móc, phải mất hàng triệu dữ liệu (ví dụ) để làm chủ được nghệ thuật này. Khi bắt đầu quá trình học hỏi, chiếc máy mắc lỗi, giống như người bán hàng cấp dưới. Sau khi máy xem hết ví dụ, nó sẽ có đủ kiến thức để đưa ra ước tính. Đồng thời, với độ chính xác đáng kinh ngạc. Máy cũng có khả năng điều chỉnh sai sót của mình cho phù hợp.
Hầu hết các công ty lớn đều hiểu giá trị của việc học máy và lưu giữ dữ liệu. McKinsey đã ước tính rằng giá trị của phân tích dao động từ $9.5 nghìn tỷ đến $15.4 nghìn tỷ trong khi $5 đến 7 nghìn tỷ có thể là do các kỹ thuật AI tiên tiến nhất.
Đọc thêm Logic mờ là gì? Archikiến trúc, ứng dụng và ví dụ: Bấm vào đây