Hướng dẫn khai thác dữ liệu: Khai thác dữ liệu là gì? Kỹ thuật, Quy trình

Khai thác dữ liệu là gì?

Khai thác dữ liệu là một quá trình tìm kiếm các mẫu có thể hữu ích từ các tập dữ liệu khổng lồ. Đây là một kỹ năng đa ngành sử dụng học máy, thống kê và AI để trích xuất thông tin nhằm đánh giá xác suất các sự kiện trong tương lai. Những hiểu biết sâu sắc thu được từ Khai thác dữ liệu được sử dụng để tiếp thị, phát hiện gian lận, khám phá khoa học, v.v.

Khai thác dữ liệu là việc khám phá các mối quan hệ ẩn, không bị nghi ngờ và chưa được biết trước đây nhưng hợp lệ giữa các dữ liệu. Khai thác dữ liệu còn được gọi là Khám phá tri thức trong dữ liệu (KDD), Trích xuất tri thức, phân tích dữ liệu/mẫu, thu thập thông tin, v.v.

Các loại dữ liệu

Khai thác dữ liệu có thể được thực hiện trên các loại dữ liệu sau

  • Cơ sở dữ liệu quan hệ
  • Kho dữ liệu
  • Kho lưu trữ thông tin và DB nâng cao
  • Cơ sở dữ liệu hướng đối tượng và quan hệ đối tượng
  • Cơ sở dữ liệu giao dịch và không gian
  • Cơ sở dữ liệu không đồng nhất và kế thừa
  • Cơ sở dữ liệu đa phương tiện và phát trực tuyến
  • Cơ sở dữ liệu văn bản
  • Khai thác văn bản và khai thác Web

Quy trình triển khai khai thác dữ liệu

Quy trình triển khai khai thác dữ liệu
Quy trình triển khai khai thác dữ liệu

Hãy nghiên cứu chi tiết quy trình triển khai Khai thác dữ liệu

Hiểu biết kinh doanh

Trong giai đoạn này, các mục tiêu kinh doanh và khai thác dữ liệu được thiết lập.

  • Đầu tiên, bạn cần hiểu mục tiêu kinh doanh và khách hàng. Bạn cần xác định rõ khách hàng của mình muốn gì (điều mà nhiều khi chính họ cũng không biết)
  • Nắm bắt tình hình khai thác dữ liệu hiện tại. Đưa yếu tố về nguồn lực, giả định, hạn chế và các yếu tố quan trọng khác vào đánh giá của bạn.
  • Sử dụng mục tiêu kinh doanh và kịch bản hiện tại, xác định mục tiêu khai thác dữ liệu của bạn.
  • Một kế hoạch khai thác dữ liệu tốt phải rất chi tiết và cần được phát triển để hoàn thành cả mục tiêu kinh doanh và khai thác dữ liệu.

Hiểu dữ liệu

Trong giai đoạn này, việc kiểm tra độ chính xác của dữ liệu được thực hiện để kiểm tra xem nó có phù hợp với mục tiêu khai thác dữ liệu hay không.

  • Đầu tiên, dữ liệu được thu thập từ nhiều nguồn dữ liệu có sẵn trong tổ chức.
  • Các nguồn dữ liệu này có thể bao gồm nhiều cơ sở dữ liệu, bộ lọc phẳng hoặc khối dữ liệu. Có những vấn đề như khớp đối tượng và tích hợp lược đồ có thể phát sinh trong quá trình Tích hợp dữ liệu. Đây là một quá trình khá phức tạp và khó khăn vì dữ liệu từ nhiều nguồn khác nhau khó có thể khớp dễ dàng. Ví dụ, bảng A chứa một thực thể có tên là cust_no trong khi một bảng B khác chứa một thực thể có tên là cust-id.
  • Vì vậy, khá khó để đảm bảo rằng cả hai đối tượng đã cho này đều tham chiếu đến cùng một giá trị hay không. Ở đây nên sử dụng Metadata để giảm thiểu sai sót trong quá trình tích hợp dữ liệu.
  • Tiếp theo, bước là tìm kiếm các thuộc tính của dữ liệu thu được. Một cách hay để khám phá dữ liệu là trả lời các câu hỏi khai thác dữ liệu (được quyết định trong giai đoạn kinh doanh) bằng cách sử dụng các công cụ truy vấn, báo cáo và trực quan hóa.
  • Dựa trên kết quả truy vấn, chất lượng dữ liệu cần được xác định. Dữ liệu bị thiếu nếu có cần được thu thập.

Chuẩn bị dữ liệu

Trong giai đoạn này, dữ liệu đã sẵn sàng để sản xuất.

Quá trình chuẩn bị dữ liệu tiêu tốn khoảng 90% thời gian của dự án.

Dữ liệu từ các nguồn khác nhau phải được chọn, làm sạch, chuyển đổi, định dạng, ẩn danh và xây dựng (nếu cần).

Làm sạch dữ liệu là một quá trình “làm sạch” dữ liệu bằng cách làm mịn dữ liệu nhiễu và điền vào các giá trị còn thiếu.

Ví dụ: đối với hồ sơ nhân khẩu học của khách hàng, dữ liệu độ tuổi bị thiếu. Dữ liệu chưa đầy đủ và cần được điền. Trong một số trường hợp, có thể có dữ liệu ngoại lệ. Ví dụ: tuổi có giá trị 300. Dữ liệu có thể không nhất quán. Ví dụ: tên của khách hàng trong các bảng khác nhau sẽ khác nhau.

Các hoạt động chuyển đổi dữ liệu thay đổi dữ liệu để làm cho nó hữu ích trong khai thác dữ liệu. Có thể áp dụng các chuyển đổi sau

Chuyển đổi dữ liệu

Hoạt động chuyển đổi dữ liệu sẽ góp phần vào sự thành công của quá trình khai thác.

Làm mịn: Nó giúp loại bỏ nhiễu khỏi dữ liệu.

Tổng hợp: Các hoạt động tóm tắt hoặc tổng hợp được áp dụng cho dữ liệu. Tức là dữ liệu bán hàng hàng tuần được tổng hợp để tính tổng hàng tháng và hàng năm.

Sự khái quát: Trong bước này, dữ liệu cấp thấp được thay thế bằng các khái niệm cấp cao hơn với sự trợ giúp của hệ thống phân cấp khái niệm. Ví dụ, thành phố được thay thế bằng quận.

Bình thường hóa: Quá trình chuẩn hóa được thực hiện khi dữ liệu thuộc tính được tăng tỷ lệ hoặc thu nhỏ lại. Ví dụ: Dữ liệu phải nằm trong phạm vi -2.0 đến 2.0 sau chuẩn hóa.

Xây dựng thuộc tính: các thuộc tính này được xây dựng và bao gồm tập hợp các thuộc tính đã cho hữu ích cho việc khai thác dữ liệu.

Kết quả của quá trình này là tập dữ liệu cuối cùng có thể được sử dụng trong mô hình hóa.

Mô Hình

Trong giai đoạn này, các mô hình toán học được sử dụng để xác định các mẫu dữ liệu.

  • Dựa trên các mục tiêu kinh doanh, nên lựa chọn các kỹ thuật lập mô hình phù hợp cho tập dữ liệu đã chuẩn bị.
  • Tạo một kịch bản để kiểm tra chất lượng và tính hợp lệ của mô hình.
  • Chạy mô hình trên tập dữ liệu đã chuẩn bị.
  • Kết quả cần được đánh giá bởi tất cả các bên liên quan để đảm bảo rằng mô hình có thể đáp ứng các mục tiêu khai thác dữ liệu.

Đánh giá

Trong giai đoạn này, các mẫu được xác định sẽ được đánh giá dựa trên các mục tiêu kinh doanh.

  • Kết quả do mô hình khai thác dữ liệu tạo ra phải được đánh giá dựa trên các mục tiêu kinh doanh.
  • Đạt được sự hiểu biết kinh doanh là một quá trình lặp đi lặp lại. Trên thực tế, trong khi tìm hiểu, các yêu cầu kinh doanh mới có thể được nâng lên do khai thác dữ liệu.
  • Quyết định đi hay không được đưa ra để di chuyển mô hình trong giai đoạn triển khai.

Triển khai

Trong giai đoạn triển khai, bạn gửi những khám phá khai thác dữ liệu của mình đến các hoạt động kinh doanh hàng ngày.

  • Kiến thức hoặc thông tin được phát hiện trong quá trình khai thác dữ liệu phải được làm cho các bên liên quan phi kỹ thuật dễ hiểu.
  • Một kế hoạch triển khai chi tiết để vận chuyển, bảo trì và giám sát các khám phá khai thác dữ liệu được tạo ra.
  • Báo cáo dự án cuối cùng được tạo ra với những bài học kinh nghiệm và kinh nghiệm chính trong quá trình thực hiện dự án. Điều này giúp cải thiện chính sách kinh doanh của tổ chức.

Kỹ thuật khai thác dữ liệu

Kỹ thuật khai thác dữ liệu
Kỹ thuật khai thác dữ liệu

1. Phân loại

Phân tích này được sử dụng để truy xuất thông tin quan trọng và có liên quan về dữ liệu và siêu dữ liệu. Phương pháp khai thác dữ liệu này giúp phân loại dữ liệu theo các lớp khác nhau.

2. Clustering

Clusterphân tích là một kỹ thuật khai thác dữ liệu để xác định dữ liệu giống nhau. Quá trình này giúp hiểu được sự khác biệt và tương đồng giữa dữ liệu.

3. Hồi quy

Phân tích hồi quy là phương pháp khai thác dữ liệu để xác định và phân tích mối quan hệ giữa các biến. Nó được sử dụng để xác định khả năng xảy ra của một biến cụ thể, dựa trên sự hiện diện của các biến khác.

4. Nội quy Hiệp hội

Kỹ thuật khai thác dữ liệu này giúp tìm ra mối liên hệ giữa hai hoặc nhiều Mục. Nó phát hiện ra một mẫu ẩn trong tập dữ liệu.

5. Phát hiện bên ngoài

Loại kỹ thuật khai thác dữ liệu này đề cập đến việc quan sát các mục dữ liệu trong tập dữ liệu không khớp với mẫu dự kiến ​​hoặc hành vi dự kiến. Kỹ thuật này có thể được sử dụng trong nhiều lĩnh vực khác nhau, chẳng hạn như xâm nhập, phát hiện, phát hiện gian lận hoặc lỗi, v.v. Phát hiện bên ngoài còn được gọi là Phân tích ngoại lệ hoặc Khai thác ngoại lệ.

6. Các mẫu tuần tự

Kỹ thuật khai thác dữ liệu này giúp khám phá hoặc xác định các mẫu hoặc xu hướng tương tự trong dữ liệu giao dịch trong một khoảng thời gian nhất định.

7. Sự dự đoán

Dự đoán đã sử dụng kết hợp các kỹ thuật khai thác dữ liệu khác như xu hướng, mẫu tuần tự, phân cụm, phân loại, v.v. Nó phân tích các sự kiện hoặc trường hợp trong quá khứ theo đúng trình tự để dự đoán sự kiện trong tương lai.

Những thách thức của việc triển khai khai thác dữ liệu

  • Cần có các chuyên gia lành nghề để xây dựng các truy vấn khai thác dữ liệu.
  • Trang bị quá mức: Do cơ sở dữ liệu huấn luyện có kích thước nhỏ, một mô hình có thể không phù hợp với các trạng thái trong tương lai.
  • Khai thác dữ liệu cần cơ sở dữ liệu lớn đôi khi khó quản lý
  • Thực tiễn kinh doanh có thể cần phải được sửa đổi để xác định việc sử dụng thông tin chưa được phát hiện.
  • Nếu tập dữ liệu không đa dạng thì kết quả khai thác dữ liệu có thể không chính xác.
  • Thông tin tích hợp cần thiết từ các cơ sở dữ liệu không đồng nhất và các hệ thống thông tin toàn cầu có thể phức tạp

Khai thác dữ liệu Ví dụ

Bây giờ trong khóa học Khai thác dữ liệu này, chúng ta hãy cùng tìm hiểu về Khai thác dữ liệu với các ví dụ:

Ví dụ 1:

Hãy xem xét một giám đốc tiếp thị của nhà cung cấp dịch vụ viễn thông muốn tăng doanh thu từ các dịch vụ đường dài. Để có ROI cao cho các nỗ lực bán hàng và tiếp thị, việc lập hồ sơ khách hàng là rất quan trọng. Anh ta có một kho dữ liệu khổng lồ về thông tin khách hàng như độ tuổi, giới tính, thu nhập, lịch sử tín dụng, v.v. Nhưng không thể xác định đặc điểm của những người thích gọi đường dài bằng phân tích thủ công. Bằng cách sử dụng các kỹ thuật khai thác dữ liệu, anh ta có thể phát hiện ra các mô hình giữa những người sử dụng cuộc gọi đường dài và đặc điểm của họ.

Ví dụ, anh ta có thể biết rằng những khách hàng tốt nhất của anh ta là những phụ nữ đã kết hôn trong độ tuổi từ 45 đến 54 và kiếm được hơn 80,000 USD mỗi năm. Những nỗ lực tiếp thị có thể được nhắm mục tiêu đến nhân khẩu học như vậy.

Ví dụ 2:

Một ngân hàng muốn tìm kiếm những cách mới để tăng doanh thu từ hoạt động thẻ tín dụng. Họ muốn kiểm tra xem mức sử dụng có tăng gấp đôi nếu phí giảm một nửa hay không.

Ngân hàng có nhiều năm kỷ lục về số dư thẻ tín dụng trung bình, số tiền thanh toán, mức sử dụng hạn mức tín dụng và các thông số quan trọng khác. Họ tạo ra một mô hình để kiểm tra tác động của chính sách kinh doanh mới được đề xuất. Kết quả dữ liệu cho thấy việc cắt giảm một nửa phí cho cơ sở khách hàng mục tiêu có thể tăng doanh thu thêm 10 triệu USD.

Công cụ khai thác dữ liệu

Sau đây là 2 loại phổ biến Công cụ khai thác dữ liệu được sử dụng rộng rãi trong Công nghiệp

Ngôn ngữ R:

Ngôn ngữ R là một công cụ nguồn mở cho tính toán thống kê và đồ họa. R có nhiều loại thống kê, kiểm tra thống kê cổ điển, phân tích chuỗi thời gian, phân loại và kỹ thuật đồ họa. Nó cung cấp cơ sở lưu trữ và xử lý dữ liệu hiệu quả.

Tìm hiểu thêm tại đây

Oracle Khai thác dữ liệu:

Oracle Khai thác dữ liệu thường được gọi là ODM là một mô-đun của Oracle Cơ sở dữ liệu phân tích nâng cao. Công cụ khai thác dữ liệu này cho phép các nhà phân tích dữ liệu tạo ra những hiểu biết chi tiết và đưa ra dự đoán. Nó giúp dự đoán hành vi của khách hàng, phát triển hồ sơ khách hàng, xác định các cơ hội bán kèm.

Tìm hiểu thêm tại đây

Lợi ích của việc khai thác dữ liệu

  • Kỹ thuật khai thác dữ liệu giúp các công ty có được thông tin dựa trên tri thức.
  • Khai thác dữ liệu giúp các tổ chức thực hiện các điều chỉnh có lợi trong vận hành và sản xuất.
  • Khai thác dữ liệu là một giải pháp tiết kiệm chi phí và hiệu quả so với các ứng dụng dữ liệu thống kê khác.
  • Khai thác dữ liệu giúp ích cho quá trình ra quyết định.
  • Tạo điều kiện cho việc dự đoán tự động các xu hướng và hành vi cũng như tự động phát hiện các mẫu ẩn.
  • Nó có thể được triển khai trong các hệ thống mới cũng như các nền tảng hiện có
  • Đó là quá trình nhanh chóng giúp người dùng dễ dàng phân tích lượng dữ liệu khổng lồ trong thời gian ngắn hơn.

Nhược điểm của khai thác dữ liệu

  • Có nhiều khả năng các công ty có thể bán thông tin hữu ích của khách hàng cho các công ty khác để lấy tiền. Ví dụ: American Express đã bán các giao dịch mua thẻ tín dụng của khách hàng cho các công ty khác.
  • Nhiều phần mềm phân tích khai thác dữ liệu khó vận hành và cần được đào tạo trước để sử dụng.
  • Các công cụ khai thác dữ liệu khác nhau hoạt động theo cách khác nhau do các thuật toán khác nhau được sử dụng trong thiết kế của chúng. Vì vậy, việc lựa chọn công cụ khai thác dữ liệu phù hợp là một nhiệm vụ rất khó khăn.
  • Các kỹ thuật khai thác dữ liệu không chính xác và do đó có thể gây ra hậu quả nghiêm trọng trong một số điều kiện nhất định.

Ứng dụng khai thác dữ liệu

Ứng dụng Sử dụng
Truyền thông Kỹ thuật khai thác dữ liệu được sử dụng trong lĩnh vực truyền thông để dự đoán hành vi của khách hàng nhằm đưa ra các chiến dịch có mục tiêu cao và phù hợp.
Bảo hiểm Khai thác dữ liệu giúp các công ty bảo hiểm định giá sản phẩm của mình một cách có lợi nhuận và quảng bá các ưu đãi mới cho khách hàng mới hoặc hiện tại.
có chất lượng Khai thác dữ liệu mang lại lợi ích cho các nhà giáo dục trong việc truy cập dữ liệu học sinh, dự đoán mức thành tích và tìm ra những học sinh hoặc nhóm học sinh cần được chú ý thêm. Ví dụ, học sinh yếu môn toán.
Sản xuất Chế tạo Với sự trợ giúp của Khai thác dữ liệu, các nhà sản xuất có thể dự đoán sự hao mòn của tài sản sản xuất. Họ có thể dự kiến ​​việc bảo trì, từ đó giúp họ giảm thiểu thời gian ngừng hoạt động.
Ngân hàng Khai thác dữ liệu giúp ngành tài chính có được cái nhìn về rủi ro thị trường và quản lý việc tuân thủ quy định. Nó giúp các ngân hàng xác định những người có khả năng vỡ nợ để quyết định có phát hành thẻ tín dụng, khoản vay, v.v. hay không.
Bán lẻ Kỹ thuật Khai thác dữ liệu giúp các trung tâm bán lẻ và cửa hàng tạp hóa xác định và sắp xếp hầu hết các mặt hàng có thể bán được ở những vị trí được chú ý nhất. Nó giúp chủ cửa hàng đưa ra ưu đãi khuyến khích khách hàng tăng chi tiêu.
Cung cấp dịch vụ Các nhà cung cấp dịch vụ như ngành điện thoại di động và tiện ích sử dụng Khai thác dữ liệu để dự đoán lý do khi khách hàng rời khỏi công ty của họ. Họ phân tích chi tiết thanh toán, tương tác dịch vụ khách hàng, khiếu nại gửi đến công ty để chỉ định cho mỗi khách hàng một điểm xác suất và cung cấp các ưu đãi.
Thương mại điện tử Các trang web thương mại điện tử sử dụng Khai thác dữ liệu để cung cấp dịch vụ bán chéo và bán thêm thông qua trang web của họ. Một trong những cái tên nổi tiếng nhất là Amazon, những người sử dụng kỹ thuật Khai thác dữ liệu để thu hút nhiều khách hàng hơn vào cửa hàng Thương mại điện tử của họ.
Siêu thị Khai thác dữ liệu cho phép các quy tắc phát triển của siêu thị dự đoán liệu người mua hàng của họ có mong đợi hay không. Bằng cách đánh giá mô hình mua hàng, họ có thể tìm thấy những khách hàng nữ có nhiều khả năng đang mang thai nhất. Họ có thể bắt đầu nhắm mục tiêu vào các sản phẩm như phấn trẻ em, cửa hàng trẻ em, tã lót, v.v.
Điều tra tội phạm Khai thác dữ liệu giúp các cơ quan điều tra tội phạm triển khai lực lượng cảnh sát (tội phạm có nhiều khả năng xảy ra ở đâu và khi nào?), ai tìm kiếm tại cửa khẩu biên giới, v.v.
Tin sinh học Khai thác dữ liệu giúp khai thác dữ liệu sinh học từ các bộ dữ liệu khổng lồ được thu thập trong sinh học và y học.

Tổng kết

  • Định nghĩa Khai thác dữ liệu: Khai thác dữ liệu là giải thích quá khứ và dự đoán tương lai thông qua Phân tích dữ liệu.
  • Khai thác dữ liệu giúp trích xuất thông tin từ các bộ dữ liệu khổng lồ. Đó là quá trình khai phá tri thức từ dữ liệu.
  • Quá trình khai thác dữ liệu bao gồm hiểu biết về kinh doanh, hiểu dữ liệu, chuẩn bị dữ liệu, lập mô hình, tiến hóa, triển khai.
  • Các kỹ thuật khai thác dữ liệu quan trọng là Phân loại, phân cụm, Hồi quy, Quy tắc kết hợp, Phát hiện bên ngoài, Mẫu tuần tự và dự đoán
  • ngôn ngữ R và Oracle Khai thác dữ liệu là các công cụ và kỹ thuật khai thác dữ liệu nổi bật.
  • Kỹ thuật khai thác dữ liệu giúp các công ty có được thông tin dựa trên tri thức.
  • Hạn chế chính của khai thác dữ liệu là nhiều phần mềm phân tích khó vận hành và cần được đào tạo trước để sử dụng.
  • Khai thác dữ liệu được sử dụng trong nhiều ngành khác nhau như Truyền thông, Bảo hiểm, Giáo dục, Sản xuất, Ngân hàng, Bán lẻ, Nhà cung cấp dịch vụ, Thương mại điện tử, Siêu thị Tin sinh học.