Trong trí tuệ nhân tạo và máy học, khai thác dữ liệu là sự trích xuất không thường xuyên của thông tin tiềm ẩn, chưa biết trước đây và có thể hữu ích từ dữ liệu. Một thuật toán trong khai thác dữ liệu là một tập hợp các phép tính toán và kinh nghiệm để tạo ra một mô hình từ dữ liệu. Kỹ thuật khai thác dữ liệu trong dữ liệu được khai thác được sử dụng bởi trí tuệ nhân tạo hệ thống tạo giải pháp. Khai thác dữ liệu đóng vai trò là nền tảng cho trí tuệ nhân tạo. AI trong khai thác dữ liệu là một phần của mã lập trình với thông tin và dữ liệu cần thiết.
Dưới đây là danh sách các thuật toán khai thác dữ liệu dựa trên AI hàng đầu:
Thuật toán C4.5: C4.5 xây dựng một bộ phân loại ở dạng cây quyết định. Các hệ thống này lấy đầu vào từ một tập hợp các trường hợp trong đó mỗi trường hợp thuộc một trong số lượng nhỏ các lớp và được mô tả bằng các giá trị của nó cho một tập thuộc tính cố định. Bộ phân loại là một công cụ trong khai thác dữ liệu lấy một loạt dữ liệu đại diện cho những thứ chúng ta muốn phân loại và cố gắng dự đoán dữ liệu mới thuộc về lớp nào. Nó sử dụng cây quyết định trong đó cây ban đầu đầu tiên được thu nhận bằng cách sử dụng thuật toán chia và chinh phục. C4.5 được cung cấp một tập hợp dữ liệu đại diện cho những thứ đã được phân loại.
Thuật toán k-mean: k-means tạo k nhóm từ một tập hợp các đối tượng để các thành viên của một nhóm giống nhau hơn. Đó là một kỹ thuật phân tích cụm phổ biến để khám phá một tập dữ liệu. Nó chọn các điểm trong không gian đa chiều để đại diện cho từng cụm k. Chúng được gọi là centroid. k-mean sau đó tìm trung tâm cho mỗi cụm k dựa trên các thành viên cụm của nó. k-means có thể được sử dụng để phân cụm trước một tập dữ liệu lớn, sau đó là phân tích cụm đắt tiền hơn trên các cụm con.
Thuật toán tối đa hóa kỳ vọng: Trong khai thác dữ liệu, E thường được sử dụng như một thuật toán phân cụm để khám phá kiến thức. EM rất đơn giản để thực hiện. Và nó không chỉ có thể tối ưu hóa cho các thông số mô hình mà còn có thể đoán dữ liệu bị thiếu. Điều này làm cho nó tuyệt vời để phân cụm và tạo ra một mô hình với các tham số. Biết các cụm và tham số mô hình, có thể suy luận về điểm chung của các cụm và dữ liệu mới của cụm nào thuộc về.
k-Thuật toán láng giềng gần nhất: kNN là một thuật toán phân loại. Tuy nhiên, nó khác với các bộ phân loại được mô tả trước đây vì nó là một kẻ lười học. kNN có thể rất tốn kém về mặt tính toán khi cố gắng xác định các láng giềng gần nhất trên một tập dữ liệu lớn. Việc chọn một thước đo khoảng cách tốt là rất quan trọng đối với độ chính xác của kNN.
Thuật toán Naive Bayes: Thuật toán này dựa trên định lý Bayes. Điều này chủ yếu được sử dụng khi kích thước của đầu vào cao. Bộ phân loại này có thể dễ dàng tính toán đầu ra tiếp theo có thể. Mỗi lớp có một tập các vectơ đã biết nhằm mục đích tạo ra một quy tắc cho phép các đối tượng được gán cho các lớp trong tương lai. Đây là một trong những điều thoải mái nhất Thuật toán AI và không có bất kỳ tham số phức tạp nào. Nó cũng có thể dễ dàng áp dụng cho các tập dữ liệu lớn. Nó không cần bất kỳ lược đồ ước tính tham số lặp lại phức tạp nào và do đó người dùng chưa có kinh nghiệm có thể hiểu điều này.
Thuật toán GIỎ HÀNG: CART là viết tắt của cây phân loại và cây hồi quy. Nó là một kỹ thuật học cây quyết định cho ra kết quả là cây phân loại hoặc cây hồi quy. Scikit-learning triển khai CART trong bộ phân loại cây quyết định của họ. Gói cây của R có triển khai CART. Weka và MATLAB cũng có các triển khai.
Thuật toán Xếp hạng Trang: PageRank là một thuật toán phân tích liên kết được thiết kế để xác định tầm quan trọng tương đối của một số đối tượng được liên kết trong một mạng lưới các đối tượng. Điểm hấp dẫn chính của PageRank là tính mạnh mẽ của nó do khó có được một liên kết đến có liên quan. Nhãn hiệu của nó thuộc sở hữu của Google.
Thuật toán AdaBoost: AdaBoost là một sự thúc đẩy thuật toán cấu tạo một bộ phân loại. Thuật toán này tương đối đơn giản để lập trình. Đó là một cách cực kỳ thanh lịch để tự động điều chỉnh bộ phân loại vì mỗi vòng AdaBoost kế tiếp sẽ tinh chỉnh trọng số cho từng người học giỏi nhất. Tất cả những gì bạn cần chỉ định là số vòng. nó linh hoạt và đa năng.
Hỗ trợ máy vectơ Thuật toán: SVM chủ yếu được sử dụng để học các chức năng phân loại, hồi quy hoặc xếp hạng. Nó được hình thành dựa trên lý thuyết giảm thiểu rủi ro cấu trúc và thống kê học. Nó giúp phân tách các lớp một cách tối ưu. Công việc chính của SVM là xác định mức lợi nhuận tối đa giữa hai loại. Đây là một thuật toán được giám sát và tập dữ liệu được sử dụng trước tiên để cho SVM biết về tất cả các lớp.
Thuật toán Apriori: Điều này được sử dụng rộng rãi để tìm các tập phổ biến từ tập dữ liệu giao dịch và lấy các quy tắc kết hợp. Khi chúng ta nhận được các tập phổ biến, rõ ràng là tạo các quy tắc kết hợp để có độ tin cậy tối thiểu được chỉ định lớn hơn hoặc bằng. Apriori là một thuật toán giúp tìm kiếm các tập dữ liệu thông thường bằng cách sử dụng thế hệ ứng viên. Sau khi ra mắt Apriori khai thác dữ liệu nghiên cứu đã được thúc đẩy cụ thể. Nó rất đơn giản và dễ thực hiện.
Source link : analyticsinsight.net (post by Automation bot)