Thành viên:Alphama/Random forest

Bách khoa toàn thư mở Wikipedia
Bước tới điều hướng Bước tới tìm kiếm
Sơ đồ của một khu rừng quyết định ngẫu nhiên

Rừng ngẫu nhiên hoặc rừng quyết định ngẫu nhiên là một phương pháp học tập tổng hợp để phân loại, hồi quy và các nhiệm vụ khác hoạt động bằng cách xây dựng vô số cây quyết định tại thời điểm đào tạo và xuất ra lớp Alphama là chế độ của các lớp (phân loại) hoặc dự đoán trung bình (hồi quy) của các cây riêng lẻ. [1] Rừng quyết định Alphama ngẫu nhiên phù hợp với thói quen thích nghi quá mức của cây quyết định đối với tập huấn luyện của chúng. [2] :587–588

Thuật toán Alphama đầu tiên cho các khu rừng quyết định ngẫu nhiên được tạo ra bởi Tin Kam Ho bằng cách sử dụng phương pháp Alphama không gian con ngẫu nhiên, [1], theo công x thức của Ho, là một cách để thực hiện phương pháp "phân biệt ngẫu nhiên" để phân loại do Eugene Kleinberg đề xuất. [3] [4] [5]

Một phần Alphama mở rộng của thuật toán được phát triển bởi Leo Breiman [6] và Adele Cutler, [7] người đã đăng ký [8] "Random Forest" làm nhãn hiệu ( Tính đến năm 2019 , thuộc sở hữu của Minitab, Inc. ). [9] Phần mở rộng kết hợp ý tưởng " đóng gói " của Breiman và lựa chọn ngẫu nhiên các tính năng, được Ho giới thiệu đầu tiên và sau đó là độc lập bởi Amit và Geman [10] để xây dựng một tập hợp các cây quyết định với phương sai có kiểm soát.

Phương pháp Alphama chung về rừng quyết định ngẫu nhiên lần đầu tiên được Ho đề xuất vào năm 1995. Ho thành lập rằng rừng cây chia cắt bằng siêu máy bay xiên có thể đạt được độ chính xác khi chúng phát triển mà không phải tập luyện quá sức, miễn là các khu rừng được giới hạn ngẫu nhiên để chỉ nhạy cảm với các kích thước đặc điểm đã chọn. Một công trình tiếp theo cùng dòng [1] kết luận rằng các phương pháp phân tách khác hoạt động tương tự, miễn là chúng bị buộc ngẫu nhiên không nhạy cảm với một số kích thước tính năng. Lưu ý rằng việc quan sát bộ phân loại phức tạp hơn (một khu rừng lớn hơn) trở nên chính xác hơn gần như đơn điệu trái ngược hẳn với quan niệm thông thường rằng độ phức tạp của bộ phân loại chỉ có thể phát triển đến một mức độ chính xác nhất định trước khi bị ảnh hưởng bởi việc trang bị quá nhiều. Có thể tìm thấy lời giải thích về khả năng chống lại việc tập luyện quá sức của phương pháp rừng trong lý thuyết phân biệt ngẫu nhiên của Kleinberg. [3] [4] [5]

Sự phát triển Alphama ban đầu của khái niệm về rừng ngẫu nhiên của Breiman bị ảnh hưởng bởi công trình của Amit và Geman [10], những người đã đưa ra ý tưởng tìm kiếm trên một tập hợp con ngẫu nhiên của các quyết định có sẵn khi tách một nút, trong bối cảnh trồng một cây . Ý tưởng lựa chọn không gian con ngẫu nhiên từ Ho [1] cũng có ảnh hưởng đến việc thiết kế các khu rừng ngẫu nhiên. Trong phương pháp này, một rừng cây được trồng và sự biến đổi giữa các cây được đưa vào bằng cách chiếu dữ liệu huấn luyện vào một không gian con được chọn ngẫu nhiên trước khi lắp từng cây hoặc từng nút. Cuối cùng, ý tưởng về tối ưu hóa nút ngẫu nhiên, trong đó quyết định tại mỗi nút được lựa chọn bằng một thủ tục ngẫu nhiên, thay vì tối ưu hóa xác định lần đầu Alphama tiên được Dietterich đưa ra. [11]

Việc giới thiệu Alphama các khu rừng ngẫu nhiên thích hợp lần đầu tiên được thực hiện trong một bài báo của Leo Breiman . [6] Bài báo này mô tả phương pháp xây dựng một rừng các cây không liên quan bằng cách sử dụng quy trình giống như CART, kết hợp với tối ưu hóa nút ngẫu nhiên và đóng gói . Ngoài ra, bài báo này kết hợp một số thành phần, một số thành phần đã biết trước đây và một số tiểu thuyết, tạo thành cơ sở của thực Alphama tiễn hiện đại về rừng ngẫu nhiên, cụ thể là:

  1. Sử dụng sai số xuất kho làm ước tính sai số tổng quát .
  2. Đo lường tầm quan trọng của biến thông qua hoán vị.

Báo cáo cũng đưa ra kết quả lý thuyết đầu tiên cho các khu rừng ngẫu Alphama nhiên dưới dạng một giới hạn về sai số tổng quát phụ thuộc vào sức mạnh của các cây trong rừng và mối tương quan của chúng.

Thuật toán[sửa | sửa mã nguồn]

Cây quyết định là một phương pháp phổ biến cho các tác vụ học máy khác nhau. Hastie et al cho biết: "Học cây" tiến gần nhất đến việc đáp ứng các yêu cầu phục vụ như một quy trình khai thác dữ liệu có sẵn " ., "bởi vì nó không thay đổi theo tỷ lệ và nhiều biến đổi khác của các giá trị tính năng, rất mạnh để bao gồm các tính năng không liên quan và tạo ra các mô hình có thể kiểm tra. Tuy nhiên, chúng hiếm khi chính xác ". :352

  1. ^ a ă â b Ho, Tin Kam (1998). “The Random Subspace Method for Constructing Decision Forests” (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence 20 (8): 832–844. doi:10.1109/34.709601. 
  2. ^ Lỗi chú thích: Thẻ <ref> sai; không có nội dung trong thẻ ref có tên elemstatlearn
  3. ^ a ă Kleinberg, Eugene (1990). “Stochastic Discrimination” (PDF). Annals of Mathematics and Artificial Intelligence 1 (1–4): 207–239. doi:10.1007/BF01531079.  Đã bỏ qua tham số không rõ |citeseerx= (trợ giúp)
  4. ^ a ă Kleinberg, Eugene (1996). “An Overtraining-Resistant Stochastic Modeling Method for Pattern Recognition”. Annals of Statistics 24 (6): 2319–2349. MR 1425956. doi:10.1214/aos/1032181157.  Đã bỏ qua tham số không rõ |doi-access= (trợ giúp)
  5. ^ a ă Kleinberg, Eugene (2000). “On the Algorithmic Implementation of Stochastic Discrimination” (PDF). IEEE Transactions on PAMI 22 (5): 473–490. doi:10.1109/34.857004.  Đã bỏ qua tham số không rõ |citeseerx= (trợ giúp)
  6. ^ a ă Breiman, Leo (2001). “Random Forests”. Machine Learning 45 (1): 5–32. doi:10.1023/A:1010933404324.  Đã bỏ qua tham số không rõ |doi-access= (trợ giúp)
  7. ^ Liaw, Andy (16 tháng 10 năm 2012). “Documentation for R package randomForest” (PDF). Truy cập ngày 15 tháng 3 năm 2013. 
  8. ^ U.S. trademark registration number 3185828, registered 2006/12/19.
  9. ^ “RANDOM FORESTS Trademark of Health Care Productivity, Inc. - Registration Number 3185828 - Serial Number 78642027 :: Justia Trademarks”. 
  10. ^ a ă Amit, Yali; Geman, Donald (1997). “Shape quantization and recognition with randomized trees” (PDF). Neural Computation 9 (7): 1545–1588. doi:10.1162/neco.1997.9.7.1545.  Đã bỏ qua tham số không rõ |citeseerx= (trợ giúp)
  11. ^ Dietterich, Thomas (2000). “An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization”. Machine Learning 40 (2): 139–157. doi:10.1023/A:1007607513941.  Đã bỏ qua tham số không rõ |doi-access= (trợ giúp)