Học máy
Học máy, có tài liệu gọi là Máy học, (tiếng Anh: machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kĩ thuật cho phép các máy tính có thể "học". Cụ thể hơn, học máy là một phương pháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu. Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lí được.
Học máy có tính ứng dụng rất cao bao gồm máy truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt (robot locomotion).
Mục lục |
Tương tác với con người [sửa]
Một số hệ thống học máy nỗ lực loại bỏ nhu cầu trực giác của con người trong việc phân tích dữ liệu, trong khi các hệ thống khác hướng đến việc tăng sự cộng tác giữa người và máy. Không thể loại bỏ hoàn toàn tác động của con người vì các nhà thiết kế hệ thống phải chỉ định cách biểu diễn của dữ liệu và những cơ chế nào sẽ được dùng để tìm kiếm các đặc tính của dữ liệu. Học máy có thể được xem là một nỗ lực để tự động hóa một số phần của phương pháp khoa học. Một số nhà nghiên cứu học máy tạo ra các phương pháp bên trong các khuôn khổ của thống kê Bayes.
Các loại giải thuật [sửa]
Các thuật toán học máy được phân loại theo kết quả mong muốn của thuật toán. Các loại thuật toán thường dùng bao gồm:
- Học có giám sát -- trong đó, thuật toán tạo ra một hàm ánh xạ dữ liệu vào tới kết quả mong muốn. Một phát biểu chuẩn về một việc học có giám sát là bài toán phân loại: chương trình cần học (cách xấp xỉ biểu hiện của) một hàm ánh xạ một vector
tới một vài lớp bằng cách xem xét một số mẫu dữ liệu - kết quả của hàm đó. - Học không giám sát -- mô hình hóa một tập dữ liệu, không có sẵn các ví dụ đã được gắn nhãn.
- Học nửa giám sát -- kết hợp các ví dụ có gắn nhãn và không gắn nhãn để sinh một hàm hoặc một bộ phân loại thích hợp.
- Học tăng cường -- trong đó, thuật toán học một chính sách hành động tùy theo các quan sát về thế giới. Mỗi hành động đều có tác động tới môi trường, và môi trường cung cấp thông tin phản hồi để hướng dẫn cho thuật toán của quá trình học.
- Chuyển đổi -- tương tự học có giám sát nhưng không xây dựng hàm một cách rõ ràng. Thay vì thế, cố gắng đoán kết quả mới dựa vào các dữ liệu huấn luyện, kết quả huấn luyện, và dữ liệu thử nghiệm có sẵn trong quá trình huấn luyện.
- Học cách học -- trong đó thuật toán học thiên kiến quy nạp của chính mình, dựa theo các kinh nghiệm đã gặp.
Phân tích hiệu quả các thuật toán học máy là một nhánh của ngành thống kê, được biết với tên lý thuyết học điện toán.
Các chủ đề về học máy [sửa]
Danh sách các chủ đề của môn học này:
- Mô hình hóa các hàm mật độ xác suất điều kiện: hồi quy và phân loại
- Mô hình hóa các hàm mật độ xác suất qua các mô hình phát sinh:
- Các kỹ thuật suy luận xấp xỉ đúng:
- Tối ưu hóa: hầu hết các phương pháp trên đều sử dụng tối ưu hóa hoặc là các thể hiện của các thuật toán tối ưu hóa.
Xem thêm [sửa]
- Trí tuệ nhân tạo
- Trí tuệ điện toán
- Khai phá dữ liệu
- Nhận dạng mẫu
- Các ẩn bản quan trọng trong học máy (khoa học máy tính)
- Các ấn bản quan trọng trong học máy (thống kê)
- Rô-bốt tự hành
- Lập trình suy diễn lôgic
Tham khảo [sửa]
- Bishop C. M. (1995). Neural Networks for Pattern Recognition, Nhà in Đại học Oxford. ISBN 0-19-853864-2
- Richard O. Duda, Peter E. Hart, David G. Stork (2001) Pattern classification (ấn bản lần 2), Wiley, New York, ISBN 0-471-05669-3.
- MacKay D. J. C. (2003). Information Theory, Inference, and Learning Algorithms, Nhà in Đại học Cambridge. ISBN 0-521-64298-1
- Mitchell T. (1997). Machine Learning, McGraw Hill. ISBN 0-07-042807-7
- Sholom Weiss và Casimir Kulikowski (1991). Computer Systems That Learn, Morgan Kaufmann. ISBN 1-55860-065-5
Liên kết ngoài [sửa]
Tài nguyên chung [sửa]
- UCI description
- MLnet Mailing List
- Kmining List of machine learning, data mining and KDD scientific conferences
- Book "Intelligent Systems and their Societies" của Walter Fritz
- Links from Open Directory Project
- Eruditionhome - nơi chứa nhiều mục đề về Học máy
- MLpedia - Từ điển bách khoa wiki dành riêng cho chủ đề Học máy
Tạp chí và Hội thảo [sửa]
- Journal of Machine Learning Research
- Machine Learning Journal
- Machine Learning papers tại CiteSeer
- NIPS: Neural Information Processing Systems
- ICML: International Conference on Machine Learning
Nhóm nghiên cứu [sửa]
- Machine Learning tại Đại học Hebrew
- Machine Learning and Natural Language Processing tại Đại học Freiburg
- Machine Learning and Data Mining in Bioinformatics Group tại TU München
- Machine Learning and Biological Computation Group tại Đại học Bristol
- Machine Learning and Applied Statistics của Microsoft Research
- Department of Knowledge Technologies của Học viện Jozef Stefan
- Statistical Multimedia Learning Group tại Đại học British Columbia
- Machine Learning Systems Group tại Jet Propulsion Laboratory, Học viện Kỹ thuật California
- Department of Empirical Inference tại Viện Max Planck về điều khiển học sinh học, Tübingen
- Machine Learning Group tại Đại học Toronto
- Intelligent Data Analysis Group tại Fraunhofer FIRST, Berlin
- Machine Learning Group tại Đại học Tự do Bruxelles
Phần mềm [sửa]
- [http://spice.ci.ritsumei.ac.jp/~thangc/programs/vietnamese.htm Chương trình mạng nơ ron đa lớp (Multi Layer Neural Network) và mạng nơ ron tự tổ chức (Self Organizing Maps) có giải thích bằng tiếng Việt.
- Sử dụng phần mềm mạng nơ ron 3 lớp Spice-MLP
- Sử dụng phần mềm mạng tự tổ chức Spice-SOM
- Hướng dẫn sử dụng mạng nơ ron trong các ứng dụng thực tế trong đó có minh họa phân loại ảnh khuôn mặt, ảnh người đi bộ, ảnh xe hơi, dự báo chứng khoán và một số ví dụ khác
- SPIDER - một hộp công cụ học máy hoàn chỉnh cho Matlab
- PRTools PRTools là một gói phần mềm hoàn chỉnh khác tương tự SPIDER và được cài trong Matlab. SPIDER có vẻ có nhiều hỗ trợ mức thấp, nhưng các công cụ của PRTools có phần đa dạng hơn. PRTools có sách và tài liệu tốt. Cả SPIDER và PRTools được cung cấp miễn phí trên mạng cho các ứng dụng phi thương mại.
- Orange, bộ chương trình học máy với các script viết bằng Python và giao diện lập trình đồ họa
- YALE là một công cụ mạnh miễn phí cho Học máy và Khai phá dữ liệu
- Weka Machine Learning Software
- Matlab MATLAB có hỗ trợ hộp công cụ cho nhiều công cụ học máy. Hiện giờ hộ công cụ Tin sinh học đã có Support Vector Machines và các bộ phân loại KNN (k láng giềng gần nhất). Hộp công cụ thống kê thực hiện biệt thức tuyến tính và phân loại bằng cây quyết định. Hộp công cụ mạng nơ-ron là một bộ công cụ hoàn chỉnh để cài đặt mạng nơron. Trong thời gian gần đây, các phương pháp mới để đánh giá hiệu quả của các bộ phân loại và để thẩm định chéo đã làm Matlab trở nên hấp dẫn hơn đối với học máy.
- MLC++ là thư viện lớp C++ dành cho học có giám sát
- MDR là một gói phần mềm nguồn mở dành cho việc phát hiện các tương tác thuộc tính bằng phương pháp rút gọn thứ nguyên đa thừa số (MDR).
tới một vài lớp bằng cách xem xét một số mẫu dữ liệu - kết quả của hàm đó.