Phân loại bằng thống kê

Bách khoa toàn thư mở Wikipedia
Bước tới: menu, tìm kiếm

Phân loại bằng thống kê là một thủ tục thống kê trong đó các các thể riêng biệt sẽ được sắp vào từng nhóm dựa trên số lượng thông tin về một hay nhiều tính chất kế thừa của cá thể đó (được xem như là các điểm, các biến, các đặc điểm, v.v...) và dựa vào một tập huấn luyện của các các thể đã được đánh nhãn sẵn.

Về mặt hình thức, bài toán có thể diễn giải như sau: cho sẵn một tập huấn luyện \{(\mathbf{x_1},y),\dots,(\mathbf{x_n}, y)\} ta cần tạo ra một phân loại h:\mathcal{X}\rightarrow\mathcal{Y} mà có thể ánh xạ một đối tượng \mathbf{x} \in \mathcal{X} vào nhãn phân loại y \in \mathcal{Y} của nó. Ví dụ, nếu bài toán là lọc spam, thì \mathbf{x_i} là một biểu diễn nào nó cho một thư điện tửy thì hoặc là "Spam" hoặc "Không Spam".

Các giải thuật phân loại bằng thống kê thường được sử dụng trong các hệ thống nhận dạng mẫu.

Chú ý: trong cộng đồng sinh thái học, thuật ngữ "phân loại" là đồng nghĩa với từ được biết đến (trong ngành học máy) là phân nhóm (clustering). Xem bài viết đó để biết rõ hơn về các kĩ thuật không có giám sát.

Các kĩ thuật phân loại bằng thống kê[sửa | sửa mã nguồn]

Trong khi có rất nhiều phương pháp phân loại, chúng thường buộc phải giải quyết một trong ba vấn đề liên quan đến toán học sau.

Vấn đề đầu tiên là tìm một ánh xạ của một không gian đặc trưng (thường là một không gian vec-tơ đa chiều) đến một tập các nhãn. Điều này là tương đương với việc phân hoạch không gian đặc trưng thành các vùng nhỏ hơn, sau đó gán một nhãn vào mỗi vùng. Các giải thuật dạng này (ví dụ, giải thuật hàng xóm gần nhất) thường không đem lại sự tin cậy hay xác suất class (posterior probability), trừ phi quá trình xử lí sau được áp dụng. Một tập các giải thuật khác để giải quyết vấn đề này trước tiên là áp dụng việc phân mảnh không có giám sát không gian đặc trưng ra, sau đó cố gắng đánh nhãn cho mỗi mảnh (hay vùng) được phân ra đó.

Vấn đề thứ hai là xem xét việc phân loại như là một bài toán về ước lượng, với mục tiêu là ước lượng xem một hàm có dạng

P({\rm class}|{\vec x}) = f\left(\vec x;\vec \theta\right)

với vec-tơ đặc trưng đầu vào là \vec x, và hàm f là được tham số hóa bởi một số tham số \vec \theta. Trong hướng tiếp cận Bayes cho vấn đề này, thay vì chọn một tham số vec-tơ đơn lẻ \vec \theta, kết quả sẽ tích hợp trên mọi thê-ta có thể có, với cách đánh trọng số dựa vào như cách đưa ra tập huấn luyện D:

P({\rm class}|{\vec x}) = \int f\left(\vec x;\vec \theta\right)P(\vec \theta|D) d\vec \theta

Bài toán thứ ba liên quan tới bài toán thứ hai, nhưng yêu cầu của nó là ước lượng xác suất có điều kiện-class P(\vec x|{\rm class}) và rồi sử dụng qui luật Bayes để đưa về xác suất lớp nhu bài toán số hai.

Các ví dụ về các giải thuật phân loại bao gồm:

Lĩnh vực ứng dụng[sửa | sửa mã nguồn]

Xem thêm[sửa | sửa mã nguồn]