Đặc trưng (nhận dạng mẫu)

Bách khoa toàn thư mở Wikipedia
Bước tới: menu, tìm kiếm

Trong nhận dạng mẫu, các đặc trưng là các thuộc tính riêng rẽ mà ta có thể xác định và đo đạc được khi quan sát một hiện tượng nào đó. Việc lựa chọn các đặc trưng tách biệt và độc lập là điểm mấu chốt cho bất kì giải thuật nhận dạng mẫu nào có thể thành công trong việc phân loại.

Trong khi các lãnh vực khác nhau của nhận dạng mẫu thì có các đặc trưng khác nhau, một khi các đặc trưng này đã được xác định, chúng có thể được phân loại bằng một tập các giải thuật nhỏ hơn. Những tập này bao gồm việc phân loại theo hàng xóm gần nhau (near neighborhood classification) dựa trên đa chiều, mạng nơron (neural networks) hay các kĩ thuật thống kê, mà chủ yếu là dựa vào xác suất Bayes (Bayesian probabilities).

Ví dụ[sửa | sửa mã nguồn]

Trong nhận dạng kí tự, các đặc trưng có thể bao gồm thông tin (profiles) theo chiều ngang và chiều dọc, số lượng các lỗ rỗng bên trong, xác định số nét (stroke detection) và nhiều yếu tố khác.

Trong nhận dạng giọng nói, các đặc trưng để nhận dạng âm vị (phoneme) có thể bao gồm tỉ lệ tiếng ồn (noise ratio), chiều dài âm (sound), cường độ tương quan (relative power), lọc ra các trùng khớp (filter matche) và nhiều yếu tố khác.

Trong các giải thuật nhận dạng spam, các đặc trưng có thể bao gồm việc kiểm tra xem một phần đầu (header) của thư điện tử có hiện hữu hay không, xem chúng có được cấu thành đúng hay không, ngôn ngữ mà thư điện tử dùng, việc chỉnh sửa các lỗi cú pháp, phân tích tần số Markov (Markovian frequency analysis) và nhiều yếu tố khác.

Trong mọi trường hợp này, và nhiều trường hợp khác, việc trích rút đặc trưng mà có thể đo đạc được bằng máy tính là cả một nghệ thuật, với ngoại lệ là một số kĩ thuật mạng nơron và di truyền có thể tự động trực cảm (nhận biết) được các "đặc tính", và lựa chọn bằng tay các đặc tính tố để tạo thành cơ sở cho mọi giải thuật phân loại.