Mô hình phân biệt

Mô hình phân biệt (tiếng Anh: discriminative model, conditional model) là lớp các mô hình logistic dùng cho phân loại bằng thống kê hay hồi quy.^[1] Chúng phân biệt ranh giới quyết định thông qua dữ liệu quan sát được, chẳng hạn như đạt/không đạt, thắng/thua, sống/chết hoặc khỏe mạnh/bệnh tật.

Các mô hình phân biệt điển hình bao gồm hồi quy logistic (LR), $k$ hàng xóm gần nhất, SVM, các trường điều kiện ngẫu nhiên (CRF) (được chỉ định trên một biểu đồ vô hướng), cây quyết định, và nhiều thứ khác.

Có một loại mô hình khác, đó là mô hình sinh (generative models). Các cách tiếp cận mô hình tạo sinh điển hình bao gồm các phân lớp Naive Bayes, các mô hình hỗn hợp Gauss, bộ mã hóa biến phân (variational autoencoders) và nhiều cái khác.

Định nghĩa[sửa | sửa mã nguồn]

Khác với mô hình hóa tạo sinh, nghiên cứu phân phối xác suất đồng thời $P(x,y)$ , mô hình phân biệt nghiên cứu $P(y|x)$ hoặc các ánh xạ trực tiếp biến không được quan sát đã cho (mục tiêu) $x$ đến một lớp nhãn $y$ tùy theo các biến quan sát (các mẫu huấn luyện). Ví dụ, trong nhận diện đối tượng ngoại lai (outline of object recognition), $x$ giống như là một véctơ các pixel thô (hoặc các đặc tính được trích xuất từ các pixel thô của hình ảnh). Bên trong một khung xác suất, điều này được thực hiện bằng cách mô hình hóa phân phối xác suất có điều kiện (conditional probability distribution) $P(y|x)$ , có thể được sử dụng để dự đoán $y$ từ $x$ . Chú ý rằng vẫn có sự khác biệt giữa mô hình có điều kiện và mô hình phân biệt, mặc dù chúng thường được phân loại một cách đơn giản là mô hình phân biệt.

Mô hình phân biệt thuần túy so với mô hình có điều kiện[sửa | sửa mã nguồn]

Một mô hình điều kiện mô hình phân phối xác suất điều kiện, trong khi đó mô hình phân biệt truyền thống nhắm đến việc tối ưu ánh xạ đầu vào xung quanh các mẫu được đào tạo gần giống nhất.^[2]

Một số cách tiếp cận mô hình phân biệt đối xử điển hình[sửa | sửa mã nguồn]

Cách tiếp cận sau dựa trên giả định rằng nó được cung cấp tập dữ liệu huấn luyện $D=\{(x_{i};y_{i})|i\leq N\in \mathbb {Z} \}$ , theo đó $y_{i}$ là đầu ra tương ứng với đầu vào $x_{i}$ .

Bộ phân loại tuyến tính[sửa | sửa mã nguồn]

Hàm $f(x)$ được dùng để mô phỏng hành vi quan sát được từ tập huấn luyện theo phương pháp bộ phân loại tuyến tính (linear classifier). Sử dụng vectơ đặc tính hợp nhất $\phi (x,y)$ , hàm quyết định được định nghĩa:

f(x,w)=\arg \max _{y}w^{T}\phi (x,y)

Theo diễn dịch Memisevic,^[3] $w^{T}\phi (x,y)$ , hay là $c(x,y;w)$ , tính toán một điểm số đo lường khả năng tính toán của đầu vào $x$ với đầu ra tiềm năng $y$ . Sau đó, $\arg \max$ xác định một lớp với điểm số cao nhất.

Hồi quy logistic (LR)[sửa | sửa mã nguồn]

Từ lúc hàm mất mát 0-1 (0-1 loss function) thường được sử dụng trong lý thuyết quyết định, phân phối xác suất có điều kiện $P(y|x;w)$ , với $w$ là tham số véctơ để tối ưu hóa dữ liệu huấn luyện, có thể được cân nhắc lại như sau đối với mô hình hồi quy logistic:

P(y|x;w)={\frac {1}{Z(x;w)}}\exp(w^{T}\phi (x,y))

, với

Z(x;w)=\textstyle \sum _{y}\displaystyle \exp(w^{T}\phi (x,y))

Phương trình trên thể hiện hồi quy logistic (logistic regression). Lưu ý, sự khác biệt chủ yếu giữa các mô hình là cách chúng đưa ra xác suất hậu nghiệm, được suy ra từ mô hình tham số. Sau đó, có thể tối đa hóa tham số bằng phương trình sau:

L(w)=\textstyle \sum _{i}\displaystyle \log p(y^{i}|x^{i};w)

Nó cũng có thể được thay thế bằng phương trình mất mát log (log loss) như sau:

l^{\log }(x^{i},y^{i},c(x^{i};w))=-\log p(y^{i}|x^{i};w)=\log Z(x^{i};w)-w^{T}\phi (x^{i},y^{i})

Khi mất mát log có thể phân biệt được (hay có tính khả vi), một phương pháp dựa trên gradient có thể được sử dụng để tối ưu hóa mô hình. Mức tối ưu toàn cục được đảm bảo vì hàm mục tiêu là hàm lồi. Độ dốc của log likelihood được thể hiện: