Hệ số tương quan

Bách khoa toàn thư mở Wikipedia
Bước tới: menu, tìm kiếm

Hệ số tương quan trong bài này nói về hệ số tương quan giữa hai biến số.

Trong lý thuyết xác suấtthống kê, hệ số tương quan cho biết độ mạnh của mối tương quan tuyến tính giữa hai biến số ngẫu nhiên.

Hệ số tương quan Pearson[sửa | sửa mã nguồn]

Có thể sử dụng nhiều công thức tính hệ số tương quan khác nhau cho những tình huống khác nhau. Hệ số tương quan được biết đến nhiều nhất là hệ số tương quan Pearson được tính bằng cách chia hiệp phương sai (covariance) của hai biến với tích độ lệch chuẩn (standard deviation) của chúng. Cách tính này được đưa ra trước tiên bởi Francis Galton.

Đặc trưng toán học[sửa | sửa mã nguồn]

Hệ số tương quan ρX, Y giữa hai biến ngẫu nhiên XY với kỳ vọng tương ứng là μX; μYđộ lệch chuẩn σX; σY được định nghĩa:

\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y},

trong đó Etoán tử tính kỳ vọng và cov là hiệp phương sai. Một công thức khác cũng được sử dụng rộng rãi là

\mathrm{corr}(X,Y)=\rho_{X,Y} \,.

Vì μX = E(X), σX2 = E[(X - E(X))2] = E(X2) − E2(X) và tương tự đối với Y, và vì E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y), nên ta có thể viết lại

\rho_{X,Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}~\sqrt{E(Y^2)-E^2(Y)}}.

Hệ số tương quan được định nghĩa như vậy chỉ đúng nếu các độ lệch chuẩn là có giới hạn và khác không. Một hệ luận tất yếu của bất phương trình Cauchy-Schwarztrị tuyệt đối của hệ số tương quan không thể lớn hơn 1.

Hệ số tương quan bằng 1 trong trường hợp có tương quan tuyến tính đồng biến và -1 trong trường hợp tương quan tuyến tính nghịch biến. Các giá trị khác trong khoảng (-1,1) cho biết mức độ phụ thuộc tuyến tính giữa các biến. Hệ số tương quan càng gần với -1 và 1 thì tương quan giữa các biến càng mạnh.

Nếu các biến là độc lập thống kê thì hệ số tương quan bằng 0. Tuy nhiên, phát biểu ngược lại không đúng, vì hệ số tương quan chỉ phát hiện tương quan tuyến tính giữa hai biến.

Liên kết ngoài[sửa | sửa mã nguồn]