Điểm bất thường (thống kê)

Bách khoa toàn thư mở Wikipedia
Biểu đồ hộp của dữ liệu từ thí nghiệm Michelson–Morley cho thấy bốn điểm bất thường ở cột chính giữa, và một điểm bất thường ở cột đầu tiên.

Trong thống kê, một điểm bất thường, còn gọi là điểm ngoại lệ, điểm ngoại lai (outlier) là một điểm dữ liệu sai khác đáng kể so với các quan sát khác.[1][2] Một điểm bất thường có thể là do biến động trong phép đo hoặc nó có thể là dấu hiệu của sai số thí nghiệm; trong trường hợp này nó đôi khi bị loại khỏi tập dữ liệu.[3] Điểm bất thường có thể gây ra các vấn đề nghiêm trọng trong phân tích thống kê.

Các điểm bất thường có thể xảy ra ngẫu nhiên trong một phân phối bất kỳ, nhưng thường chúng thể hiện sai số đo đạc hay quần thể có phân phối nặng về phía đuôi. Trong trường hợp đầu tiên người ta có thể tiến hành loại bỏ chúng hoặc sử dụng các phương pháp thống kê bền vững đối với điểm bất thường, trong khi ở trường hợp sau chúng thể hiện rằng phân phối có độ xiên lớn và do đó cần phải rất cẩn thận khi sử dụng trực giác hay các công cụ thống kê mà phân phối chuẩn được giả định. Một nguyên nhân thường gặp của những điểm bất thường là sự tổng hợp của hai phân phối, mà có thể là hai tiểu quần thể phân biệt, hoặc thể hiện 'phép thử đúng' so với 'sai số đo đạc'; điều này có thể được mô hình hóa bởi một mô hình hỗn hợp.

Trong phần lớn mẫu dữ liệu lớn hơn, một vài điểm dữ liệu có thể cách xa trung bình mẫu hơn khoảng được cho là hợp lý. Điều này có thể do sai số hệ thống phát sinh, hoặc các khiếm khuyết trong lý thuyết dẫn đến họ phân phối xác suất được giả định, hoặc có thể do một số quan sát cách xa so với trung tâm của dữ liệu. Các điểm bất thường do đó thể hiện lỗi trong dữ liệu hay cách tiến hành, hoặc những lĩnh vực mà một lý thuyết nào đó có thể không đúng đắn. Tuy nhiên, trong các mẫu lớn, thường sẽ có một số nhỏ các điểm bất thường (và không phải do bất kỳ điều kiện dị thường nào).

Những điểm ngoại lệ hay các quan sát tận cùng nhất, thường có thể bao gồm phần tử lớn nhất hoặc nhỏ nhất của mẫu, hoặc cả hai, dựa trên liệu chúng là cực kỳ cao hay cực kỳ thấp. Tuy nhiên, điểm lớn nhất hoặc nhỏ nhất trong mẫu không phải khi nào cũng là điểm ngoại lệ bởi vì chúng có thể không cách xa khác thường so với các quan sát khác.

Diễn giải đơn giản thông thường về các số liệu thống kê được dẫn xuất từ tập dữ liệu kèm theo điểm bất thường có thể gây hiểu lầm. Ví dụ, nếu ta tính nhiệt độ trung bình của 10 vật trong một căn phòng, trong đó 9 vật có nhiệt độ nằm giữa 20 và 25 độ Celsius, nhưng vật còn lại là một lò nướng ở nhiệt độ 175 °C, thì số trung vị của tập dữ liệu sẽ ở khoảng 20 tới 25 °C nhưng số trung bình của nhiệt độ sẽ ở giữa 35,5 và 40 °C. Trong trường hợp này, số trung vị phản ánh tốt hơn nhiệt độ của một vật được lấy mẫu ngẫu nhiên (nhưng không phải nhiệt độ trong căn phòng) so với số trung bình; đơn giản cho rằng số trung bình là một "mẫu điển hình", tương đương với số trung vị, là không chính xác. Các giá trị ngoại lệ (nhiệt độ của lò nướng trong trường hợp minh họa) có thể thể hiện các điểm dữ liệu thuộc một quần thể khác so với phần còn lại của tập mẫu.

Các ước lượng thống kê (estimator) có khả năng ứng phó với các điểm ngoại lệ được gọi là ước lượng bền: số trung vị là một thống kê bền về xu hướng tập trung, trong khi số trung bình thì không.[4] Tuy nhiên, số trung bình là một ước lượng chính xác hơn trên tổng quát.[5] Khoảng tứ phân vị (IQR) là một tiêu chuẩn thường được sử dụng để phát hiện các điểm ngoại lệ trong dữ liệu, ở đây chúng được định nghĩa là các giá trị quan sát nằm dưới (Q1 − 1.5 IQR) hoặc trên (Q3 + 1.5 IQR). Trong đó, Q1 và Q3 lần lượt là tứ phân vị thứ nhất và thứ ba, và IQR = Q3 − Q1. Trên một biểu đồ hộp, giá trị xảy ra cao nhất và thấp nhất trong giới hạn này được biểu diễn bằng các đoạn mép của một hộp (thường được vẽ thêm bằng một gạch ngang nhỏ ở cuối đoạn mép), còn các điểm ngoại lệ bất kỳ là các điểm riêng biệt nằm bên ngoài đoạn.[6]

Xem thêm[sửa | sửa mã nguồn]

Tham khảo[sửa | sửa mã nguồn]

  1. ^ Grubbs, F. E. (tháng 2 năm 1969). “Procedures for detecting outlying observations in samples”. Technometrics. 11 (1): 1–21. doi:10.1080/00401706.1969.10490657. An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs.
  2. ^ Maddala, G. S. (1992). “Outliers”. Introduction to Econometrics (ấn bản 2). New York: MacMillan. tr. 89. ISBN 978-0-02-374545-4. An outlier is an observation that is far removed from the rest of the observations.
  3. ^ Grubbs 1969, tr. 1 stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."
  4. ^ Ripley, Brian D. 2004. Robust statistics Lưu trữ 2012-10-21 tại Wayback Machine
  5. ^ Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1" [1]
  6. ^ Dekking, Frederik Michel; Kraaikamp, Cornelis; Lopuhaä, Hendrik Paul; Meester, Ludolf Erwin (2005). A Modern Introduction to Probability and Statistics. Springer Texts in Statistics. London: Springer London. doi:10.1007/1-84628-168-7. ISBN 978-1-85233-896-1.

Liên kết ngoài[sửa | sửa mã nguồn]