Lý thuyết trắc nghiệm cổ điển

Lý thuyết Trắc nghiệm cổ điển (Classical Test Theory) là một lý thuyết liên quan với nhánh khoa học đo lường trong giáo dục (educational measurement) và tâm trắc học (psychometrics), phục vụ cho việc thiết kế các công cụ đo lường để xác định giá trị năng lực hoặc trình độ của đối tượng (thí sinh) được đo. Lý thuyết này bắt đầu phát triển khoảng đầu thế kỷ 20 và được hệ thống hóa vào thập niên 1970, chẳng hạn bởi ^[1]. Đối sánh với Lý thuyết Trắc nghiệm cổ điển là Lý thuyết Ứng đáp Câu hỏi (Item Response Theory - IRT), được bắt đầu xây dựng từ khoảng đầu nửa sau của thế kỷ 20, dựa trên các mô hình toán học.

Các tham số đặc trưng cho một câu hỏi trắc nghiệm

Độ khó: Trong Lý thuyết Trắc nghiệm cổ điển Độ khó p của câu hỏi (CH) trắc nghiệm được định nghĩa bằng tỷ số phần trăm số thí sinh (TS) làm đúng CH trên tổng số TS tham gia làm CH đó:

p = Tổng số TS làm đúng CH / Tổng số TS tham gia làm CH

\qquad (1)

Thông thường độ khó của một CH có thể chấp nhận được nằm trong khoảng 0,25 - 0,75; CH có độ khó lớn hơn 0,75 là quá dễ, có độ khó nhỏ hơn 0,25 là quá khó.

Độ phân biệt: Khi ra một CH cho một nhóm TS nào đó, người ta thường muốn phân biệt trong nhóm TS ấy những người có năng lực khác nhau: giỏi, trung bình, kém... Khả năng của câu trắc nghiệm thực hiện được sự phân biệt ấy được gọi là độ phân biệt. Muốn cho CH có độ phân biệt, phản ứng của TS giỏi và TS kém lên CH đó hiển nhiên phải khác nhau. Người ta thường thống kê các phản ứng khác nhau đó để tính độ phân biệt. Có thể tính độ phân biệt của một CH theo hệ số tương quan giữa các điểm của CH đó với tổng điểm của cả đề kiểm tra xét trên mọi TS làm đề kiểm tra. Thông thường trị số độ phân biệt của CH có thể chấp nhận được phải lớn hơn 0,2.

Các tham số đặc trưng cho một đề kiểm tra

Lý thuyết Trắc nghiệm cổ điển quan niệm rằng năng lực của mỗi TS được xác định bởi một điểm thực T, thu được trong điều kiện phép đo không có sai số. Điểm thực được xác định như là điểm trả lời đúng kỳ vọng khi triển khai đề kiểm tra độc lập vô số lần. Tuy nhiên, điểm thực của một TS không bao giờ có thể thu trực tiếp, cái có được chỉ là một điểm quan sát X nào đó. Do đó có thể giả định là điểm quan sát bằng điểm thực cộng với một sai số E nào đó:

X= T + E

\qquad (2)

Quan hệ giữa 3 đại lượng trong biểu thức trên được sử dụng để đánh giá chất lượng của các điểm trắc nghiệm.

Độ tin cậy (reliability) của các điểm trắc nghiệm X được xác định bởi tỷ số của phương sai của điểm thực ${\sigma _{T}^{2}}$ và phương sai của điểm quan sát ${\sigma _{X}^{2}}$ :

{\rho _{XT}^{2}}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}

từ đó:

{\rho _{XT}^{2}}={\frac {\sigma _{T}^{2}}{{\sigma _{T}^{2}}+{\sigma _{E}^{2}}}}={\cfrac {1}{1+{\cfrac {\sigma _{E}^{2}}{\sigma _{T}^{2}}}}}

Biểu thức trên biểu diễn tỷ số (tín hiệu/nhiễu): độ tin cậy càng cao khi phương sai của sai số càng bé so với phương sai của điểm thực. Theo Lý thuyết Trắc nghiệm cổ điển không thể biết T nên không thể trực tiếp xác định được độ tin cậy, do đó người ta tìm cách ước lượng theo các phương pháp khác. Một trong các phương pháp ước lượng độ tin cậy là sử dụng các đề kiểm tra tương đương, tức là các đề tạo nên điểm thực và phương sai điểm quan sát của mọi TS giống như đề gốc. Nếu có hai đề kiểm tra X và X’ tương đương thì giá trị kỳ vọng (điểm thực) và phương sai của các sai số phải bằng nhau, tức là:

{\varepsilon }(X_{i})={\varepsilon }(X'_{i})

và

{\sigma }_{E}^{2}={\sigma }_{E'}^{2}

Từ đó độ tin cậy bằng tương quan giữa các điểm số của hai đề kiểm tra tương đương:

{\rho }_{XX'}={\frac {{\sigma }_{XX'}}{{\sigma }_{X}{\sigma }_{X'}}}={\frac {{\sigma }_{T}^{2}}{{\sigma }_{X}^{2}}}={\rho }_{XT}^{2}

Ước lượng độ tin cậy bằng phương pháp nêu trên rất phức tạp, vì rất khó tạo ra các đề kiểm tra tương đương. Một phương pháp để ước lượng độ tin cậy hay được sử dụng là dựa vào độ ổn định nội tại theo hệ số Alpha Cronbach. Hệ số này xác định giới hạn dưới của độ tin cậy của một đề kiểm tra tổng hợp bao gồm k đề kiểm tra con, được biểu diễn như sau:

\alpha ={\frac {k}{k-1}}\left(1-{\frac {\sum _{i=1}^{k}{\sigma _{i}^{2}}}{\sigma _{C}^{2}}}\right)

\qquad (3)

trong đó ${\sigma _{i}^{2}},{\sigma _{C}^{2}}$ tương ứng là phương sai của đề kiểm tra con thứ i và phương sai của đề kiểm tra tổng hợp. Trong trường hợp riêng đối với một đề kiểm tra bao gồm nhiều CH dạng nhị phân thì ${\sigma _{i}^{2}}$ là phương sai của một CH trắc nghiệm nhị phân, có giá trị bằng $p_{i}q_{i}$ , khi ấy công thức của hệ số Alpha Cronbach trở về công thức Kuder-Richarson 20 quen biết.^[2].

Độ giá trị (validity) là một khái niệm quan trọng khác của đề kiểm tra. Yêu cầu quan trọng nhất của một phép đo lường trong giáo dục là phép đo ấy phải đo được cái cần đo. Nói cách khác, phép đo ấy cần phải đạt được mục tiêu đề ra cho nó. Phép đo bởi đề kiểm tra đạt được mục tiêu đó là phép đo có độ giá trị. Nói cách khác, độ giá trị của một đề kiểm tra là đại lượng biểu thị mức độ đạt được mục tiêu đề ra cho phép đo nhờ đề kiểm tra. Để đề kiểm tra có độ giá trị cao, cần phải xác định tỉ mỉ mục tiêu cần đo qua đề kiểm tra và bám sát mục tiêu đó trong quá trình xây dựng các CH của đề kiểm tra cũng như khi tổ chức triển khai kỳ thi. Nếu thực hiện các quá trình nói trên không đúng thì có khả năng kết quả của phép đo sẽ phản ánh một cái gì khác chứ không phải cái mà ta muốn đo bằng đề kiểm tra. Qua định nghĩa về độ tin cậy và độ giá trị, có thể thấy rõ mối tương quan giữa chúng. Khi đề kiểm tra không có độ tin cậy, tức là phép đo nhờ đề kiểm tra rất kém chính xác, thì không thể nói đến độ giá trị của nó. Nói cách khác, khi đề kiểm tra có độ tin cậy thấp thì nó cũng không thể có độ giá trị cao. Ngược lại, một đề kiểm tra có độ tin cậy cao thì không nhất thiết sẽ có độ giá trị cao, vì đề kiểm tra đó có thể đo chính xác, nhưng đo một cái gì khác chứ không phải cái nó cần đo, trong trường hợp đó thì đề kiểm tra có độ tin cậy cao nhưng độ giá trị thấp.

Các loại điểm kiểm tra

Điểm thô: Một đề kiểm tra thường bao gồm nhiều CH, mỗi CH được gán một điểm số, chẳng hạn đối với CH nhị phân thường gán điểm 1 nếu làm đúng, điểm 0 nếu làm sai. Sau khi chấm bài trắc nghiệm và cộng các điểm của từng TS ta thu được điểm được gọi là điểm thô (raw score). Để có thể so sánh các điểm số thu được của đề kiểm tra trên một phạm vi rộng, người ta phải biến đổi các điểm đó theo hai cách: 1) so sánh với một tiêu chuẩn (standard) tuyệt đối đã định trước; 2) so sánh với một nhóm TS nào đó dùng làm chuẩn mực (norm). Ví dụ về điểm tiêu chuẩn tuyệt đối, chẳng hạn điểm phần trăm đúng tính theo tỷ lệ phần trăm số CH làm đúng trên tổng CH của đề kiểm tra:

x=(Số CH TS trả lời đúng)/(Tổng số CH)

Các loại điểm tương đối dựa vào phân bố chuẩn: Một cách biến đổi điểm thường dùng là dựa vào một nhóm chuẩn mực (norm group) để xác định các thang bậc và biến đổi điểm thô thu được theo thang bậc đó. Giả sử điểm thô thu được từ kết quả trắc nghiệm trên một mẫu TS nào đó có phân bố tần suất gần dạng phân bố chuẩn với giá trị trung bình là ${{\bar {x}}_{t}}$ và độ lệch tiêu chuẩn là ${\sigma _{t}}$ , có thể biến đổi các điểm thô này sang một thang điểm với giá trị trung bình đặt ở ${{\bar {x}}_{S}}$ và độ lệch tiêu chuẩn là ${\sigma _{S}}$ theo biểu thức:

{\frac {{x_{t}}-{{\bar {x}}_{t}}}{\sigma _{t}}}={\frac {{x_{S}}-{{\bar {x}}_{S}}}{\sigma _{S}}}

từ đó:

x_{S}={\frac {\sigma _{S}}{\sigma _{t}}}({x_{t}}-{{\bar {x}}_{t}})+{{\bar {x}}_{S}}

Một trong các loại điểm tiêu chuẩn quan trọng là điểm ứng với một phân bố chuẩn đặc biệt có giá trị trung bình được đặt tại 0 và độ lệch tiêu chuẩn được chọn bằng 1, được gọi là điểm Z. Để biến đổi một thang điểm tiêu chuẩn bất kì nào đó thành thang điểm Z có thể sử dụng hệ thức:

Z={\frac {(x-{\bar {x}})}{\sigma }}

Điểm Z rất thích hợp trong nghiên cứu để so sánh các bộ điểm thô thu được từ các đề kiểm tra khác nhau thực hiện trên cùng một nhóm TS được chọn làm chuẩn. Tuy nhiên, việc sử dụng điểm Z trong thực tế không thuận lợi vì nó có giá trị âm và các khoảng nguyên quá rộng, nên để biểu diễn các điểm cụ thể phải dùng nhiều số thập phân. Do đó người ta thường sử dụng các thang điểm chuẩn khác bằng cách gán cho giá trị trung bình và độ lệch tiêu chuẩn của điểm thô các giá trị lựa chọn tuỳ ý nào đó. Hình vẽ sau đây nêu ví dụ về một số thang điểm chuẩn thường gặp.

Một số loại điểm trắc nghiệm tiêu chuẩn hóa theo phân bố chuẩn

Một số loại điểm tiêu chuẩn hóa theo phân bố chuẩn Trên hình vẽ có các điểm trắc nghiệm tiêu chuẩn hoá SAT, GRE, GMAT, TOEFL, PISA của ETS (Dịch vụ Trắc nghiệm Giáo dục - Educational Testing Services) với giá trị trung bình đặt ở 500 và độ lệch chuẩn chọn bằng 100. Với cách quy định như vậy, khoảng [–3 ${\sigma }$ , +3 ${\sigma }$ ] ứng với khoảng điểm [200, 800]. Điểm ACT của tập đoàn Trắc nghiệm Đại học Hoa Kỳ (American College Testing – ACT) sử dụng thang điểm với giá trị trung bình đặt ở điểm 20, độ lệch tiêu chuẩn được chọn bằng 5 đơn vị nguyên, cho nên khoảng [–3 ${\sigma }$ , +3 ${\sigma }$ ] ứng với khoảng điểm [5, 35]. Điểm Trắc nghiệm Trí thông minh IQ (Intelligence Quotient) đặt giá trị trung bình vào điểm 100, độ lệch tiêu chuẩn được chọn bằng 15 đơn vị nguyên, cho nên khoảng [–3 ${\sigma }$ , +3 ${\sigma }$ ] ứng với khoảng điểm [55, 145]. Tương tự như vậy, có thể thiết lập thang điểm tiêu chuẩn với điểm trung bình đặt tại giá trị 5 và độ lệch tiêu chuẩn bằng 2, khi ấy khoảng [–2.5 ${\sigma }$ , +2.5 ${\sigma }$ ] sẽ ứng với khoảng điểm [0, 10], gần với thang điểm trên 10 đang sử dụng phổ biến ở Việt Nam hiện nay.

Các hạn chế của Lý thuyết Trắc nghiệm cổ điển

Có thể nêu các hạn chế chính của Lý thuyết Trắc nghiệm cổ điển như sau: Một là không thể tách biệt năng lực của TS và các tham số của CH (chẳng hạn định nghĩa độ khó của CH theo tỷ lệ TS trả lời đúng, mà tỷ lệ đó phụ thuộc năng lực TS; cũng vậy, năng lực TS được xác định theo mức độ trả lời đúng các CH, mà mức này phụ thuộc độ khó của CH). Hai là việc xác định độ tin cậy của đề kiểm tra phải dựa và các đề kiểm tra tương đương, một yêu cầu rất khó thực hiện. Ba là sai số tiêu chuẩn của phép đo được quan niệm là như nhau đối với mọi TS ở các mức năng lực khác nhau, điều đó thể hiện ở biểu thức (2). Bốn là, Lý thuyết Trắc nghiệm cổ điển là lý thuyết dựa vào cấp độ đề kiểm tra chứ không phải cấp độ CH, do đó không cho phép tiên đoán một cá thể TS có thể đáp ứng thế nào đối với một CH. Các thiếu sót nêu trên được khắc phục phần lớn ở Lý thuyết Ứng đáp Câu hỏi.

Bạn đọc có thể tìm hiểu sâu hơn về Lý thuyết Trắc nghiệm cổ điển trong các sách giáo khoa ^[2] ^[3]^[4].^[5] và sách tổng hợp ^[6].

Tài liệu dẫn

^ Lord, F.M., & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, Mass: Addsion-Wesley.
^ Lâm Quang Thiệp (2010). Đo lường trong giáo dục. Lý thuyết và Ứng dụng. Nhà xuất bản Đại học Quốc gia Hà Nội
^ Dương Thiệu Tống (2005). Trắc nghiệm và đo lường thành quả học tập (phương pháp thực hành). Nhà xuất bản Khoa học Xã hội.
^ Lord F.M.(1080). Applications of Item Response Theory to Practical Testing Problems. Lawrence Erbaum Associates, Publishers.
^ Lâm Quang Thiệp (1012) Đo lường và đánh giá hoạt động học tập trong nhà trường. Nhà xuất bản Đại học Sư phạm Hà Nội.
^ Brenman R.L. Educational Measurement, 4th edition, ACE/PRAEGER series on Higher Education, 2006.

Liên kết ngoài

[1] Lord, F.M., & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, Mass: Addsion-Wesley.

[2] Lâm Quang Thiệp (2010). Đo lường trong giáo dục. Lý thuyết và Ứng dụng. Nhà xuất bản Đại học Quốc gia Hà Nội

[3] Dương Thiệu Tống (2005). Trắc nghiệm và đo lường thành quả học tập (phương pháp thực hành). Nhà xuất bản Khoa học Xã hội.

[4] Lord F.M.(1080). Applications of Item Response Theory to Practical Testing Problems. Lawrence Erbaum Associates, Publishers.

[5] Lâm Quang Thiệp (1012) Đo lường và đánh giá hoạt động học tập trong nhà trường. Nhà xuất bản Đại học Sư phạm Hà Nội.

[6] Brenman R.L. Educational Measurement, 4th edition, ACE/PRAEGER series on Higher Education, 2006.

[1]

[2]

[3]

[4]

[5]

[6]