Mẫu ngẫu nhiên đơn
Bài này không có nguồn tham khảo nào. |
Trong thống kê, một mẫu ngẫu nhiên đơn là một tập hợp con của các cá thể (một mẫu) được lựa chọn từ một tập hợp lớn hơn (một quần thể). Mỗi cá thể được chọn ngẫu nhiên và hoàn toàn tình cờ, như vậy là mỗi cá thể đều có cùng xác suất bị chọn ở các giai đoạn trong quá trình lấy mẫu, và mỗi tập hợp con của k cá thể này có cùng xác suất được chọn mẫu như bất kỳ tập con của k cá thể khác. Quá trình kỹ thuật này được gọi là lấy mẫu ngẫu nhiên đơn, và không nên nhầm lẫn với lấy mẫu ngẫu nhiên hệ thống. Một mẫu ngẫu nhiên đơn là một kỹ thuật khảo sát không thiên vị.
Như vậy đây là mẫu mà tất cả các thể trong quần thể có cùng cơ hội để chọn vào mẫu. Và là dạng đơn giản nhất của mẫu xác suất.
Lấy mẫu ngẫu nhiên đơn là một loại hình cơ bản của việc lấy mẫu, vì nó có thể là một phần của phương pháp lấy mẫu khác phức tạp hơn. Các nguyên tắc lấy mẫu ngẫu nhiên đơn là mỗi đối tượng có cùng xác suất được chọn. Ví dụ, giả sử sinh viên đại học N muốn có được một vé cho một trò chơi bóng rổ, nhưng chỉ có X <N vé cho họ, vì vậy họ quyết định có một cách công bằng để xem ai được đi. Sau đó, tất cả mọi người được đưa ra một số trong khoảng từ 0 đến N -1, và số ngẫu nhiên được tạo ra, bằng điện tử hoặc từ một bảng các số ngẫu nhiên. Số bên ngoài phạm vi từ 0 đến N -1 được bỏ qua, giống như bất kỳ con số đã chọn trước đó. Các con số X đầu tiên sẽ xác định người chiến thắng vé may mắn.
Cụ thể hơn để chọn một mẫu ngẫu nhiên đơn ta cần lập danh sách toàn bộ những đơn vị trong quần thể mà muốn rút ra một mẫu; chọn đơn vị mẫu sẽ được lấy vào mẫu, sử dụng phương pháp bốc thăm hoặc sử dụng bảng số ngẫu nhiên. Một ví dụ khác, giả sử một mẫu ngẫu nhiên đơn gồm 50 sinh viên được chọn từ một trường học có 250 sinh viên. Sử dụng danh sách của 250 sinh viên, mỗi sinh viên nhận một số thứ tự (từ 1 tới 250), và những số này được viết trên một mẫu giấy nhỏ. Toàn bộ nhữn mẫu giấy có số này được gập lại bỏ vào một cái hộp, lắc kỹ để đảm bảo là ngẫu nhiên. Tiếp theo, 50 mẫu giấy được lấy ra và số của chúng được ghi lại. Những sinh viên có những số này nằm trong mẫu nghiên cứu
Bảng số ngẫu nhiên Là một bảng tạo bởi 10 ký tự (0, 2, 3, …, 9) mà sự xuất hiện của mỗi ký tự trong bảng có tỉ lệ như nhau và không theo một trật tự nào, hoàn toàn ngẫu nhiên. Cho nên, nếu chọn một số từ một điểm ngẫu nhiên nào đó trên bảng thi bất kỳ một ký tự nào cũng có cơ hội như nhau được xuất hiện.
Chẳng hạn, muốn chọn ngẫu nhiên một mẫu 200 trẻ trong một trường hợp có 625 trẻ để điều tra một vấn đề sức khỏe nào đó. 625 trẻ sẽ được đánh số thứ tự từ 1 đến 625 (khung mẫu). Như vậy, ta chỉ dùng 3 ký tự kế tiếp nhau trong bảng. Vào bảng một cách ngẫu nhiên (ví dụ: dùng đầu bút chì, không nhìn vào bảng, chấm vào một điểm nào đó trong bảng) bắt đầu từ điểm đó bằng một số có 3 ký tự, ví dụ điểm đó nằm vào bảng thứ 5 cột thứ ba của bảng ta đọc lần lượt theo chiều từ trên xuống dưới và từ trái qua phải, được các số 330, 369, 743, 273, 943, 002, 871, 918, 702, 318,… Chọn ra 200 số có 3 ký tự (không lấy các ký tự 000, các ký tự lớn hơn 625, chỉ lấy ra một lần, không lấy các ký tự lập lại); Như vậy ta đã có một mẫu 200 trẻ
Một lựa chọn ngẫu nhiên không thiên vị của cá thể là quan trọng do đó nếu một số lượng lớn các mẫu được rút ra, những mẫu trung bình sẽ đại diện cho chính xác dân số. Tuy nhiên, điều này không đảm bảo rằng một mẫu cụ thể là một đại diện hoàn hảo của quẩnf thể. Lấy mẫu ngẫu nhiên đơn giản chỉ cho phép một để rút ra kết luận bên ngoài giá trị về toàn bộ dân số dựa trên mẫu.
Về mặt khái niệm, lấy mẫu ngẫu nhiên đơn giản là đơn giản nhất trong kỹ thuật lấy mẫu xác suất. Nó đòi hỏi một hoàn thiện khung lấy mẫu, trong đó có thể không có sẵn hoặc không khả thi để xây dựng cho các quần thể lớn. Thậm chí, nếu một khung hoàn chỉnh có sẵn, phương pháp tiếp cận hiệu quả hơn có thể thực hiện được nếu các thông tin hữu ích khác có sẵn về các đơn vị trong dân số.
Ưu điểm của nó là dễ thực hiện, đòi hỏi kiến thức tối thiểu để tiến hành. Chính sự đơn giản của nó cũng làm cho nó tương đối dễ dàng để giải thích các dữ liệu thu thập được. Đối với nhiều lý do khác nhau, lấy mẫu ngẫu nhiên đơn giản phù hợp nhất với tình huống mà không có nhiều thông tin sẵn có về dân số và thu thập dữ liệu có thể được tiến hành một cách hiệu quả vào các mặt hàng được phân phối ngẫu nhiên, hoặc trong trường hợp chi phí lấy mẫu là nhỏ đủ để làm cho hiệu quả ít quan trọng hơn so với sự đơn giản. Nếu những điều kiện này không giữ vững thì lấy mẫu phân tầng hoặc chọn mẫu cụm có thể là một lựa chọn tốt hơn.
Các thuật toán
[sửa | sửa mã nguồn]Một số thuật toán hiệu quả để lấy mẫu ngẫu nhiên đơn giản đã được phát triển. Một thuật toán ngẫu nhiên là thuật toán the draw-by-draw (vẽ-by-rút thăm) mà ở mỗi bước chúng ta loại bỏ mục từ các thiết lập với xác suất bằng nhau và đặt trong mẫu. Chúng ta tiếp tục cho đến khi chúng ta có mẫu kích thước mong muốn k. Nhược điểm của phương pháp này là nó đòi hỏi thực hiện chọn ngẫu nhiên trong bộ này.
Các thuật toán lựa chọn đào thải được phát triển bởi Fan et al năm 1962 đòi hỏi phải qua đơn hơn tuy nhiên dữ liệu thuật toán tuần tự của nó và đòi hỏi kiến thức tổng số mục n mà không có sẵn trong kịch bản streaming.
Một thuật toán sắp xếp ngẫu nhiên rất đơn giản đã được chứng minh bởi Sunter năm 1977, chỉ đơn giản là gán một số ngẫu nhiên rút ra từ phân bố đều (0, 1) như là chìa khóa cho từng hạng mục, sắp xếp tất cả các cá thể sử dụng phím và lựa chọn các cá thể k nhỏ nhất.
J. Vitter năm 1985 đề xuất hồ lấy mẫu thuật toán thường được sử dụng rộng rãi. Thuật toán này không đòi hỏi kiến thức trước của n và sử dụng không gian liên tục.
Lấy mẫu ngẫu nhiên cũng có thể được tăng tốc bằng cách lấy mẫu từ phân phối các khoảng trống giữa các mẫu, và bỏ qua các khoảng trống.
Phân biệt giữa một mẫu ngẫu nhiên hệ thống với một mẫu ngẫu nhiên đơn
[sửa | sửa mã nguồn]Hãy xem xét một trường học với 1.000 học sinh, giả sử rằng một nhà nghiên cứu muốn chọn 100 người trong số họ để nghiên cứu thêm. Tất cả các tên của họ có thể được đặt trong một cái xô và sau đó 100 tên có thể được lấy ra. Không chỉ mỗi người đều có cơ hội được chọn như nhau, chúng ta cũng có thể dễ dàng tính toán xác suất P của một người nhất định được lựa chọn, vì chúng ta biết cỡ mẫu (n) và dân số (N):
1. Trong trường hợp đó, bất kỳ người nào chỉ có thể được lựa chọn một lần (tức là, sau khi lựa chọn một người được lấy ra từ các cái xô để chọn):
2. Trong trường hợp đó, bất kỳ người nào được chọn sẽ được trở lại cái xô chọn (ví dụ, có thể được chọn nhiều hơn một lần):
Điều này có nghĩa rằng mỗi học sinh trong các trường học có trong bất kỳ trường hợp khoảng một trong 10 cơ hội được lựa chọn sử dụng phương pháp này. Hơn nữa, tất cả các kết hợp của 100 học sinh có cùng xác suất lựa chọn.
Nếu một mô hình hệ thống được giới thiệu vào lấy mẫu ngẫu nhiên, nó được gọi là "hệ thống (ngẫu nhiên) lấy mẫu". Một ví dụ là nếu các sinh viên trong trường đã số gắn liền với tên tuổi của họ khác nhau, 0001-1000, và chúng tôi đã chọn một điểm khởi đầu ngẫu nhiên, ví dụ như 0533, và sau đó chọn tất cả các tên thứ 10 sau đó để cung cấp cho chúng tôi mẫu của chúng tôi là 100 (bắt đầu lại với 0003 sau khi đạt 0993). Trong ý nghĩa này, kỹ thuật này cũng tương tự như cụm lấy mẫu, vì sự lựa chọn của đơn vị đầu tiên sẽ quyết định phần còn lại. Điều này không còn lấy mẫu ngẫu nhiên đơn giản, bởi vì một số sự kết hợp của 100 học sinh có một xác suất lựa chọn lớn hơn hơn những người khác - ví dụ, {3, 13, 23,..., 993} có một cơ hội 1/10 lựa chọn, trong khi {1, 2, 3,..., 100} có thể không được lựa chọn theo phương pháp này.