Biến ngẫu nhiên

Bách khoa toàn thư mở Wikipedia
Bước tới: menu, tìm kiếm

Biến ngẫu nhiên là một thuật ngữ được dùng trong toán họcthống kê. Trong một phép thử ngẫu nhiên (random experiment), đầu ra (outcome) của nó có thể là giá trị số hoặc không phải. Ví dụ phép thử ngẫu nhiên là tung một đồng xu lên và xét mặt nào của đồng xu ở phía trên, thì kết quả đầu ra có thể là {sấp, ngửa} (đầu ra không phải là số). Ví dụ phép thử ngẫu nhiên là tung con súc sắc và xem mặt nằm phía trên là có mấy chấm, thì kết quả đầu ra có thể là {1,2,3,4,5,6} (đầu ra là số). Tuy nhiên, trong các ứng dụng của thống kê, người ta muốn mỗi đầu ra đều gắn với một đại lượng đo đạc được, hay còn gọi là thuộc tính có giá trị là số. Để thực hiện điều này, người ta định ra biến ngẫu nhiên để ánh xạ mỗi đầu ra của một phép thử ngẫu nhiên với một giá trị số.

Biến ngẫu nhiên là một hàm toán học với đặc điểm: nó gán một giá trị bằng số cho kết quả (đầu ra) của một phép thử ngẫu nhiên (thực nghiệm).

X(\zeta)=x  \;

với \zeta là đại diện cho đầu ra của một thực nghiệm, x là một số thực, X là hàm ánh xạ (hay là biến ngẫu nhiên). Vì thế, người ta còn gọi X là biến ngẫu nhiên giá trị thực (real-valued random variable)[1].

Ví dụ: trong phép thử ngẫu nhiên tung đồng xu, ta định ra một biến ngẫu nhiên tương ứng

X(\zeta)=\left\{ \begin{array}{rl} 1 & \mbox{if} \, 'head' \\ 0 & \mbox{if} \, 'tail' \end{array} \right. \;

Ví dụ: trong phép thử ngẫu nhiên tung con xúc xắc, vì đầu ra vốn dĩ đã là số thực, nên ta có thể ánh xạ trực tiếp đầu ra bằng hàm đồng nhất thức

X(\zeta)= \zeta. \;

Phép thử ngẫu nhiên trong trường hợp tung con xúc xắc còn được gọi là phép thử ngẫu nhiên có giá trị bằng số (numerically valued random experiment) [2].

Thuật ngữ biến trong biến ngẫu nhiên không có nghĩa nó là một biến như các biến toán học khác, mà thực chất nó là một hàm số (hay ánh xạ). Ta không thể gán giá trị cụ thể cho một biến ngẫu nhiên; một biến ngẫu nhiên không mô tả kết quả thực tế của một thực nghiệm cụ thể, nó dùng các số thực để mô tả các kết quả có thể có nhưng chưa xác định.

Thuật ngữ ngẫu nhiên trong biến ngẫu nhiên không có nghĩa nó là một hàm số ngẫu nhiên, mà nó là một hàm số được xác định. Tính ngẫu nhiên được thể hiện ở tham số đầu vào \zeta. Điều này dẫn tới đầu ra của hàm (hay biến ngẫu nhiên) là ngẫu nhiên. Nói tóm lại, biến ngẫu nhiên có thể được xem là kết quả bằng số của việc vận hành một cơ chế không đơn định hoặc thực hiện một thực nghiệm không đơn định để tạo ra một kết quả ngẫu nhiên. Ví dụ, một biến ngẫu nhiên có thể mô tả các kết quả có thể của việc chọn ngẫu nhiên một người và đo chiều cao của người đó.

Tuy các ví dụ đơn giản như thả súc sắc và đo chiều cao (như miêu tả ở trên) giúp ta dễ dàng hình dung về ứng dụng thực tế của các biến ngẫu nhiên, cấu trúc toán học của chúng mang lại cho các nhà toán học sự thuận tiện khi làm việc với lý thuyết xác suất độ đo trong một môi trường quen thuộc hơn với các hàm số giá trị thực. Ngược lại, khái niệm này cũng đặt các thực nghiệm có liên quan đến các kết quả với giá trị là số thực vào trong khuôn khổ lý thuyết độ đo một cách vững chắc.

Các định nghĩa[sửa | sửa mã nguồn]

Biến ngẫu nhiên[sửa | sửa mã nguồn]

Một số người cho rằng gọi tên biến ngẫu nhiên là một sự nhầm lẫn, do một biến ngẫu nhiên không phải là một biến mà là một hàm số ánh xạ các biến cố tới các số. Cho A là một σ-đại số và Ω là không gian các biến cố liên quan tới thực nghiệm đang được tiến hành. Trong ví dụ thả súc sắc, không gian các biến cố chính là các kết quả có thể của một lần thả, nghĩa là Ω = { 1, 2, 3, 4, 5, 6 }, và A sẽ là tập lũy thừa của Ω. Trong trường hợp này, một biến ngẫu nhiên thích hợp có thể là hàm đồng nhất (identity function) X(ω) = ω, sao cho nếu kết quả là nhất thì biến ngẫu nhiên cũng sẽ bằng 1. Một ví dụ cũng đơn giản nhưng ít tầm thường hơn là việc tung đồng xu: một không gian thích hợp cho các biến cố có thể là Ω = {S, N} (S: sấp, N: ngửa), và A cũng lại bằng tập lũy thừa của Ω. Một trong số nhiều biến ngẫu nhiên có thể được định nghĩa trên không gian này là

X(\omega) = \begin{cases}0,& \omega = \texttt{N},\\1,& \omega = \texttt{S}.\end{cases}

Một biến ngẫu nhiên được định nghĩa như là một hàm đo được (measurable function) từ một không gian xác suất tới một không gian đo được nào đó. Không gian đo được này là một không gian của các giá trị có thể của biến, và nó thường được lấy là các số thực với Borel σ-đại số. Phần còn lại của bài này sử dụng giả thuyết đó, trừ khi được chỉ rõ.

Cho không gian xác suất (Ω, A, P). Một hàm X: Ω → R là một biến ngẫu nhiên giá trị thực nếu với mọi tập con Ar = { ω: X(ω) ≤ r } trong đó rR, ta cũng có ArA. Định nghĩa này có tầm quan trọng ở chỗ nó cho phép ta xây dựng hàm phân bố của biến ngẫu nhiên.

Các hàm phân bố[sửa | sửa mã nguồn]

Nếu cho trước một biến ngẫu nhiên X: \Omega \to \mathbb{R} xác định trên không gian xác suất (\Omega,  P), ta có thể đặt các câu hỏi như "Khả năng giá trị của X lớn hơn 2 là bao nhiêu?". Đó chính là xác suất của biến cố \{ s \in\Omega: X(s) > 2 \} , thường được viết gọn là P(X > 2).

Việc ghi nhận tất cả các xác suất này của các khoảng biến thiên kết quả của một biến ngẫu nhiên giá trị thực X cho ra phân bố xác suất của X. Phân bố xác suất "bỏ quên" không gian xác suất đã được dùng để định nghĩa X và chỉ ghi nhận các xác suất của các giá trị của X. Bao giờ cũng có thể mô tả một phân bố xác suất như vậy bằng hàm phân bố tích lũy của nó.

F_X(x) = \operatorname{P}(X \le x)

và đôi khi còn dùng một hàm mật độ xác suất. Theo thuật ngữ lý thuyết độ đo, ta sử dụng biến ngẫu nhiên X để "đẩy" (push-forward) độ đo P trên Ω tới một độ đo dF trên R.

Không gian xác suất Ω là một thiết bị kỹ thuật để đảm bảo sự tồn tại của các biến ngẫu nhiên, và đôi khi để xây dựng chúng. Trong thực tế, người ta thường bỏ qua không gian Ω và chỉ đặt một độ đo lên R mà độ đo này gán số đo bằng 1 cho toàn bộ đường số thực, nghĩa là người ta làm việc với phân bố xác suất thay vì các biến ngẫu nhiên.

Hàm của các biến ngẫu nhiên[sửa | sửa mã nguồn]

Nếu ta có một biến ngẫu nhiên X trên Ω và một hàm đo được (measurable function) f: RR, thì Y = f(X) cũng là một biến ngẫu nhiên trên Ω, do hợp của các hàm đo được cũng là một hàm đo được. Có thể sử dụng quy trình cho phép đi từ một không gian xác suất (Ω, P) tới (R, dFX) để thu được phân bố của Y. Hàm phân bố tích lũy của Y

F_Y(y) = \operatorname{P}(f(X) \le y).

Ví dụ[sửa | sửa mã nguồn]

Cho X là một biến ngẫu nhiên liên tục giá trị thực và Y = X2. Khi đó,

F_Y(y) = \operatorname{P}(X^2 \le y).

Nếu y < 0, thì P(X2y) = 0, do đó

F_Y(y) = 0\qquad\hbox{if}\quad y < 0.

Nếu y ≥ 0, thì

\operatorname{P}(X^2 \le y) = \operatorname{P}(|X| \le \sqrt{y})
 = \operatorname{P}(-\sqrt{y} \le  X \le \sqrt{y}),

do đó

F_Y(y) = F_X(\sqrt{y}) - F_X(-\sqrt{y})    nếu  y \ge 0.

Các tham số đặc trưng của biến ngẫu nhiên[sửa | sửa mã nguồn]

Đối với một biến ngẫu nhiên nếu đã xác định được quy luật phân phối của nó thì xem như ta đã nắm được toàn bộ thông tin về biến ngẫu nhiên đó. Tuy nhiên trong thực tế ta không thể nắm bắt được từng giá trị riêng của biến ngẫu nhiên. Một yêu cầu rất tự nhiên được đặt ra là phải có giá trị đại diện phản ánh từng phần của biến ngẫu nhiên.

Ta có thể phân loại các tham số đặc trưng như sau:

- Các tham số đặc trưng cho xu hướng trung tâm của biến ngẫu nhiên: kỳ vọng toán (expected value), trung vị (median), mốt (mode),...

- Các tham số đặc trưng cho độ phân tán của biến ngẫu nhiên: phương sai, độ lệch chuẩn, hệ số biến thiên, giá trị tới hạn, mômen (moment)...

- Các tham số đặc trưng cho dạng phân phối xác suất; hệ số bất đối xứng (skewness), hệ số nhọn (kurtosis),...

Kì vọng toán[sửa | sửa mã nguồn]

Tham khảo bài chính Kì vọng toán

1. Định nghĩa

- Biến ngẫu nhiên rời rạc: Giả sử biến ngẫu nhiên rời rạc X nhận một trong các giá trị có thể có x_1, x_2,..., x_n với xác suất tương ứng p_1, p_2,..., p_n. Kì vọng toán của biến ngẫu nhiên rời rạc X, ký hiệu E(X) là tổng các tích giữa các giá trị có thể có của biến ngẫu nhiên với các xác suất tương ứng:

E(X)=\sum_{i=1}^{n}x_{i}p_i

- Biến ngẫu nhiên liên tục: Nếu X là biến ngẫu nhiên liên tục vớihàm mật độ xác suất f(x) thì kì vọng toán E(X) được xác định bằng biểu thức:

E(X)=\int_{-\infty}^{+\infty}xf(x)dx

2. Các tính chất của kỳ vọng toán

- Tính chất 1: E(C) = C; C = const

- Tính chất 2: E(CX) = C.E(X); C = const

- Tính chất 3: Với X và Y là 2 biến ngẫu nhiên bất kỳ thì:

E(X+Y)=E(X)+E(Y)

- Tính chất 4: Với X và Y là 2 biến ngẫu nhiên độc lập thì:

E(X.Y)=E(X).E(Y)

3. Bản chất và ý nghĩa của kì vọng toán

- Bản chất: Kì vọng toán là trung bình theo nghĩa xác suất của biến ngẫu nhiên.

- Ý nghĩa: kì vọng toán phản ánh giá trị trung tâm của phân phối xác suất của biến ngẫu nhiên.

4. Ứng dụng thực tế của kì vọng toán

Trong kinh doanh và quản lý kinh tế, kì vọng toán được xem như là một tiêu chuẩn đề ra quyết định trong tình huống cần lựa chọn nhiều chiến lược kinh doanh khác nhau. tiêu chuẩn này thường được gọi là lợi nhuận kì vọng hay doanh số kì vọng.

Phương sai[sửa | sửa mã nguồn]

Tham khảo bài chính Phương sai

1. Định nghĩa

Phương sai của biến ngẫu nhiên X, ký hiệu V(X), là kỳ vọng toán của bình phương sai lệnh của biến ngẫu nhiên so với kì vọng toán của nó.

V(X)=E[X-E(X)]^2

Ta có thể biến đổi như sau:

V(X)=E[X-E(X)]^2=E[X^2-2X.E(X)+(E(X))^2]=E(X^2)-E(2X.E(X))+E(E(X))^2=E(X^2)-2E(X).E(X)+E(E(X))^2=E(X^2)-[E(X)]^2

+ Nếu X là biến ngẫu nhiên rời rạc:

V(X)=\sum_{i=1}^{n}x_{i}^2p_i-[E(X)]^2

+ Nếu X là biến ngẫu nhiên liên tục:

V(X)=\int_{-\infty}^{+\infty}x^2f(x)dx-[E(X)]^2

2. Các tính chất của phương sai

- Tính chất 1: V(C) = 0; C = const

- Tính chất 2:V(CX)=C^2V(X), C = const

- Tính chất 3: Với X và Y là hai biến ngẫu nhiên độc lập thì

V(X+Y)=V(X)+V(Y)
V(X-Y)=V(X)-V(Y)

3. Bản chất và ý nghĩa của phương sai

- Bản chất: Phương sai là trung bình số học của bình phương các sai lệnh giữa các giá trị quan sát của biến ngẫu nhiên so với giá trị quan sát của biến ngẫu nhiên so với giá trị trung bình của các giá trị đó.

- Ý nghĩa: Phương sai phản ánh mức độ phân tán của các giá trị của biến ngẫu nhiên so với giá trị trung tâm là kỳ vọng toán. Phương sai càng nhỏ thì các giá trị càng tập trung ở gần giá trị trung tâm.

4. Ứng dụng thực tế của phương sai

+ Trong kỹ thuật: Phương sai đặc trưng cho sai số của thiết bị, chi tiết gia công so với kích thước tiêu chuẩn

+ Trong lĩnh vực kinh tế: Phương sai đặc trưng cho mức độ rủi ro của các quyết định.

Mômen[sửa | sửa mã nguồn]

Phân bố xác suất của một biến ngẫu nhiên thường được đặc trưng bởi một số các tham số, các tham số này cũng có một cách hiểu thực dụng. Ví dụ, trong nhiều trường hợp, biết "giá trị trung bình" của biến ngẫu nhiên là đủ. Giá trị này được thể hiện bởi khái niệm toán học giá trị kỳ vọng của một biến ngẫu nhiên, được ký hiệu là E[X]. Lưu ý rằng, nói chung, E[f(X)] khác với f(E[X]). Một khi đã biết được "giá trị trung bình", người ta có thể đặt câu hỏi cái giá trị trung bình này cách bao xa đối với các giá trị điển hình của X, câu hỏi này được trả lời bởi các khái niệm phương saiđộ lệch tiêu chuẩn của một biến ngẫu nhiên.

Trong toán học, bài toán (mở rộng) về các mômen (generalised problem of moments) được phát biểu như sau: cho trước một lớp gồm các biến ngẫu nhiên X, tìm một tập hợp {fi} gồm các hàm sao cho các giá trị kỳ vọng E[fi(X)] đặc trưng đầy đủ cho phân bố của biến ngẫu nhiên X.

Tính tương đương của các biến ngẫu nhiên[sửa | sửa mã nguồn]

Các biến ngẫu nhiên có thể được coi là tương đương theo một số nghĩa. Hai biến ngẫu nhiên có thể bằng nhau, gần như bằng nhau, trung bình bằng nhau, hoặc phân bố bằng nhau.

Định nghĩa chính xác của các khái niệm trên được cho dưới đây theo thứ tự tăng dần về độ mạnh.

Phân bố bằng nhau[sửa | sửa mã nguồn]

Hai biến ngẫu nhiên XYphân bố bằng nhau nếu chúng có các hàm phân bố giống nhau:

\operatorname{P}(X \le x) = \operatorname{P}(Y \le x)\quad\hbox{for all}\quad x.

Hai biến ngẫu nhiên có các hàm sinh mômen bằng nhau có phân bố bằng nhau. Điều này cung cấp một phương pháp kiểm tra tính bằng nhau của một số hàm nhất định của các biến phân bố đồng nhất độc lập (dependent identical-distributed variable).

Để có phân bố bằng nhau, các biến ngẫu nhiên không cần phải được định nghĩa trên cùng một không gian xác suất.

Khái niệm phân bố tương đương có quan hệ với khái niệm dưới đây về khoảng cách giữa các phân bố xác suất,

d(X,Y)=\sup_x|\operatorname{P}(X \le x) - \operatorname{P}(Y \le x)|,

đây là căn bản của thử nghiệm Kolmogorov-Smirnov.

Giá trị trung bình bằng nhau[sửa | sửa mã nguồn]

Hai biến ngẫu nhiên XYbằng nhau theo trung bình thứ p nếu mômen thứ p của |XY| bằng 0, nghĩa là

\operatorname{E}(|X-Y|^p) = 0.

Đẳng thức đối với trung bình thứ p hàm ý đẳng thức đối với trung bình thứ q với mọi q<p. Cũng như trong trường hợp trước, khái niệm này có liên quan đến một quan hộ khoảng cách giữa các biến ngẫu nhiên, đó là

d_p(X, Y) = \operatorname{E}(|X-Y|^p).

Gần như bằng nhau[sửa | sửa mã nguồn]

Hai biến ngẫu nhiên XYgần như bằng nhau khi và chỉ khi xác suất chúng khác nhau là bằng 0:

\operatorname{P}(X \neq Y) = 0.

Với mọi mục đích thực tiễn trong lý thuyết xác suất, khái niệm tương đương này cũng mạnh như khái niệm bằng nhau thực sự. Nó liên quan đến khoảng cách sau:

d_\infty(X,Y)=\sup_\omega|X(\omega)-Y(\omega)|,

trong đó 'sup' trong trường hợp này biểu diễn cận trên thực chất (essential supremum) với ý nghĩa của ngành lý thuyết độ đo.

Bằng nhau[sửa | sửa mã nguồn]

Cuối cùng, hai biến ngẫu nhiên XYbằng nhau nếu chúng bằng nhau với vai trò các hàm số trên không gian xác suất của chúng, nghĩa là,

X(\omega)=Y(\omega)\qquad\forall\omega

Hội tụ[sửa | sửa mã nguồn]

Nhiều thống kê toán học cốt ở việc chứng minh các kết quả hội tụ đối với một số dãy biến ngẫu nhiên nhất định; xem thêm trong những bài như luật số lớn (law of large numbers) và định lý giới hạn trung tâm (central limit theorem).

Một dãy (Xn) gồm các biến ngẫu nhiên có thể hội tụ thành một biến ngẫu nhiên X theo nhiều kiểu khác nhau. Những kiểu đó được giải thích trong bài sự hội tụ của các biến ngẫu nhiên (convergence of random variables).

Tham khảo[sửa | sửa mã nguồn]

  1. ^ Kay, Steven 2006 Intuitive probability and Random Processes using Matlab . Springer.
  2. ^ Papoulis, Athanasios 1965 Probability, Random Variables, and Stochastic Processes. McGraw-Hill Kogakusha, Tokyo, 9th edition, ISBN 0-07-119981-0.

Xem thêm[sửa | sửa mã nguồn]

Liên kết ngoài[sửa | sửa mã nguồn]

Bài này có sử dụng tài liệu từ Random variable tại PlanetMath, với giấy phép sử dụng GFDL.