Các số đặc trưng đo mức độ phân tán của mẫu số liệu ghép nhóm


Các số đặc trưng đo mức độ phân tán của mẫu số liệu ghép nhóm

>>Mẫu số liệu ghép nhóm và Các số đặc trưng đo xu thế trung tâm

2.1. Khoảng biến thiên

Cho mẫu số liệu ghép nhóm:

trong đó các tần số \[{{m}_{1}}>0,\text{ }{{m}_{k}}>0\] và \[n={{m}_{1}}+...+{{m}_{k}}\] là cỡ mẫu.

Khoảng biến thiên của mẫu số liệu ghép nhóm trên là \[R={{a}_{k+1}}-{{a}_{1}}.\]

Ý nghĩa: Khoảng biến thiên của mẫu số liệu ghép nhóm xấp xỉ cho khoảng biến thiên của mẫu số liệu gốc. Khoảng biến thiên được dùng để đo mức độ phân tán của mẫu số liệu ghép nhóm. Khoảng biến thiên càng lớn thì mẫu số liệu càng phân tán.

Ví dụ 1. Thời gian hoàn thành bài kiểm tra môn Toán của các bạn trong lớp 12 C được cho trong bảng sau:

a) Tính khoảng biến thiên $R$ cho mẫu số liệu ghép nhóm trên.

b) Nếu biết học sinh hoàn thành bài kiểm tra sớm nhất mất 27 phút và muộn nhất mất 43 phút thì khoảng biến thiên của mẫu số liệu gốc là bao nhiêu?

Giải. a) Ta có khoảng biến thiên của mẫu số liệu ghép nhóm là $R=45-25=20.$

b) Khoảng biến thiên của mẫu số liệu gốc là $43-27=16.$

Ví dụ 2. Thống kê thời gian sử dụng mạng xã hội trong ngày của các bạn Tổ 1, Tổ 2 lớp 12A, được kết quả như bảng sau:

Tìm khoảng biến thiên cho thời gian sử dụng mạng xã hội của học sinh mỗi tổ và giải thích ý nghĩa.

Giải. Gọi $R_1, R_2$ tương ứng là khoảng biến thiên của mẫu số liệu ghép nhóm về thời gian sử dụng mạng xã hội trong ngày của các bạn Tổ 1 và Tổ 2.

Ta có: $R_1=90-0=90$ và $R_2=60-0=60.$

Do $R_1>R_2$ nên ta có thể kết luận rằng thời gian sử dụng mạng xã hội trong ngày của các bạn Tổ 1 phân tán hơn thời gian sử dụng mạng xã hội của các bạn Tổ 2.

2.2. Khoảng tứ phân vị

Khoảng tứ phân vị của mẫu số liệu ghép nhóm, kí hiệu là $\Delta_Q,$ là hiệu số giữa tứ phân vị thứ ba $Q_3$ và tứ phân vị thứ nhất $Q_1$ của mẫu số liệu đó, tức là $\Delta_Q=Q_3-Q_1.$

Ý nghĩa: Khoảng tứ phân vị của mẫu số liệu ghép nhóm xấp xỉ cho khoảng tứ phân vị của mẫu số liệu gốc. Khoảng tứ phân vị cũng được dùng để đo mức độ phân tán của mã̃u số liệu ghép nhóm. Khoảng tứ phân vị càng lớn thì mẫu số liệu càng phân tán.

Nhận xét: Do khoảng tứ phân vị của mẫu số liệu ghép nhóm chỉ phụ thuộc vào nửa giữa của mẫu số liệu, nên không bị ảnh hưởng bởi các giá trị bất thường và có thể dùng đại lượng này để loại giá trị bất thường.

Tứ phân vị thứ $r$ là

\[Q_r=a_p+\dfrac{\dfrac{r \cdot n}{4}-\left(m_1+\ldots+m_{p-1}\right)}{m_p} \cdot\left(a_{p+1}-a_p\right) \text {, }\]

trong đó $\left[a_p ; a_{p+1}\right)$ là nhóm chứa tứ phân vị thứ $r$ với $r=1,2,3$(Nhóm đầu tiên có tần số tích lũy không nhỏ hơn $\dfrac{r\cdot n}{4}$).

Ví dụ 1. Thời gian chờ khám bệnh của các bệnh nhân tại phòng khám X được cho trong bảng sau:

a) Tìm khoảng tứ phân vị của mẫu số liệu ghép nhóm này.

b) Từ một mẫu số liệu về thời gian chờ khám bệnh của các bệnh nhân tại phòng khám Y người ta tính được khoảng tứ phân vị bằng 9,23. Hỏi thời gian chờ của bệnh nhân tại phòng khám nào phân tán hơn?

Giải. a) Cỡ mẫu là $n=3+12+15+8=38;\text{ }\dfrac{n}{4}=\dfrac{38}{4}=9,5;\text{ }\dfrac{3n}{4}=\dfrac{3\times 38}{4}=28,5.$

Nhóm $\left[ 5;10 \right)$ là nhóm đầu tiên có tần số tích lũy $3+12=15\ge 9,5$ nên đây là nhóm chứa tứ phân vị thứ nhất là nhóm $[5 ; 10)$ và ta có: \[{{Q}_{1}}=5+\dfrac{\dfrac{38}{4}-3}{12}\cdot 5\approx 7,71.\]

Nhóm $[10 ; 15)$ là nhóm đầu tiên có tần số tích lũy $3+12+15=30\ge 28,5$nên đây là nhóm chứa tứ phân vị thứ ba và ta có: \[{{Q}_{3}}=10+\dfrac{\dfrac{3\cdot 38}{4}-15}{15}\cdot 5=14,5.\]

Vậy khoảng tứ phân vị của mẫu số liệu ghép nhóm là $\Delta_Q=Q_3-Q_1 \approx 14,5-7,71=6,79.$

b) Do $\Delta_Q=6,79<9,23$ nên thời gian chờ của bệnh nhân tại phòng khám Y phân tán hơn thời gian chờ của bệnh nhân tại phòng khám X.

2.3. Phương sai và độ lệch chuẩn

- Phương sai của mẫu số liệu ghép nhóm, kí hiệu là $s^2,$ là một số được tính theo công thức sau:

            \[s^2=\dfrac{m_1\left(x_1-\bar{x}\right)^2+\ldots+m_k\left(x_k-\bar{x}\right)^2}{n}\]

trong đó, $n=m_1+\ldots+m_k ; x_i=\dfrac{a_i+a_{i+1}}{2}$ với $i=1,2, \ldots, k$ là giá trị đại diện cho nhóm $\left[a_i ; a_{i+1}\right)$ và $\bar{x}=\dfrac{m_1 x_1+\ldots+m_k x_k}{n}$ là số trung bình của mẫu số liệu ghép nhóm.

- Độ lệch chuẩn của mẫu số liệu ghép nhóm, kí hiệu là $s,$ là căn bậc hai số học của phương sai của mẫu số liệu ghép nhóm, tức là $s=\sqrt{s^2}.$ Độ lệch chuẩn có cùng đơn vị với đơn vị của mẫu số liệu.

Khai triển hằng đẳng thức, ta có:

\[{{s}^{2}}=\dfrac{{{m}_{1}}{{\left( {{x}_{1}}-\bar{x} \right)}^{2}}+\ldots +{{m}_{k}}{{\left( {{x}_{k}}-\bar{x} \right)}^{2}}}{n}\]\[=\dfrac{\sum\limits_{i=1}^{n}{{{m}_{i}}x_{i}^{2}}+\sum\limits_{i=1}^{n}{{{m}_{i}}{{\left( {\bar{x}} \right)}^{2}}}-2\sum\limits_{i=1}^{n}{{{m}_{i}}{{x}_{i}}\bar{x}}}{n}\]

\[=\dfrac{\sum\limits_{i=1}^{n}{{{m}_{i}}x_{i}^{2}}+n{{\left( {\bar{x}} \right)}^{2}}-2n{{\left( {\bar{x}} \right)}^{2}}}{n}=\dfrac{\sum\limits_{i=1}^{n}{{{m}_{i}}x_{i}^{2}}}{n}-{{\left( {\bar{x}} \right)}^{2}}.\]

Như vậy ta có thể tính phương sai theo công thức: $s^2=\dfrac{1}{n}\left(m_1 \cdot x_1^2+\ldots+m_k \cdot x_k^2\right)-(\bar{x})^2.$

Ý nghĩa: Phương sai, độ lệch chuẩn của mẫu số liệu ghép nhóm là các xấp xỉ cho phương sai, độ lệch chuẩn của mẫu số liệu gốc. Chúng được dùng để đo mức độ phân tán của mẫu số liệu ghép nhóm xung quanh số trung bình của mẫu số liệu đó. Phương sai, độ lệch chuẩn càng lớn thì mẫu số liệu càng phân tán.

Chú ý. Người ta còn sử dụng các đại lượng sau để đo mức độ phân tán của mẫu số liệu ghép nhóm:

\[{{\hat{s}}^{2}}=\dfrac{{{m}_{1}}{{\left( {{x}_{1}}-\bar{x} \right)}^{2}}+\ldots +{{m}_{k}}{{\left( {{x}_{k}}-\bar{x} \right)}^{2}}}{n-1},\text{ }\hat{s}=\sqrt{{{{\hat{s}}}^{2}}}.\]

Ví dụ 1. Để xác định độ ổn định của một máy đo độ ẩm không khí, người ta dùng máy này để đo 20 lần. Nếu độ lệch chuẩn của mẫu số liệu đo lớn hơn 0,15 thì người ta sẽ đưa máy đo đi sửa chữa. Trong một lần lấy mẫu, kĩ thuật viên có được mẫu số liệu ghép nhóm sau:

Liệu có cần đưa máy đo này đi sửa chữa hay không?

Giải. Bảng giá trị đại diện cho các nhóm số liệu:

Độ ẩm trung bình là \[\bar{x}=\dfrac{1}{20}[1\cdot 52,05+5\cdot 52,15+8\cdot 52,25+4\cdot 52,35+2\cdot 52,45]=52,255\text{  }\!\!%\!\!\text{ }\text{.}\]

Độ lệch chuẩn của độ ẩm là $s=\sqrt{\dfrac{1}{20}\left[ 1\cdot 52,{{05}^{2}}+5\cdot 52,{{15}^{2}}+8\cdot 52,{{25}^{2}}+4\cdot 52,{{35}^{2}}+2\cdot 52,{{45}^{2}} \right]-52,{{255}^{2}}}\approx 0,102347.$

Vì $s\approx 0,102347<0,15$ nên không cần đưa máy đo này đi sửa chữa.

Ví dụ 2. Thống kê mức thu nhập theo tháng của một số hộ gia đình ở một khu dân cư cho kết quả như sau:

Tìm phương sai, độ lệch chuẩn của mẫu số liệu ghép nhóm này.
Giải. Cỡ mẫu là $n=5+8+15+12+10=50.$

Bảng giá trị đại diện cho mỗi nhóm số liệu:

Mức thu nhập trung bình của các hộ gia đình này là

\[\bar{x}=\dfrac{5\cdot 7,5+8\cdot 12,5+15\cdot 17,5+12\cdot 22,5+10\cdot 27,5}{50}=18,9\] (triệu đồng).

Phương sai của mẫu số liệu ghép nhóm trên là

\[{{s}^{2}}=\dfrac{1}{50}\left( 5\cdot 7,{{5}^{2}}+8\cdot 12,{{5}^{2}}+15\cdot 17,{{5}^{2}}+12\cdot 22,{{5}^{2}}+10\cdot 27,{{5}^{2}} \right)-18,{{9}^{2}}=38,04.\]

Độ lệch chuẩn của mẫu số liệu ghép nhóm trên là \[s=\sqrt{{{s}^{2}}}\approx 6,17.\]

Ví dụ 3. Người ta theo dõi sự thay đổi cân nặng, được tính bằng hiệu cân nặng trước và sau ba tháng áp dụng chế độ ăn kiêng của một số người cho kết quả như sau:

Tính số trung bình, phương sai, độ lệch chuẩn và nhận xét về sự thay đổi cân nặng của người nam, người nữ sau ba tháng áp dụng chế độ ăn kiêng.

Giải. Bảng giá trị đại diện cho các nhóm số liệu:

Tổng số người nam là $n_1=2+3+5+3+2=15.$

Tổng số người nữ là $n_2=2+7+12+7+2=30.$

Thay đổi cân nặng trung bình của người nam là

         \[\bar{x}_1=\dfrac{1}{15}[2 \cdot(-0,5)+3 \cdot 0,5+5 \cdot 1,5+3 \cdot 2,5+2 \cdot 3,5]=1,5(\mathrm{~kg}) .\]

Thay đổi cân nặng trung bình của người nữ là

         \[\bar{x}_2=\dfrac{1}{30}[2 \cdot(-0,5)+7 \cdot 0,5+12 \cdot 1,5+7 \cdot 2,5+2 \cdot 3,5]=1,5(\mathrm{~kg}) .\]

Phương sai và độ lệch chuẩn của mẫu số liệu về thay đổi cân nặng của người nam là

        \[s_1^2=\dfrac{1}{15}\left[2 \cdot(-0,5)^2+3 \cdot 0,5^2+5 \cdot 1,5^2+3 \cdot 2,5^2+2 \cdot 3,5^2\right]-1,5^2 \approx 1,21^2 ; s_1 \approx 1,21 .\]

Phương sai và độ lệch chuẩn của mẫu số liệu về thay đổi cân nặng của người nữ là

        \[s_2^2=\dfrac{1}{30}\left[2 \cdot(-0,5)^2+7 \cdot 0,5^2+12 \cdot 1,5^2+7 \cdot 2,5^2+2 \cdot 3,5^2\right]-1,5^2 \approx 2,06^2 ; s_2 \approx 2,06 .\]

Như vậy, sau ba tháng áp dụng chế độ ăn kiêng này, về trung bình sự thay đổi cân nặng của nam và nữ là như nhau. Tuy nhiên, sự biến động về thay đổi cân nặng của nữ nhiều hơn so với của nam.

2.4. Sử dụng phương sai, độ lệch chuẩn đo độ rủi ro

Trong tài chính, người ta có nhiều cách để đo độ rủi ro của một phương án đầu tư. Một trong các cách đó là sử dụng độ lệch chuẩn của lợi nhuận thu được theo phương án đầu tư. Độ lệch chuẩn càng lớn thì phương án đầu tư càng rủi ro.

Ví dụ 1. Anh An đầu tư số tiền bằng nhau vào hai lĩnh vực kinh doanh A, B. Anh An thống kê số tiền thu được mỗi tháng trong vòng 60 tháng theo mỗi lĩnh vực cho kết quả như sau:

So sánh giá trị trung bình và độ lệch chuẩn của số tiền thu được mỗi tháng khi đầu tư vào mỗi lĩnh vực A, B. Đầu tư vào lĩnh vực nào "rủi ro" hơn?

Giải. Bảng giá trị đại điện cho các nhóm số liệu:

Số tiền trung bình thu được khi đầu tư vào các lĩnh vực A, B tương ứng là

\[{{\bar{x}}_{A}}=\dfrac{1}{60}(5\cdot 7,5+\ldots +5\cdot 27,5)=17,5\] (triệu đồng) và \[{{\bar{x}}_{B}}=\dfrac{1}{60}(20\cdot 7,5+\ldots +20\cdot 27,5)=17,5\] (triệu đồng).

Như vậy, về trung bình đầu tư vào các lĩnh vực A, B số tiền thu được hàng tháng như nhau.

Độ lệch chuẩn của số tiền thu được hàng tháng khi đầu tư vào các lĩnh vực A, B tương ứng là

\[{{s}_{A}}=\sqrt{\dfrac{1}{60}\left( 5\cdot 7,{{5}^{2}}+\ldots +5\cdot 27,{{5}^{2}} \right)-{{(17,5)}^{2}}}=5\] và \[{{s}_{B}}=\sqrt{\dfrac{1}{60}\left( 20\cdot 7,{{5}^{2}}+\ldots +20\cdot 27,{{5}^{2}} \right)-{{(17,5)}^{2}}}\approx 8,42.\]

Như vậy, độ lệch chuẩn của mẫu số liệu về số tiền thu được hàng tháng khi đầu tư vào lĩnh vực B cao hơn khi đầu tư vào lĩnh vực A. Người ta nói rằng, đầu tư vào lĩnh vực B là "rủi ro" hơn.

Nhận xét: Ta không nên dùng phương sai hay độ lệch chuẩn để so sánh độ rủi ro của hai phương án đầu tư khi lợi nhuận trung bình của hai phương án đầu tư này khác nhau rất nhiều.

Để so sánh độ phân tán của hai mẫu số liệu khi đơn vị đo trên hai mẫu số liệu khác nhau hoặc giá trị trung bình của hai mẫu số liệu này khác nhau rất nhiều người ta dùng hệ số biến thiên CV (Coefficient of Variation). Hệ số biến thiên được tính theo công thức:

            \[C V=\dfrac{s}{\bar{x}},\]

trong đó $s$ là độ lệch chuẩn và $\bar{x}$ là số trung bình của mẫu số liệu.

Ví dụ 2. Thống kê lợi nhuận hàng tháng (đơn vị: triệu đồng) trong 20 tháng của hai nhà đầu tư được cho như sau:

Tính độ lệch chuẩn của hai mẫu số liệu ghép nhóm trên. Có nên dựa vào độ lệch chuẩn để so sánh độ rủi ro của hai nhà đầu tư này không?

Giải. Lợi nhuận trung bình một tháng của các nhà đầu tư tương ứng là

\[{{\bar{x}}_{A}}=\dfrac{1}{20}(2\cdot 15+\ldots +2\cdot 55)=35\] (triệu đồng) và \[{{\bar{x}}_{B}}=\dfrac{1}{20}(4\cdot 515+\ldots +4\cdot 555)=535\] (triệu đồng).

Độ lệch chuẩn của lợi nhuận hàng tháng của hai nhà đầu tư tương ứng là

\[{{s}_{A}}=\sqrt{\dfrac{1}{20}\left( 2\cdot {{15}^{2}}+\ldots +2\cdot {{55}^{2}} \right)-{{(35)}^{2}}}\approx 10,95\] và \[{{s}_{B}}=\sqrt{\dfrac{1}{20}\left( 4\cdot {{515}^{2}}+\ldots +4\cdot {{555}^{2}} \right)-{{(535)}^{2}}}\approx 13,78.\]

Độ lệch chuẩn cho lợi nhuận hàng tháng của nhà đầu tư B cao hơn của nhà đầu tư A. Lợi nhuận trung bình của hai nhà đầu tư khác nhau rất nhiều, do đó ta không nên dùng độ lệch chuẩn để so sánh mức độ rủi ro của hai nhà đầu tư này.

Combo X Luyện thi 2025 Môn Toán (THPT, ĐG năng lực, ĐG tư duy) (2K7 – Chương trình SGK mới)

Link đăng ký: https://bit.ly/45sFkXS

PRO X: Luyện thi THPT 2025 Môn Toán (Luyện mọi dạng bài từ cơ bản đến 9 điểm)

XMAX: Luyện mọi dạng bài vận dụng cao Môn Toán 2025 (Mức 9+)

LIVE X: Tổng ôn kiến thức và chữa đề thi THPT 2025 Môn Toán (100 ngày)

Đăng ký cả Combo giảm trực tiếp 532.000 đồng học phí đến lúc thi chỉ còn: 2.268.000 đồng

Đăng ký cả Combo đối với học sinh đã tham gia các khoá PRO X11 giảm trực tiếp 800.000 đồng học phí đến lúc thi chỉ còn 2.000.000 đồng

Đăng ký cả Combo được tặng khoá học: XPLUS: LUYỆN GIẢI ĐỀ THI THPT 2024 MÔN TOÁN

Gồm khoảng 200 đề thi thử chọn lọc của các trường, sở giáo dục các năm gần đây và Bộ đề dự đoán do trực tiếp thầy Đặng Thành Nam biên soạn các năm 2024, 2023. Tất cả các đề đều có thi online tại Vted.vn và Lời giải chi tiết, một số đề gồm cả Video Live chữa đề.

Đăng ký cả Combo học sinh được tham gia nhóm LIVE: được học Livestream một số bài giảng chuyên đề của khoá PRO X, Vận dụng cao XMAX và Live Chữa đề ôn tập theo từng chủ đề, tổng kết chương và học kì. Thầy Nam bắt đầu Live vào đầu tháng 8, mỗi tuần hai buổi vào tối thứ 3 và thứ 5 hàng tuần.

Nhóm Live Combo X Luyện thi 2025 Môn Toán (2K7 - Chương trình SGK mới)

Khoá học PRO X và XMAX khai giảng từ ngày 20/06/2024 và Khoá học LIVE X khai giảng dự kiến 100 ngày trước thi hoặc sớm hơn vào tháng 12/2024.

Khoá học Biên soạn dựa trên:

Sách giáo khoa Toán 12 (tập 1, tập 2) (Kết Nối Tri Thức Với Cuộc Sống) - NXB GD Việt Nam

Sách giáo khoa Toán 12 (tập 1, tập 2) (Chân Trời Sáng Tạo) - NXB GD Việt Nam

Sách giáo khoa Toán 12 (tập 1, tập 2) (Cánh Diều) - NXB ĐH Sư Phạm

Các khoá học được sử dụng kể từ ngày đăng kí đến khi kì thi THPT 2025 kết thúc.

Bình luận

Để bình luận, bạn cần đăng nhập bằng tài khoản Vted.

Đăng nhập
Vted
Xem tất cả