Khi ta không thể thu thập được số liệu chính xác hoặc do yêu cầu của bài toán ta phải biểu diễn mẫu số liệu dưới dạng ghép nhóm để thuận lợi cho việc tổ chức, đọc và phân tích số liệu.
Mẫu số liệu ghép nhóm là mẫu số liệu cho dưới dạng bảng tần số của các nhóm số liệu. Mỗi nhóm số liệu là tập hợp gồm các giá trị của số liệu được ghép nhóm theo một tiêu chí xác định. Nhóm số liệu thường được cho dưới dạng $[a ; b),$ trong đó $a$ là đầu mút trái, $b$ là đầu mút phải.
Mẫu số liệu ghép nhóm
Trong mẫu số liệu ghép nhóm trên:
+ Có tất cả $k$ nhóm $\left[ {{a}_{1}};{{a}_{2}} \right),\left[ {{a}_{2}};{{a}_{3}} \right),...,\left[ {{a}_{k}};{{a}_{k+1}} \right)$ với tần số tương ứng là ${{m}_{1}},{{m}_{2}},...,{{m}_{k}}$ và nhóm $\left[ {{a}_{i}};{{a}_{i+1}} \right)$ được gọi là nhóm thứ $i$ của mẫu số liệu ghép nhóm.
+ Trong một số trường hợp, nhóm số liệu cuối cùng $\left[ {{a}_{k}};{{a}_{k+1}} \right)$ có thể lấy đầu mút bên phải, tức thay bởi nhóm $\left[ {{a}_{k}};{{a}_{k+1}} \right].$
+ Độ dài của nhóm $\left[ {{a}_{i}};{{a}_{i+1}} \right)$ là ${{a}_{i+1}}-{{a}_{i}}.$
+ Giá trị đại diện của nhóm $\left[ {{a}_{i}};{{a}_{i+1}} \right)$ là ${{x}_{i}}=\dfrac{{{a}_{i}}+{{a}_{i+1}}}{2}.$
+ Tổng $n={{m}_{1}}+{{m}_{2}}+...+{{m}_{k}}$ được gọi là cỡ mẫu.
+ Tổng ${{m}_{1}}+{{m}_{2}}+...+{{m}_{i}}$ được gọi là tần số tích luỹ của nhóm thứ $i.$
Ví dụ 1. Mẫu số liệu sau cho biết phân bố theo độ tuổi của dân số Việt Nam năm 2019.
a) Mẫu số liệu đã cho có là mẫu số liệu ghép nhóm hay không?
b) Nêu các nhóm và tần số tương ứng. Dân số Việt Nam năm 2019 là bao nhiêu?
Giải. a) Mẫu số liệu đã cho là mẫu số liệu ghép nhóm.
b) Có ba nhóm là: Dưới 15 tuổi, Từ 15 đến dưới 65 tuổi, Từ 65 tuổi trở lên.
Có 23371882 người dưới 15 tuổi; 65420451 người từ 15 đến dưới 65 tuổi và 7416651 người từ 65 tuổi trở lên.
Dân số Việt Nam năm 2019 là \[23371882\text{ }+\text{ }65420451\text{ }+\text{ }7416651\text{ }=\text{ }96208984\] người.
+ Để chuyển mẫu số liệu không ghép nhóm sang mẫu số liệu ghép nhóm, ta thực hiện theo các bước sau:
Bước 1: Chia miền giá trị của mẫu số liệu thành một số nhóm theo tiêu chí cho trước.
Bước 2: Đếm số giá trị của mẫu số liệu thuộc mỗi nhóm (tần số) và lập bảng thống kê cho mẫu số liệu ghép nhóm.
+ Ta không nên chia thành quá nhiều nhóm hoặc quá ít nhóm. Các nhóm không giao nhau, các nhóm nên có độ dài bằng nhau và tổng độ dài các nhóm lớn hơn khoảng biến thiên.
+ Đối với dữ liệu rời rạc, người ta thường cho các nhóm dưới dạng $k_1-k_2$ trong đó $k_1, k_2 \in \mathbb{N}.$ Nhóm $k_1-k_2$ được hiểu là nhóm gồm các giá trị $k_1, k_1+1, \ldots, k_2.$ Khi đó, ta cần hiệu chỉnh mẫu dữ liệu ghép nhóm trước khi thực hiện tính toán các số đặc trưng bằng cách hiệu chỉnh nhóm $k_1-k_2$ thành nhóm $\left[k_1-0,5 ; k_2+0,5\right).$
Số trung bình của mẫu số liệu ghép nhóm kí hiệu là $\overline{x}$ và \[\bar{x}=\dfrac{{{m}_{1}}{{x}_{1}}+{{m}_{2}}{{x}_{2}}+\ldots +{{m}_{k}}{{x}_{k}}}{n}\]
trong đó, $n={{m}_{1}}+\ldots +{{m}_{k}}$ là cỡ mẫu và ${{x}_{i}}=\dfrac{{{a}_{i}}+{{a}_{i+1}}}{2}$ là giá trị đại diện của nhóm $\left[ {{a}_{i}};{{a}_{i+1}} \right).$
Số trung bình của mẫu số liệu ghép nhóm xấp xỉ cho số trung bình của mẫu số liệu gốc, nó cho biết vị trí trung tâm của mẫu số liệu và có thể dùng để đại diện cho mẫu số liệu.
Nhận xét. Nếu chỉ tính số trung bình của mẫu số liệu ghép nhóm thì ta không cần hiệu chỉnh nhóm rời rạc ${{k}_{1}}-{{k}_{2}}$, chọn giá trị đại diện là $\dfrac{{{k}_{1}}+{{k}_{2}}}{2}.$
Người ta chỉ định nghĩa mốt cho mẫu số liệu ghép nhóm có độ dài các nhóm bằng nhau. Một mẫu số liệu ghép nhóm có thể không có mốt hoặc có nhiều hơn 1 mốt. Khi tần số của các nhóm bằng nhau thì mẫu số liệu ghép nhóm không có mốt.
Để tìm mốt của mẫu số liệu ghép nhóm, ta thực hiện theo các bước sau:
Bước 1. Xác định nhóm có tần số lớn nhất (gọi là nhóm chứa mốt), giả sử là nhóm thứ $j:\left[ {{a}_{j}};{{a}_{j+1}} \right).$
Bước 2. Mốt được xác định là \[{{M}_{\text{o}}}={{a}_{j}}+\dfrac{\left( {{m}_{j}}-{{m}_{j-1}} \right)}{\left( {{m}_{j}}-{{m}_{j-1}} \right)+\left( {{m}_{j}}-{{m}_{j+1}} \right)}\cdot h,\] trong đó ${{m}_{j}}$ là tần số của nhóm thứ $j$ (quy ước ${{m}_{0}}={{m}_{k+1}}=0$) và $h$ là độ dài của nhóm.
Mốt của mẫu số liệu ghép nhóm xấp xỉ cho mốt của mẫu số liệu gốc, nó được dùng để đo xu thế trung tâm của mẫu số liệu.
Để tính trung vị của mẫu số liệu ghép nhóm, ta làm như sau:
Bước 1. Xác định nhóm chứa trung vị. Giả sử đó là nhóm thứ $p:\left[ {{a}_{p}};{{a}_{p+1}} \right).$
Nhóm chứa trung vị là nhóm đầu tiên có tần số tích luỹ không nhỏ hơn $\dfrac{n}{2}.$
Bước 2. Trung vị là ${{M}_{e}}={{a}_{p}}+\dfrac{\dfrac{n}{2}-\left( {{m}_{1}}+\ldots +{{m}_{p-1}} \right)}{{{m}_{p}}}\cdot \left( {{a}_{p+1}}-{{a}_{p}} \right)$, trong đó $n$ là cỡ mẫu, ${{m}_{p}}$ là tần số nhóm thứ $p.$ Với $p=1,$ ta quy ước ${{m}_{1}}+\ldots +{{m}_{p-1}}=0.$
Trung vị chính là tứ phân vị thứ hai ${{Q}_{2}}.$ Trung vị của mẫu số liệu ghép nhóm xấp xỉ cho trung vị của mẫu số liệu gốc, nó chia mẫu số liệu thành hai phần, mỗi phần chứa 50% giá trị.
Để tính tứ phân vị thứ nhất ${{Q}_{1}}$ của mẫu số liệu ghép nhóm trước hết ta xác đinh nhóm chứa ${{Q}_{1}}$, giả sử đó là nhóm thứ $p:\left[ {{a}_{p}};{{a}_{p+1}} \right).$ Khi đó,
\[{{Q}_{1}}={{a}_{p}}+\dfrac{\dfrac{n}{4}-\left( {{m}_{1}}+\ldots +{{m}_{p-1}} \right)}{{{m}_{p}}}\cdot \left( {{a}_{p+1}}-{{a}_{p}} \right)\]
trong đó $n$ là cỡ mẫu, ${{m}_{p}}$ là tần số nhóm thứ $p.$ Với $p=1,$ ta quy ước ${{m}_{1}}+\ldots +{{m}_{p-1}}=0.$
Tứ phân vị thứ hai ${{Q}_{2}}$ chính là trung vị ${{M}_{e}}.$
Để tính tứ phân vị thứ ba ${{Q}_{3}}$ của mẫu số liệu ghép nhóm trước hết ta xác định nhóm chứa ${{Q}_{3}}.$ Giả sử đó là nhóm thứ $p:\left[ {{a}_{p}};{{a}_{p+1}} \right).$ Khi đó,
\[{{Q}_{3}}={{a}_{p}}+\dfrac{\dfrac{3n}{4}-\left( {{m}_{1}}+\ldots +{{m}_{p-1}} \right)}{{{m}_{p}}}\cdot \left( {{a}_{p+1}}-{{a}_{p}} \right),\]
trong đó $n$ là cỡ mẫu, ${{m}_{p}}$ là tần số nhóm thứ $p.$ Với $p=1,$ ta quy ước ${{m}_{1}}+\ldots +{{m}_{p-1}}=0.$
Nhóm chứa tứ phân vị thứ $r$ là nhóm đầu tiên có tần số tích luỹ không nhỏ hơn $\dfrac{nr}{4}.$
Các tứ phân vị ${{Q}_{1}},{{Q}_{2}},{{Q}_{3}}$ của mẫu số liệu ghép nhóm xấp xỉ cho các tứ phân vị của mẫu số liệu gốc, chúng chia mẫu số liệu thành 4 phần, mỗi phần chứa 25% giá trị.
Quý thầy, cô hoặc bạn đọc muốn đóng góp tài liệu cho VTED.vn, vui lòng gửi về: