Trang 62
SAU BÀI HỌC NÀY EM SẼ:
• Sử dụng được các hàm tính các đặc trưng đo xu thế trung tâm: trung bình cộng (mean), trung vị (median), mốt (made), từ phân vị (quartile).
• Sử dụng được các hàm tính các đặc trưng về đo độ phân tán; khoảng biến thiên và phương sai, độ lệch chuẩn, hệ số biến thiên.
MỞ ĐẦU Em đã biết công thức tính các thống kê cơ bản cho một số liệu mẫu trên Excel trong chương trình Toán lớp 10 và 11. Hãy tính một vài giá trị đặc trưng cho dãy số liệu: 2, 4, 2, 6. 4, 5, 1, 0, 3, 5, 7. |
1. MÔ TẢ DỮ LIỆU THỐNG KÊ TRONG EXCEL
a) Tìm hiểu về dữ liệu thống kê
Hoạt động: Tìm hiểu về dữ liệu thống kê Hình 11.1 là một phần kết quả tuyển sinh của một trường đại học. Những cột dữ liệu nào trong bảng dữ liệu đó là dữ liệu thống kê? Các dữ liệu đó thuộc loại dữ liệu thống kê nào? |
Các cột từ A đến H ở Hình 11.1 đều là dữ liệu thống kê. Dữ liệu thống kê có hai loại chính:
– Dữ liệu định lượng: Loại dữ liệu đo lường được, thường là số. Ví dụ: chiều cao, trọng lượng, điểm số,... Các cột E đến H trong Hình 11.1 là các dữ liệu định lượng.
– Dữ liệu định tính: Loại dữ liệu mô tả tính chất hoặc loại, thường là các nhóm hoặc định danh. Ví dụ: màu sắc, giới tính,... Các cột A đến D trong Hình 11.1 là các dữ liệu định tính.
Mô tả dữ liệu thống kê là một trong ba bài toán đơn giản của phân tích dữ liệu thống kê: mô tả dữ liệu, phân tích tương quan và kiểm định giả thuyết. Mô tả dữ liệu thống kê gồm nhiều nội dung khác nhau, trong bài này sẽ chỉ đề cập việc xác định đặc trưng do xu thế trung tâm và độ phân tán của các dãy số.
Hình 11.1. Dữ liệu sinh viên trúng tuyển
Trang 63
b) Một số đặc trưng đo xu thế trung tâm
Trong môn Toán, em đã được tìm hiểu về các đặc trưng đo xu thế trung tâm: trung bình cộng (mean), trung vị (median), tứ phân vị (quartile), mốt (mode). Các đặc trưng trung tâm giúp tóm tắt và mô tả xu thế trung tâm của dãy số, giúp hiểu rõ hơn về sự phân phối và tính chất của dãy số. Tuy nhiên, việc sử dụng đặc trưng nào cho phù hợp với tính chất của dãy số và mục tiêu của phân tích là việc cần được cân nhắc.
Trong một số trường hợp, có thể kết hợp với biểu đồ tần số để chọn đặc trưng đa xu thế trung tâm của dãy số liệu tuỳ theo sự phân bố của trung bình, trung vị so với mốt là đỉnh của biểu đồ. Chẳng hạn, với dữ liệu Hình 11.1, các biểu đồ tần số của điểm môn Toán và các giá trị đặc trưng trung tâm có dạng như sau:
a) Tất cả sinh viên
b) Sinh viên Nam
c) Sinh viên Nữ
Hình 11.2. Biểu đồ phân phối tần số điểm thi môn Toán
Các chấm tròn trên biểu đồ cho biết số sinh viên đạt mức điểm tương ứng, ví dụ trên Hình 11.2a, có 5 sinh viên đạt mức điểm 8.40; trên Hình 11.20 có 2 sinh viên Nam đạt mức điểm 8.8,...
Trong trường hợp số liệu phân bố tương đối đối xứng qua đỉnh của biểu đồ (Hình 11.2a), có thể chọn trung bình làm đại diện đặc trưng đo xu thế trung tâm. Trong trường hợp phân bố này lệch phải hoặc lệch trái (Hình 11.2b, Hình 11.2c), người ta thường chọn trung vị làm đại diện đặc trưng đo xu thế trung tâm.
• Hàm AVERAGE được sử dụng để tinh trung bình của dãy số.
Cú pháp: AVERAGE(number1, [number2],...), trong đó:
number1, [number2],... là số hoặc vùng ô chứa số.
Ví dụ: AVERAGE(10, A1:B4), AVERAGE(RAND(), A1:B4), ...
• Hàm MEDIAN được sử dụng để tính giá trị trung vị của dãy số liệu.
Cú pháp: MEDIAN(number1, [number2],...), trong đó:
Trang 64
number1, [number2],... là số hoặc vùng ô chứa số.
• Hàm MODE được dùng để tìm giá trị có số lần xuất hiện lớn nhất của dãy số liệu.
Cú pháp: MODE(number1,[nurnber2],...), trong đó:
number1, [number2],... là sổ hoặc vũng ô chứa số.
Lưu ý: Mốt có thể dùng đối với biến định tính được mã hoá bằng số.
Khi dãy số có nhiều giá trị mốt, hàm MODE trả về giá trị mốt xuất hiện đầu tiên trong dãy số. Nếu muốn biết tất cả các giá trị mốt thì có thể dùng hàm MOD.MULT (với Excel phiên bản từ 2010).
• Hàm QUARTILE.INC được sử dụng để tìm các giá trị nhỏ nhất, lớn nhất hoặc các tứ phân vị của dãy số.
Cú pháp: QUARTILE.INC(array,quart), trong đó:
– array là vùng dữ liệu tương ứng với dãy số
– quart bằng 0. 1, 2, 3. 4 tương ứng với giá trị là MIN {giá trị nhỏ nhất), ,
,
, MAX (giá trị lớn nhất).
Các giá trị tứ phân vị ,
,
là những giá trị chia dãy số (đã sắp xếp tăng dần) thành bốn khoảng có số các giá trị của bốn khoảng bằng nhau, tức là có í nhất 25%
số giá trị không lớn hơn , có ít nhất 50% số giá trị không lớn hơn
và có ít nhất 75% số giá trị không lớn hơn
.
Hình 11.3. Mô tả trực quan tứ phân vị
Giá trị nhỏ nhất
Giá trị lớn nhất
Hình 11.3 cung cấp hình ảnh trực quan về phân phối các giá trị tứ phân vị. Phân bố vị trí của các giá trị ,
,
có thế hỗ trợ việc so sánh dạng phân phối các dãy số liệu cùng loại hoặc mức độ tập trung hay phân tán của các khoảng số liệu khác nhau của dãy số.
c) Các đặc trưng đo độ phân tán
Các đặc trưng đo độ phân tán thường được sử dụng bao gồm: phương sai, độ lệch chuẩn, hệ số biến thiên và khoảng biến thiên. Các đặc trưng đo độ phân tán giúp mô tả sự biến động và phân tán của dãy số, cung cấp cái nhìn toàn diện về đặc tính phân phối và biến động của tập hợp dữ liệu. Việc kết hợp các đặc trưng này thường được sử dụng để đánh giá và so sánh sự biến động giữa các dãy số khác nhau. Excel cung cấp các hàm giúp dễ dàng tính các đặc trưng này.
• Hàm VAR được sử dụng để tính phương sai của dãy số.
Cú pháp: VAR(number1,[number2],...), trong đó:
number1, [number2],... là số hoặc vùng ô chứa số.
• Hàm STDEV được sử dụng giá trị độ lệch chuẩn của dãy số.
Cú pháp: STDEV(number1,[number2],...), trong đó:
number1, [number2],... là sắ hoặc vùng ô chứa số.
Trong thực tế, do có cùng đơn vị với số liệu nên độ lệch chuẩn thường được dùng nhiều hơn phương sai.
• Hệ số biến thiên: Được xác định bằng cách tính tỉ lệ (%) của độ lệch chuẩn (sử dụng hàm STDEV] và trung bình cộng (sử dụng hàm AVERAGE).
• Khoảng biến thiên: Được xác định bằng hiệu của giá trị lớn nhất (sử dụng hàm MAX) và giá trị nhỏ nhất (sử dụng hàm MIN) của dãy số.
Trang 65
Excel có hàm tính các số đặc trưng đo xu thế trung tâm như AVERAGE, MEDIAN, MODE, QUARTILE.INC; các hàm tính các số đo độ phân tán của dữ liệu thống kê như VAR, STDEV, VAR và STDEV đo độ phân tán xung quanh giá trị trung bình. |
Câu hỏi
1. Cho dãy số: 1, 3, 6, 4, 6, 7, 3, 4, 4, 5, 8, 16, 4, 2, 8. Em dùng đặc trưng nào sau đây để mô tả trung tâm của dãy số này?
A. Trung bình
B. Trung vị
C. Mốt
D. Khoảng biến thiên
2. Cho dãy số về chiều cao (cm) của nam 18 tuổi: 168, 173,176, 175. 162, 180, 170, 173, 166. Em dùng hàm nào sau đây để tính độ phân tán của dãy số này?
A. AVERAGE
B.QUARTILE
C.STDEV
D.MEDIAN
3. Cho kết quả khảo sát về màu áo ấm mùa đông ưa thích của nữ sinh (với mã các màu là 1: Đen, 2: Hồng, 3: Tím, 4: Màu khác) như sau: 1, 1, 2, 3, 4, 3, 3, 1, 4, 4, 2, 2, 3, 1, 1, 1.
Em dùng hàm nào sau đây để tìm mẫu áo ấm mùa đông nhiều nữ sinh ưa thích nhất?
A. AVERAGE
B. MEDIAN
C. MODE
D. VAR
2. THỰC HÀNH MÔ TẢ VÀ PHÂN TÍCH DỮ LIỆU
Nhiệm vụ 1: Mô tả và phân tích dữ liệu dựa trên các đặc trưng trung tâm và phân tán
Yêu cầu chung: Sử dụng các đặc trưng đo xu thế trung tâm và phân tán để mô tả và phân tích kết quả thi tuyển sinh được nêu trong dữ liệu ở Hình 11.1.
Nhiệm vụ 1.1: Lựa chọn đại diện đặc trưng đo xu thế trung tâm của dãy số liệu
Yêu cầu: Với số liệu ở Hình 11.1, hãy chọn đại diện đặc trưng đo xu thế trung tâm của điểm thi các môn Toán, Vật lí, Hoá học?
Hướng dẫn:
Bước 1. Mở trang tính với dữ liệu Hình 11.1 (vùng dữ liệu A1:H25). Nhập các tiêu đề Các số đặc trưng trung tâm, Trung bình, Trung vị, Mốt vào các ô B27:B30; nhập các tiêu đề Toán, Vật lí, Hoá Học vào các ô C27:E27 (Hình 11.4).
Bước 2. Tính các số đặc trưng tương ứng bằng các hàm trang Excel
– Nhập =AVERAGE(E2:E25) vào ô C28 để tính giá trị trung bình.
– Nhập lần lượt các công thức =MEDIAN(E2:E25); =MODE(E2:E25) vào các ô C29, C30.
Sao chép các ô C28:C30 vào các ô D28:E30 và E28:E30. Kết quả nhận được như Hình 11.4.
Hình 11.4. Kết quả tính các đặc trưng trung tâm
=AVERAGE(E1:E25]
= MEDIAN(E1:E25)
=MODE(E1:E25)
Nhận xét: Điểm Toán có các giá trị trung bình, trung vị, mốt xấp xỉ nhau, có thể xem trung bình là đại diện đo xu thế trung tâm. Điểm Vật lí có mốt và trung vị tương ứng là 9.00 và 8.50, có 5/24 sinh viên đạt điểm 9 môn này trong khi điểm trung bình
Trang 66
là 8.35, tính đại diện của trung bình thấp nên có thể chọn trung vị hoặc mốt là đại diện đặc trưng trung tâm. Môn Hóa học có giá trị trung bình 6.95 và trung vị 7.13 khác nhau không đáng kể, tuy nhiên có 10/24 sinh viên điểm thấp hơn trung bình và có 12/24 sinh viên có điểm thấp hơn trung vị. Do vậy, với môn Hoá học, chọn trung vị làm đại diện đặc trưng đo xu thế trung tâm cho điểm môn này sẽ hợp lí hơn.
Nhiệm vụ 1.2: Phân tích kết hợp trung bình và độ phân tán
Yêu cầu: Hãy tính giá trị trung bình và độ phân tán của điểm các môn thi trong Hình 11.1 và nêu một vài nhận xét từ kết quả thu được.
Hướng dẫn:
Bước 1. Mở trang tính với dữ liệu Hình 11.1 (vùng dữ liệu A1:H25). Tạo nhãn cho các môn Toán, Vật lí, Hoá học và Tổng điểm vào các ô M1:P1 và các đặc trưng Trung bình, Phương sai, Độ lệch chuẩn, Khoảng biến thiên, Hệ số biến thiên vào các ô L2: L6 (Hình11.5).
Bước 2. Tính các đặc trưng.
– Nhập công thức =AVERAGE(E2:E25) vào ô M2;
– Nhập công thức =VAR(E2:E25) vào ô M3;
– Nhập công thức =STDEV(E2:E25) vào ô M4;
– Nhập công thức =MAX(E2:E25)- MIN(E2:E25) vào ô M5;
–Nhập công thức =M4/M2*100 vào ô M6.
– Sao chép các ô M2:M6 vào các ô N2:P6.
Kết quả như Hình 11.5.
Hình 11.5. Giá trị đặc trưng trung bình và độ phân tán
Nhận xét: Kết quả tính toán cho thấy điểm trung bình Toán cao nhất trong 3 môn thi. Các môn khác điểm trung bình thấp hơn nhưng biến động nhiều hơn, nhất là điểm Hoá học. Cụ thể, nếu chỉ so sánh Khoảng biến thiên thì mức biến động điểm môn Vật lí gấp hai lần và môn Hoá học gấp bốn lần so với môn Toán. Tuy nhiên nếu so sánh kết hợp thêm Hệ số biến thiên thì có thể thấy mức độ phân tán của điểm môn Vật lí gấp 2.5 lần và môn Hoá học gấp 6 lần so với môn Toán. Các phân tích trên cho thấy, kết quả thi môn Toán cao và đồng đều (tập trung) hơn so với Vật lý và Hoá học, đồng thời, mức độ đóng góp của điểm Toán vào Tổng điểm nhiều nhất và ổn định nhất, điểm Hoá học đóng góp vào Tổng điểm thấp nhất và phân tán nhất.
Nếu chỉ xem xét các giá trị Trung bình, Phương sai. Độ lệch chuẩn, Khoảng biến thiên giữa điểm môn Hoá học và Tổng điểm, có thể thấy môn Hoá học đóng góp gần 1/3 số điểm vào Tổng điểm, các đặc trưng khác đều tương đương. Điều này có thể dẫn tới ngộ nhận về vai trò điểm môn Hoá học trong kết quả xét tuyển. Tuy nhiên, nếu xét thêm Hệ số biến thiên, rõ ràng môn Hóa học có mức độ biến động điểm lớn hơn
Trang 67
ba lần so với Tổng điểm, nghĩa là mức độ đóng góp của điểm môn Hoá học vào Tổng điểm xét tuyển không ổn định khi xem xét tổng thể danh sách trúng tuyển ở Hình 11.1.
Những nhận xét nếu trên cho thấy việc xem xét kết hợp các giá trị đặc trưng có thể cho cái nhìn đầy đủ hơn về lập số liệu thống kê. Đây cũng là điều mà các nhà phân tích thống kê trong thực tế thường làm.
Nhiệm vụ 2: Phân tích tứ phân vị
Yêu cầu chung: Sử dụng đặc trưng tứ phân vị để phân nhóm sinh viên và phân tích độ tập trung/phân tán của các khoảng số liệu liên quan tới kết quả thi tuyển sinh được nêu trong dữ liệu ở Hình 11.1.
Nhiệm vụ 2.1: Phân nhóm các sinh viên theo tổng điểm
Yêu cầu: Giả sử trong số trúng tuyển (Hình 11.1) sẽ có 50% sinh viên điểm cao nhất được giảm học phí năm thứ nhất, trong đó một nửa cao hơn được giảm 20% và nửa thấp hơn được giảm 10%. Hãy cho biết các sinh viên Đào Thị Mỹ Duyên, Phan Hà Anh và Tổng Nguyễn Phương An có được giảm học phí không và được giảm ở mức nào.
Hướng dẫn:
Bước 1. Phân tích bài toán: Những sinh viên có Tổng điểm từ trở lên thuộc nhóm 25% sinh viên có Tổng điểm cao nhất. Tương tự, những sinh viên có Tổng điểm từ
(trung vị của Tổng điểm) trở lên thuộc nhóm 50% sinh viên có Tổng điểm cao nhất. Cần so sánh Tổng điểm của mỗi học sinh với
và
để có câu trả lời.
Bước 2. Tính và
Nhập các tiêu đề Tứ phân vị, ,
vào các ô A30:A32; nhập các tiêu đề quart, Tổng điểm vào các ô B30:C30 và nhập các số 3, 2 vào các ô B31:B32 như Hình 11.6. Nhập công thức =QUARTILE.INC(H2:H25,B31) vào ô C31. Sao chép ô C31 vào ô C32. Kết quả như Hình 11.6.
Hình 11.6. Tìm tứ phân vị và
của Tổng điểm
Nhận xét. Theo kết quả tính được trong Hình 11.6, Đào Thị Mỹ Duyên không được giảm học phí, Phan Hà Anh được giảm 10% và Tống Nguyễn Phương An được giảm 20% học phí năm học thứ nhất.
Nhiệm vụ 2.2: Phân tích số liệu dựa trên tứ phân vị
Yêu cầu: Xác định tứ phân vị điểm thi các môn Vật lí và Hoá học của 24 sinh viên trong danh sách Hình 11.1. Trên cơ sở đó nêu một vài nhận xét về phân phối điểm của hai môn này.
Hướng dẫn:
Bước 1. Sử dụng hàm QUARTILE.INC tương tự như bước 2 trong Nhiệm vụ 2.1 tính các giá trị tứ phân vị của hai biến Vật lí và Hoá học trong dữ liệu Hình 11.1.
Hàm QUARTILE.INC cho các giá trị từ phân vị của điểm Vật lí và Hoá học như sau:
Tứ phân vị | Min | ![]() | ![]() | ![]() | Max |
Vật lí | 6.25 | 7.87 | 8.50 | 9 | 9.5 |
Hóa học | 3.25 | 5.81 | 7.13 | 8.13 | 9.75 |
Trang 68
Bước 2. Phân tích độ tập trung phân tán của điểm thi các môn Vật lí và Hoá học.
– Khoảng biến thiên của điểm Vật lí (3.25) chỉ bằng một nửa khoảng biến thiên của điểm Hoá học (6.5). Điều đó cho thấy, so với môn Vật lí điểm thi môn Hoá học phân tán hơn.
– Độ phân tán kết quả điểm thi của 25% số sinh viên trong dãy số liệu có điểm cao nhất hai môn Hoá học và Vật lí cũng rất khác nhau. Chênh lệch điểm thi môn Hoá học (Max – ) của các sinh viên này là 1.62 trong khi chênh lệch này của điểm Vật lí chỉ là 0.5. Nói cách khác, trong số 25% sinh viên có điểm thi cao nhất, tính đồng đều (mức độ tập trung) của điểm môn Hóa học cũng thấp hơn nhiều so với điểm Vật lí.
– Tương tự như vậy. khi xét số 50% sinh viên có kết quả thi ở khoảng giữa của hai môn thi, mức chênh lệch (-
) của điểm thi môn Hoá học là 2.32, của môn Vật lí là 1.13 cũng cho thấy kết quả điểm môn Vật lí đồng đều hơn so với môn Hoá học.
Các phân tích trên phản ảnh tình trạng không ổn định về kiến thức môn Hoá học của sinh viên so với môn Vật lí.
Trong thực tế. việc sử dụng tứ phân vị để so sánh độ phân tán của các dãy số liệu có thể cho nhiều thông tin bổ ích hơn so với phân tích dựa trên các số đo độ phân tán. Chính vì vậy, trong một số tài liệu, tứ phân vị được trình bày như là một đặc trưng đo độ phân tán của số liệu.
LUYỆN TẬP
1. Sử dụng số liệu Hình 11.1 trả lời các câu hỏi sau:
a) Điểm Hóa học thấp nhất của 25% sinh viên có điểm Hóa học cao nhất là bao nhiêu ?
b) Điểm môn nào có khoảng biến thiên lớn nhất?
2. Cho dữ liệu nhiệt độ cao nhất trong 30 ngày của tháng 4 năm 2023 tại thành phố A.
32.8 | 33.6 | 31.6 | 36.5 | 34.7 | 31.0 | 33.1 | 32.3 | 33.6 | 32.7 |
31.3 | 32.0 | 36.6 | 31.9 | 34.9 | 33.6 | 33.9 | 31.0 | 34.4 | 31.9 |
35.5 | 34.9 | 35.4 | 35.4 | 30.3 | 32.1 | 36.1 | 33.0 | 34.4 | 32.6 |
a) Hãy chọn một hàm trong Excel để tìm độ phân tán của dữ liệu này.
b) Hãy tìm nhiệt độ thấp nhất trong 75% số ngày nhiệt độ cao nhất.
VẬN DỤNG
1. Cho dãy số: 1, 4, 5, 14, 6, 5, 1, 4, 5, 4, 7, 2, 5, 3, 2. Em hãy tính giá trị trung bình và trung vị bằng các hàm trong Excel theo hai cách sau và nhận xét các kết quả:
a) Tính cho dãy số đã cho.
b) Tính cho dãy số sau khi thay số 14 bằng trung bình của dãy số đã cho.
2. Em có thể tính giá trị trung bình của hai vùng số liệu điểm Toàn của 7 sinh viên đầu tiên và 5 sinh viên cuối cùng trong dữ liệu Hình 11.1 hay không?
3. Điểm Hoá học của 75% sinh viên trong dữ liệu Hình 11.1 xếp theo chiều tăng dần không cao hơn bao nhiêu?