Kiểm chứng giả thuyết (Hypothesis testing) là công cụ quan trọng để các nhà khoa học dữ liệu có được các kết luận tin cậy về mặt thống kê. Trong bài này, hãy cùng thienmaonline.vn tìm hiểu kiểm chứng giả thuyết thông qua ví dụ đơn giản.

Bạn đang xem: Hypothesis testing là gì

Một con số thống kê chỉ là ngẫu nhiên hay có ý nghĩa nào đó?

Cơ sở của kiểm chứng giả thuyết

Cơ sở của kiểm chứng giả thuyết là (a) Giả thuyết không – Giả thuyết không (Null Hypothesis)là một loạigiả thuyếtđược sử dụng trong thống kêgiảđịnh rằngkhôngcó ý nghĩa thống kê nào tồn tại trong một tập hợp các quan sát nhất định

” target=”_blank”>Null Hypothesisvà (b)Giả thuyết nghịch – Giả thuyết nghịch(Alternative Hypothesis) là giả thuyết cho rằng các quan sát mẫu bị ảnh hưởng bởi một số yếu tố phi ngẫu nhiên.
” target=”_blank”>Alternative Hypothesis.

Giả thuyết không là một giả thuyết nhàm chán, nó giả định rằng không có gì thú vị xảy ra cả, tất cả đều chỉ là ngẫu nhiên.

Giả thuyết nghịch là giả thuyết ngược lại với giả thuyết không, nó cho rằng các quan sát / hiện tượng và các con số thống kê có thể cho chúng ta hiểu biết sâu sắc về một khía cạnh nào đó chứ không đơn thuần là một sự tình cờ.

Xem thêm: Dung Môi Tiếng Anh Là Gì, Dung Môi Pha Sơn Tiếng Anh Là Gì

Cách tiến hành kiểm chứng giả thuyết

Các nhà thống kê sẽ bắt đầu với một góc nhìn bi quan trước và bắt đầu với Giả thuyết không. Họ sẽ tính một con số thống kê kiểm định (test statistic) với công thức như sau:

Ở công thức này, ước lượng tốt nhất được tính từ trung bình mẫu hoặc một tổ hợp từ mẫu.Độ lệch chuẩn biểu thị mức độ biến động của ước lượng này và bị ảnh hưởng bởi phương sai và kích thước mẫu.

Sau đó, họ hỏi một câu hỏi đơn giản

“Xác suất để có thể quan sát được con số này là bao nhiêu, liệu con số này có tuyệt đối ngẫu nhiên hay không (nói cách khác là giả thuyết không có đúng hay không)?”

Xác suất để có thể quan sát được con số này được gọi là p-value. Xác suất này được tính trên giả định của một phân phối xác suất nào đó (thường là phân phối chuẩn).

*

Ví dụ kiểm chứng giả thuyết với Python

Câu hỏi nghiên cứu: Trong những năm trước, 52% phụ huynh tin rằng thiết bị công nghệ và mạng xã hội khiến cho con mình ở độ tuổi thanh thiếu niên bị thiếu ngủ.Liệu tỷ lệ các phụ huynh ngày nay có niềm tin tương tự có nhiều hơn hay không?

Tổng thể: Phụ huynh có con từ 13–18 tuổiKhía cạnh quan tâm: p (tỷ lệ)

Giả thuyết không:p = 0.52Giả thuyết nghịch:p > 0.52 (kiểm chứng một phía)

Dữ liệu: 1018 người tham gia trả lời bảng hỏi. 56% những người tham gia tin rằng con mình ở độ tuổi thanh thiếu niên thiếu ngủ vì mạng xã hội và thiết bị công nghệ.

Tiền hành: Với Python, chúng ta có nhiều thư viện hỗ trợ kiểm chứng giả thuyết. Với bài toán như trên, ta sẽ sử dụng hàm proportions_ztest()từ gói statsmodels. Ta chỉ địnhalternative=”larger”vì đây là kiểm chứng một phía. Hàm sẽ trả về giá trị thống kê kiểm định và p-value.

Xem thêm: Tất Tần Tật Về Hình Thức Quảng Cáo Roadshow Là Gì

Hi vọng thông qua bài viết này, các bạn đã có hình dung ban đầu về kiểm chứng giả thuyết. Nếu bạn thích bài viết này, đừng ngại chia sẻ với những người quan tâm. Hãy thường xuyên truy cập website để có những kiến thức cập nhật về lĩnh vực.

Chuyên mục: Hỏi Đáp