Kiểm tra phân phối chuẩn (Normality Tests), đây là một công việc rất quan trọng, mà nhiều lúc khi làm nghiêm cứu khoa học chúng ta quá chú tâm vào mô hình nghiên cứu và là kết quả định lượng, mà chúng ta quên mất nó; Phân phối chuẩn là một điều kiện rất lớn cho rất nhiều mô hình định lượng. Vì vậy trong hướng dẫn này chúng tôi sẽ nói tất tần tật về kiểm tra phân phối chuẩn.
PHÂN PHỒI CHUẨN
Phân phối chuẩn là gì ?
Trong thống kê , kiểm tra tính chuẩn được sử dụng để xác định xem tập dữ liệu có được mô hình hóa tốt theo phân phối chuẩn hay không và để tính toán khả năng biến ngẫu nhiên nằm trong tập dữ liệu được phân phối chuẩn.
Chính xác hơn, các bài kiểm tra là một hình thức lựa chọn mô hình và có thể được hiểu theo một số cách, tùy thuộc vào cách giải thích của một người về xác suất :
- Theo thuật ngữ thống kê mô tả , người ta đo lường mức độ phù hợp của một mô hình bình thường với dữ liệu – nếu sự phù hợp kém thì dữ liệu không được mô hình hóa tốt về mặt đó theo phân phối chuẩn mà không đưa ra phán đoán về bất kỳ biến cơ bản nào.
- Trong thử nghiệm giả thuyết thống kê theo thống kê thường xuyên , dữ liệu được kiểm tra dựa trên giả thuyết rỗng rằng nó được phân phối bình thường.
Trong thống kê Bayes , người ta không “kiểm tra tính chuẩn tắc”, mà là tính toán khả năng dữ liệu đến từ một phân phối chuẩn với các tham số μ , σ đã cho (với mọi μ , σ ) và so sánh với khả năng dữ liệu đến từ các phân phối khác đang được xem xét, đơn giản nhất là sử dụng hệ số Bayes (cho khả năng tương đối nhìn thấy dữ liệu được đưa ra các mô hình khác nhau), hoặc rõ ràng hơn là lấy phân phối trước trên các mô hình và thông số có thể có và tính toán phân phối sau dựa trên khả năng được tính toán.
Kiểm tra dữ liệu có phân phối chuẩn
Để kiểm tra dữ liệu có phân phối chuẩn hay không chúng ta dựa vào đồ thị và kiểm định.
Đồ thị histogram

Dữ liệu có phân phối chuẩn là nó có hình chuông, Nhìn nó như thế này cũng chẳng biết nó chuẩn hay không nữa.
Lấy thông tin thống kê mô tả nó
Stata: histogram ChieuCao, bin(15) normal
Percentiles Smallest
1% 10.62824 10.62824
5% 12.16344 11.98693
10% 12.60853 12.04929 Obs 60
25% 14.52536 12.27759 Sum of Wgt. 60
50% 16.30694 Mean 15.9741
Largest Std. Dev. 2.398756
75% 17.94622 19.07195
90% 18.94249 19.55122 Variance 5.75403
95% 19.31159 19.6922 Skewness -.0742836
99% 21.58972 21.58972 Kurtosis 2.277478
Chỉ số độ nhọn Kurtosis 2.3 < 3 = > Không có độ nhọn = > Không phải phải phân phối chuẩn
Chỉ số độ lệch Skewness – 0.74 => Không gần 0 & có dấu âm = > Dữ liệu không cân bằng và bị lệch bên trái => Không phải là phân phối chuẩn
Nhận xét, Tìm dữ liệu phân phối chuẩn thì nó tốn nhiều thời gian và công sức, thực tế người ta dùng kiểm định cho nhanh và hiệu quả.
Vẽ đồ thị Qnorm
So dữ liệu với phân phối chuẩn

Nhìn dữ liệu thì thấy nó vẫn đi theo đường thẳng = > Dữ liệu có phân phối chuẩn
Vẽ đồ thị Pnorm
Biểu đồ phân phối xác suất chuẩn hoá

Kiểm định phân phối chuẩn.
Cái phân phối chuẩn này thì phần mềm nào cũng có thể kiểm tra được, trong hướng dẫn này chúng tôi sử dụng phần mềm Stata cho cơ động hiệu suất.
Skewness/ Kurtosis test
Stata code: sktest ChieuCao
Skewness/Kurtosis tests for Normality
—— joint ——
Variable | Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
————-+—————————————————————
ChieuCao | 60 0.7964 0.1585 2.15 0.3419
- H0: Dữ liệu có phân phối chuẩn
- H1: Dữ liệu không có phân phối chuẩn
Ta có Pvalue > 0.05 = > Dữ liệu có phân phối chuẩn
Jarque–Bera test
Stata code: jb ChieuCao
Jarque-Bera normality test: 1.36 Chi(2) .5065
Jarque-Bera test for Ho: normality:
- H0: Dữ liệu có phân phối chuẩn
- H1: Dữ liệu không có phân phối chuẩn
Shapiro–Wilk test
Stata code: swilk ChieuCao
Shapiro Wilk W test for normal data
Variable Obs W V z Prob>z
ChieuCao 60 0.97992 1.092 0.189 0.42501
- H0: Dữ liệu có phân phối chuẩn
- H1: Dữ liệu không có phân phối chuẩn
Ta có, Pvalue > 0.05 = > Dữ liệu có phân phối chuẩn
Kết luận
Trong kiểm định phân phối chuẩn thì cũng còn nhiều kiểm định nữa, nhưng nó không thông dụng bằng những kiểm định trên đặc biệt là Shapiro–Wilk test được sử dụng rất thông dụng.
Có thể bạn thích bài viết này:
Micom test trong phân tích đa nhóm Multigroup Analysis (MGA)
Micom test trong phân tích đa nhóm của SmartPLS (Partial Least Squares Structural Equation Modeling), [...]
Th9
2 Lý do chọn đề tài: tính cấp thiết & ý nghĩa khoa học
Lý do chọn đề tài: tính cấp thiết & ý nghĩa khoa học, Viết phần [...]
Th9
Số liệu biến rời rạc Có thể bạn chưa biết
Biến rời rạc là loại biến số trong thống kê chỉ có thể nhận một [...]
Th9
Báo giá Phiếu khảo sát doanh nghiệp: online + trực tiếp
Báo giá, phiếu khảo sát doanh nghiệp. Khảo sát doanh nghiệp, còn gọi là “business [...]
Th9
Mô hình phân tích tài chính Fama & French 5 yếu tố
Mô hình phân tích tài chính Fama & French 5 yếu tố, sau khi mô [...]
Th9
gấp: Làm đẹp số liệu thứ cấp – Xử lý dữ liệu sơ cấp lấy liền
Chúng tôi https://chaydinhluong.com giới thiệu đến quý khách hàng dịch vụ làm đẹp số liệu [...]
Th9
[Đào tạo] khoá học xử lý số liệu & phân tích định lượng Stata SmartPLS SPSS R-Studio
Khoá học xử lý số liệu & phân tích định lượng Stata SmartPLS SPSS R-Studio [...]
Th5
Chỉnh sửa định dạng văn bản in ấn tài liệu lưu hành nội bộ Thủ Đức TpHCM
Chỉnh sửa định dạng văn bản in ấn tài liệu lưu hành nội bộ Thủ [...]
Th4