[Tất tần tật] Kiểm tra phân phối chuẩn – 2 Cách

Kiểm tra phân phối chuẩn (Normality Tests), đây là một công việc rất quan trọng, mà nhiều lúc khi làm nghiêm cứu khoa học chúng ta quá chú tâm vào mô hình nghiên cứu và là kết quả định lượng, mà chúng ta quên mất nó; Phân phối chuẩn là một điều kiện rất lớn cho rất nhiều mô hình định lượng. Vì vậy trong hướng dẫn này chúng tôi sẽ nói tất tần tật về kiểm tra phân phối chuẩn.

PHÂN PHỒI CHUẨN

Phân phối chuẩn là gì ?

Trong thống kê , kiểm tra tính chuẩn được sử dụng để xác định xem tập dữ liệu có được mô hình hóa tốt theo phân phối chuẩn hay không và để tính toán khả năng biến ngẫu nhiên nằm trong tập dữ liệu được phân phối chuẩn.

Chính xác hơn, các bài kiểm tra là một hình thức lựa chọn mô hình và có thể được hiểu theo một số cách, tùy thuộc vào cách giải thích của một người về xác suất :

  • Theo thuật ngữ thống kê mô tả , người ta đo lường mức độ phù hợp của một mô hình bình thường với dữ liệu – nếu sự phù hợp kém thì dữ liệu không được mô hình hóa tốt về mặt đó theo phân phối chuẩn mà không đưa ra phán đoán về bất kỳ biến cơ bản nào.
  • Trong thử nghiệm giả thuyết thống kê theo thống kê thường xuyên , dữ liệu được kiểm tra dựa trên giả thuyết rỗng rằng nó được phân phối bình thường.

Trong thống kê Bayes , người ta không “kiểm tra tính chuẩn tắc”, mà là tính toán khả năng dữ liệu đến từ một phân phối chuẩn với các tham số μ , σ đã cho (với mọi μ , σ ) và so sánh với khả năng dữ liệu đến từ các phân phối khác đang được xem xét, đơn giản nhất là sử dụng hệ số Bayes (cho khả năng tương đối nhìn thấy dữ liệu được đưa ra các mô hình khác nhau), hoặc rõ ràng hơn là lấy phân phối trước trên các mô hình và thông số có thể có và tính toán phân phối sau dựa trên khả năng được tính toán.

Kiểm tra dữ liệu có phân phối chuẩn

Để kiểm tra dữ liệu có phân phối chuẩn hay không chúng ta dựa vào đồ thị và kiểm định.

Đồ thị histogram

Histogram trên Stata
Xem phân phối chuẩn qua biểu đồ Histogram

Dữ liệu có phân phối chuẩn là nó có hình chuông,  Nhìn nó như thế này cũng chẳng biết nó chuẩn hay không nữa.

Lấy thông tin thống kê mô tả nó

Stata: histogram ChieuCao, bin(15) normal   

                Percentiles            Smallest

1%          10.62824               10.62824

5%          12.16344               11.98693

10%        12.60853               12.04929               Obs         60

25%        14.52536               12.27759               Sum of Wgt.          60

50%        16.30694                               Mean      15.9741

                                Largest  Std. Dev.               2.398756

75%        17.94622               19.07195

90%        18.94249               19.55122               Variance 5.75403

95%        19.31159               19.6922                 Skewness             -.0742836

99%        21.58972               21.58972               Kurtosis                  2.277478

Chỉ số độ nhọn Kurtosis 2.3 < 3 = > Không có độ nhọn = > Không phải phải phân phối chuẩn

Chỉ số  độ lệch Skewness – 0.74  => Không gần 0 & có dấu âm = > Dữ liệu không cân bằng và bị lệch bên trái => Không phải là phân phối chuẩn

Nhận xét, Tìm dữ liệu phân phối chuẩn thì nó tốn nhiều thời gian và công sức, thực tế người ta dùng kiểm định cho nhanh và hiệu quả.

Vẽ đồ thị Qnorm

So dữ liệu với phân phối chuẩn

Kiểm tra phân phối chuẩn với qnorm
So sánh dữ liệu với phân phối chuẩn

Nhìn dữ liệu thì thấy nó vẫn đi theo đường thẳng = > Dữ liệu có phân phối chuẩn

Vẽ đồ thị Pnorm

Biểu đồ phân phối xác suất chuẩn hoá

Biểu đồ phân phân phối xác xuất chuẩn hoá
Biểu đồ phân phối xác suất chuẩn hoá

Kiểm định phân phối chuẩn.

Cái phân phối chuẩn này thì phần mềm nào cũng có thể kiểm tra được, trong hướng dẫn này chúng tôi sử dụng phần mềm Stata cho cơ động hiệu suất.

Skewness/ Kurtosis test

Stata code: sktest ChieuCao

Skewness/Kurtosis tests for Normality
—— joint ——
Variable | Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
————-+—————————————————————
ChieuCao | 60     0.7964            0.1585 2.15                 0.3419

  • H0: Dữ liệu có phân phối chuẩn
  • H1: Dữ liệu không có phân phối chuẩn

Ta có Pvalue > 0.05 = > Dữ liệu có phân phối chuẩn

Jarque–Bera test

Stata code: jb ChieuCao
Jarque-Bera normality test: 1.36 Chi(2) .5065
Jarque-Bera test for Ho: normality:

  • H0: Dữ liệu có phân phối chuẩn
  • H1: Dữ liệu không có phân phối chuẩn

Shapiro–Wilk test

Stata code: swilk ChieuCao

Shapiro Wilk W test for normal data

Variable Obs W V z                            Prob>z

ChieuCao 60 0.97992 1.092 0.189    0.42501

  • H0: Dữ liệu có phân phối chuẩn
  • H1: Dữ liệu không có phân phối chuẩn

Ta có,  Pvalue > 0.05 = > Dữ liệu có phân phối chuẩn

Kết luận

Trong kiểm định phân phối chuẩn thì cũng còn nhiều kiểm định nữa, nhưng nó không thông dụng bằng những kiểm định trên đặc biệt là  Shapiro–Wilk test  được sử dụng rất thông dụng.

Bài viết mới

Có thể bạn thích bài viết này:

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *