Phương sai sai số thay đổi: kiểm định & giải quyết

Phương sai sai số thay đổi là một trong 7 giả định cổ điển về hồi quy tuyến đa biến, để đảm bảo cho kết quả hồi quy đúng giả thuyết, đây là sai phạm thứ 5 trong 7 sai phạm trên; Để kiểm tra và giải quyết vấn đề trên chúng tôi sẽ sử dụng phần mềm thống kê R để thực hiện.

PHƯƠNG SAI SAI SỐ THAY ĐỔI

Heteroskedasticity Tests

Định nghĩa

Trong thống kê, một chuỗi các biến ngẫu nhiên là phương sai thay đổi, nếu các biến ngẫu nhiên có phương sai khác nhau. Thuật ngữ này có nghĩa là “phương sai khác nhau” và xuất phát từ tiếng Hy Lạp “hetero” (“khác nhau”) và “skedasis” (“phân tán”). Ngược lại, một chuỗi các biến ngẫu nhiên được gọi là đồng biến nếu nó có phương sai không đổi.

Phương sai thay đổi không làm cho các ước lượng hệ số bình phương nhỏ nhất thông thường bị chệch, mặc dù nó có thể gây ra các ước lượng bình phương nhỏ nhất thông thường của phương sai (và do đó, sai số chuẩn) của các hệ số bị chệch, có thể cao hơn hoặc thấp hơn phương sai thực hoặc tổng thể.

Do đó, phân tích hồi quy sử dụng dữ liệu phương sai thay đổi sẽ vẫn cung cấp một ước tính không chệch cho mối quan hệ giữa biến dự báo và kết quả, nhưng sai số tiêu chuẩn và do đó các suy luận thu được từ phân tích dữ liệu là nghi ngờ. Sai số tiêu chuẩn sai lệch dẫn đến suy luận sai lệch, do đó kết quả của các bài kiểm tra giả thuyết có thể sai. Một ví dụ về hệ quả của ước lượng sai số chuẩn thiên vị mà OLS sẽ tạo ra nếu có phương sai thay đổi, là nhà nghiên cứu có thể tìm thấy ở một mức độ tin cậy đã chọn,

Mọi người đều biết rằng, theo một số giả định nhất định, công cụ ước lượng OLS có phân phối tiệm cận chuẩn khi được chuẩn hóa và căn giữa đúng cách (ngay cả khi dữ liệu không đến từ phân phối chuẩn). Kết quả này được sử dụng để biện minh bằng cách sử dụng phân phối chuẩn hoặc phân phối chi bình phương (tùy thuộc vào cách tính toán thống kê thử nghiệm) khi tiến hành kiểm định giả thuyết.

Điều này thậm chí còn theo phương sai thay đổi. Chính xác hơn, công cụ ước lượng OLS với sự có mặt của phương sai thay đổi là chuẩn tiệm cận, khi được chuẩn hóa và căn giữa một cách thích hợp, với một ma trận phương sai-hiệp phương sai khác với trường hợp đồng phương sai.

Nguyên nhân phương sai thay đổi

Có ba cách điều chỉnh phổ biến cho phương sai thay đổi: Xem dữ liệu đã ghi. Chuỗi chưa đăng ký đang phát triển theo cấp số nhân thường có vẻ như có sự thay đổi ngày càng tăng khi chuỗi tăng lên theo thời gian. Tuy nhiên, sự thay đổi về tỷ lệ phần trăm có thể khá ổn định.

  1. Sử dụng một đặc tả khác cho mô hình (các biến X khác nhau hoặc có thể là các phép biến đổi phi tuyến tính của các biến X).
  2. Áp dụng phương pháp ước lượng bình phương nhỏ nhất có trọng số, trong đó OLS được áp dụng cho các giá trị được biến đổi hoặc có trọng số của X và Y. Trọng số khác nhau qua các lần quan sát, tùy thuộc vào phương sai sai số thay đổi.
  3. Sai số tiêu chuẩn nhất quán không co giãn (HCSE), trong khi vẫn chệch, được cải thiện dựa trên các ước tính của OLS (White 1980). HCSE là công cụ ước lượng nhất quán về sai số chuẩn trong mô hình hồi quy với phương sai thay đổi. Phương pháp White sửa đổi phương sai thay đổi mà không làm thay đổi giá trị của các hệ số.
  4. Phương pháp này có thể vượt trội hơn so với OLS thông thường bởi vì nếu có phương pháp thay đổi phương sai thì nó sẽ sửa lại cho nó, tuy nhiên, nếu dữ liệu là phương pháp tương đồng, thì sai số tiêu chuẩn tương đương với sai số tiêu chuẩn thông thường được ước tính bằng ols. Một số sửa đổi của phương pháp White tính toán sai số tiêu chuẩn nhất quán phương sai thay đổi đã được đề xuất như những hiệu chỉnh với các thuộc tính mẫu hữu hạn ưu việt.

Ví dụ về hệ quả

Phương sai thay đổi thường xảy ra khi có sự khác biệt lớn giữa các kích thước của các quan sát. Một ví dụ cổ điển về phương sai thay đổi là thu nhập so với chi tiêu cho các bữa ăn. Khi thu nhập của một người tăng lên, sự thay đổi của tiêu thụ thực phẩm sẽ tăng lên. Một người nghèo hơn sẽ chi tiêu liên tục bằng cách luôn ăn thức ăn ít đắt tiền hơn; một người giàu hơn đôi khi có thể mua thức ăn rẻ tiền và những lúc khác lại ăn những bữa ăn đắt tiền. Những người có thu nhập cao hơn cho thấy mức tiêu thụ thực phẩm thay đổi nhiều hơn.

Hãy tưởng tượng bạn đang quan sát một tên lửa cất cánh gần đó và đo quãng đường nó đã đi mỗi giây một lần. Chẳng hạn, trong vài giây đầu tiên, các phép đo của bạn có thể chính xác đến từng centimet. Tuy nhiên, 5 phút sau khi tên lửa lùi vào không gian, độ chính xác của các phép đo của bạn có thể chỉ ở mức 100 m do khoảng cách tăng lên, biến dạng khí quyển và một loạt các yếu tố khác. Dữ liệu bạn thu thập sẽ thể hiện phương sai thay đổi.

Kiểm tra sai phạm trên R

Breusch–Pagan Test

  • Hàm bptest từ gói lmtest ,

bptest(hoiquy)

studentized Breusch-Pagan test

data: hoiquy
BP = 96.603, df = 6, p-value < 2.2e-16

H0: mô hình có phương sai cố định

H1: mô hình có phương sai thay đổi

Ta có, Pvalue < 0.05, ta bác bỏ H0 và chấp nhận H1; Tức là mô hình có phương sai thay đổi.

  • Hàm ncvTest từ gói car ,

 ncvTest(hoiquy)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 129.5312, Df = 1, p = < 2.22e-16

  • Hàm plmtest từ gói plm , hoặc

  • Hàm breusch_pagan từ gói skedastic .

 breusch_pagan(hoiquy)
# A tibble: 1 × 5
statistic    p.value           parameter      method         alternative

1 96.6   1.28e-18 6        Koenker         (studentised)   greater

White Test

> white_lm(hoiquy)
# A tibble: 1 × 5
statistic      p.value     parameter      method        alternative

1 108.       1.59e-17      12           White's Test      greater

Khắc phục sai phạm

Có nhiều cách để khắc phục sai phạm phương sai sai số thay đổi, thì phương pháp ước lượng vững ma trận hiệp phương sai (robust standard errors) là được sử dụng nhiều nhất vì tính đơn giả và hiệu quả của nó;

> library(sandwich)
> coeftest(hoiquy, vcov = vcovHC(hoiquy, "HC1"))

t test of coefficients:

                 Estimate                 Std. Error               t value                   Pr(>|t|)
(Intercept) 6.8496724 2.15763443.1746                                        0.001679 **
AGE -0.1125697 0.0241871 -4.6541                                               5.163e-06 ***
CS -0.7029181 0.0956041 -7.3524                                                  2.469e-12 ***
TDT -0.0503614 0.0276302 -1.8227                                                 0.069485 .
SIZE -0.1020819 0.0629073 -1.6227                                              0.105844
EBTDT -0.0108831 0.0017972 -6.0554                                              4.815e-09 ***
LIQ 1.1194701 0.2164737 5.1714 4.608e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Kết luận

Tuy là sai phạm phương sai sai số thay đổi hay gặp phải trong nghiên cứu định lượng, nhưng với phần mềm R thì chúng ta xử lý nó một cách đơn giả và hiệu quả. Nếu các bạn gặp khó khăn trong việc khắc phục sai phạm thì các bạn đừng ngần ngại hãy liên hệ với chúng tôi để được tư vấn và hỗ trợ nhanh chóng.

Bài viết mới

Có thể bạn thích bài viết này:

Trả lời

Email của bạn sẽ không được hiển thị công khai.