3 Vi phạm tương quan biến trong hồi quy tuyến tính

Vi phạm tương quan biến trong hồi quy tuyến tính, trong bài viết 7 giả định cơ bản về hồi quy tuyến tính chúng tôi cũng đã nêu ra, khi các bạn bị vi phạm giả định thì cần phải có hướng giải quyết; Hoặc nâng cao hơn là bạn có thể tìm hiểu về 10 khuyết tật của hồi quy, trong phạm vi này chúng tôi dùng ma trận tương quan để giải quyết 3 vi phạm hồi quy.

3 VI PHẠM TƯƠNG QUAN BIẾN

Phần sai số có trung bình tổng thể là 0

Đây là một giả thuyết ” không tưởng” trong thực tế lúc nào cũng có phần sai số của hồi quy, họ nêu ra giả thuyết này với điều kiện lý tưởng thôi; Trong thống kê không có ai để kiểm định giả thuyết này cả. Đây là giả định đầu tiên trong hồi quy tuyến tính.

Với điều kiện lý tưởng và thực tế khác nhau, tức là trong thực tế luôn luôn có phần sai số hay nói cách khác là luôn luôn không thể nào có tổng sai số là 0 được. Nên bạn không cần quan tâm đến kiểm định này.

Các biến độc lập không tương quan đến phần sai số

Để tính ma trận tương quan, các bạn có thể sử dụng bất cứ phần mềm thống kê nào đều có chức năng này, nhưng trong ví dụ này chúng tôi sử dụng phần mềm Stata để ước lượng phần sai số (SAISO) và ma trận tương quan bằng lệnh CORR.

Giả định này là giả định thứ 3 trong 7 giả định của hồi quy tuyến tính, chúng ta chạy ma trận tương quan biến để xem xét mối tương quan giữa các biến độc lập với phần sai số của hồi quy bội, ta được kết quả như sau:

tương quan biến trong Stata
Ma trận tương quan

Trong kết quả ma trận tương quan biến ở trên, chúng ta chỉ cần qua sát đến dòng cuối cùng là sự tương quan của sai số với các biến độc lập trong mô hình, chúng ta thấy rõ ràng mức độ tương quan với các biến độc lập điều bằng 0; Chứng tỏ mô hình nghiên cứu của chúng ta là đúng giả định của hồi quy, có nghĩa là phần sai không có bất cứ tương quan gì đến các biến độc lập.

Trong thực tế thì chúng tôi cũng thấy có ít người sử dụng kiểm định giả định này.

Các biến độc lập không tương quan tuyến tính hoàn hảo với nhau

Đây là một kiểm tra quan trọng mà phần lớn các nghiên cứu nào cũng có chạy ma trận tương quan, để xem mức độ tương quan giữa các biến độc lập với nhau, với kiểm định giả định này là giả định thứ 6 trong 7 giả định của hồi quy.

Tức kiểm định này xem các biến có tương quan hoàn hảo với nhau hay không ? tức là hệ số tương quan gần về +- 1; Trên thực tế khi hệ số tương quan > 0.8 thương là có xuất hiện hiện tượng Đa cộng tuyến rồi, nên ma trận tương quan này mục đích là để xem mức độ tương quan của các biến với nhau thôi, không bao giờ có tương quan hào hảo cả.

Còn về phần đa cộng tuyến chúng tôi sẽ có bài viết khác viết về đa cộng tuyến: cách kiểm tra và khắc phục sai phạm này.

Khắc phục vi phạm tương quan biến

Giả sử rằng, nếu trong mô hình nghiên cứu chúng ta có hiện tượng tương quan biến hoàn hảo thì chúng ta phải làm gì ? ( Chúng ta áp dụng cho hệ số tương quan r > 0.8 luôn, vì lúc này có thể  có hiện tượng Đa cộng tuyến rồi).

  1. Nếu là biến điều khiển: thì chúng ta loại bỏ biến đó ra khỏi mô hình
  2. Nếu là biến độc lập: thì chúng ta sử dụng hồi quy Ridge để khắc phục đa cộng tuyến

Còn những phương pháp ” tạm bợ” mang tính chất may rủi như: thêm dự liệu cho nhiều hơn, nếu dữ liệu theo năm bị vi phạm thì chúng ta lấy dữ liệu theo quý và ngược lại, xây dựng chỉ tiêu khác là tương đồng … Theo kinh nghiệm những giải pháp này đưa ra mang tính chất ” đối phó” không hiệu quả.

Bài viết mới

Có thể bạn thích bài viết này:

Trả lời

Email của bạn sẽ không được hiển thị công khai.