Đa cộng tuyến: phát hiện và khắc phục dễ dàng

Đa cộng tuyến phát hiện và khắc phục dễ dàng với hồi quy Ridge, đây là sai phạm cơ bản và nhiều nhất đối với những nghiên cứu về lĩnh vực kinh tế; khi gặp vấn đề này thường thì chúng ta sẽ loại bỏ biến đó ra nhưng hôm nay chúng tôi hướng dẫn bạn cách khắc phục hiệu quả nhất.

ĐA CỘNG TUYẾN

Multicollinearity

Định nghĩa đa cộng tuyến

Trong thống kê , đa cộng tuyến (cũng là tính cộng tuyến ) là hiện tượng trong đó một biến dự báo trong mô hình hồi quy bội số có thể được dự đoán tuyến tính từ các biến khác với mức độ chính xác đáng kể. Trong trường hợp này, các ước lượng hệ số của hồi quy bội có thể thay đổi thất thường để đáp ứng với những thay đổi nhỏ trong mô hình hoặc dữ liệu.

Đa cộng tuyến không làm giảm sức mạnh dự đoán hoặc độ tin cậy của mô hình nói chung, ít nhất là trong tập dữ liệu mẫu; nó chỉ ảnh hưởng đến các tính toán liên quan đến các yếu tố dự đoán riêng lẻ. Nghĩa là, một mô hình hồi quy đa biến với các yếu tố dự đoán cộng tuyến có thể cho biết toàn bộ nhóm các yếu tố dự báo dự đoán biến kết quả tốt như thế nào , nhưng nó có thể không đưa ra kết quả hợp lệ về bất kỳ dự đoán riêng lẻ nào hoặc về những yếu tố dự đoán nào là dư thừa so với những người khác.

Hệ quả của đa cộng tuyến

Nguy cơ chính của sự dư thừa dữ liệu như vậy là việc trang bị quá nhiều trong các mô hình phân tích hồi quy . Các mô hình hồi quy tốt nhất là những mô hình trong đó các biến dự báo có tương quan cao với biến phụ thuộc (kết quả) nhưng chỉ tương quan tối thiểu với nhau. Một mô hình như vậy thường được gọi là “nhiễu thấp” và sẽ mạnh mẽ về mặt thống kê (nghĩa là, nó sẽ dự đoán một cách đáng tin cậy trên nhiều mẫu của các tập biến được rút ra từ cùng một tổng thể thống kê).

Miễn là đặc điểm kỹ thuật cơ bản là chính xác, đa cộng tuyến không thực sự dẫn đến sai lệch; nó chỉ tạo ra sai số tiêu chuẩn lớn trong các biến độc lập liên quan. Quan trọng hơn, cách sử dụng hồi quy thông thường là lấy các hệ số từ mô hình và sau đó áp dụng chúng cho các dữ liệu khác. Vì đa cộng tuyến gây ra các ước tính không chính xác về giá trị hệ số, các kết quả dự đoán ngoài mẫu cũng sẽ không chính xác. Và nếu mô hình đa cộng tuyến trong dữ liệu mới khác với mô hình trong dữ liệu đã được điều chỉnh, thì phép ngoại suy như vậy có thể gây ra sai số lớn trong các dự đoán.

Tuy nhiên, nếu thông số kỹ thuật cơ bản không đầy đủ và chính xác, thì đa cộng tuyến sẽ khuếch đại các sai lệch về thông số kỹ thuật sai. Mặc dù không thường được công nhận trong các văn bản về phương pháp, đây là một vấn đề phổ biến trong khoa học xã hội nơi mà một đặc tả đầy đủ, chính xác của mô hình hồi quy OLS hiếm khi được biết đến và ít nhất một số biến có liên quan sẽ không thể quan sát được. Kết quả là, các hệ số ước tính của các biến độc lập có tương quan trong một hồi quy OLS sẽ bị sai lệch bởi đa cộng tuyến. Khi mối tương quan tiến gần đến một, các ước lượng hệ số sẽ có xu hướng sai lệch về độ lớn vô hạn theo các hướng ngược lại, ngay cả khi tác động thực sự của các biến là nhỏ và cùng dấu.

Cách phát hiện

  1. Những thay đổi lớn trong hệ số hồi quy ước tính khi một biến dự báo được thêm vào hoặc xóa
  2. Hệ số hồi quy không đáng kể cho các biến bị ảnh hưởng trong hồi quy bội, nhưng bác bỏ giả thuyết chung rằng các hệ số đó đều bằng 0 (sử dụng F -test )
  3. Nếu một hồi quy đa biến tìm thấy một hệ số không đáng kể của một trình giải thích cụ thể, nhưng một hồi quy tuyến tính đơn giản của biến được giải thích trên biến giải thích này cho thấy hệ số của nó khác 0 đáng kể, tình huống này chỉ ra tính đa cộng tuyến trong hồi quy đa biến.
  4. Một số tác giả đã đề xuất một dung sai phát hiện chính thức hoặc hệ số lạm phát phương sai (VIF) cho đa cộng tuyến: tolerance = 1 – R2  , VIF = 1 / tolerance ; ở đâu là hệ số xác định hồi quy của giải thích  trên tất cả các giải thích khác. Dung sai nhỏ hơn 0,20 hoặc 0,10 và / hoặc VIF từ 5 hoặc 10 trở lên cho thấy vấn đề đa cộng tuyến.
  5. Kiểm định Farrar – Glauber :  Nếu các biến được tìm thấy là trực giao, thì không có đa cộng tuyến; nếu các biến không trực giao thì ít nhất cũng có hiện tượng đa cộng tuyến ở một mức độ nào đó. C. Robert Wichers đã lập luận rằng kiểm định tương quan từng phần Farrar – Glauber không hiệu quả ở chỗ một tương quan từng phần nhất định có thể tương thích với các mẫu đa cộng tuyến khác nhau.  Thử nghiệm Farrar – Glauber cũng bị các nhà nghiên cứu khác chỉ trích.
  6. Kiểm tra số điều kiện : Thước đo tiêu chuẩn của điều kiện kém trong ma trận là chỉ số điều kiện. Nó sẽ chỉ ra rằng sự nghịch đảo của ma trận không ổn định về mặt số học với các số có độ chính xác hữu hạn (máy tính tiêu chuẩn nổi và tăng gấp đôi ). Điều này cho thấy độ nhạy tiềm năng của nghịch đảo được tính toán đối với những thay đổi nhỏ trong ma trận ban đầu. Số điều kiện được tính bằng cách tìm căn bậc hai của giá trị riêng lớn nhất chia cho giá trị riêng nhỏ nhất của ma trận thiết kế. Nếu số điều kiện trên 30, hồi quy có thể có đa cộng tuyến nghiêm trọng; đa cộng tuyến tồn tại nếu, ngoài ra, hai hoặc nhiều biến liên quan đến số điều kiện cao có tỷ lệ phương sai cao được giải thích. Một ưu điểm của phương pháp này là nó cũng cho biết những biến nào đang gây ra sự cố.
  7. Thúc đẩy dữ liệu .  Đa cộng tuyến có thể được phát hiện bằng cách thêm nhiễu ngẫu nhiên vào dữ liệu và chạy lại hồi quy nhiều lần và xem các hệ số thay đổi bao nhiêu.
  8. Việc xây dựng ma trận tương quan giữa các biến giải thích sẽ mang lại dấu hiệu về khả năng rằng bất kỳ cặp biến nào bên phải nhất định đều tạo ra các vấn đề đa cộng tuyến. Các giá trị tương quan (các phần tử nằm ngoài đường chéo) ít nhất là 0,4 đôi khi được hiểu là chỉ ra một vấn đề đa cộng tuyến. Tuy nhiên, quy trình này rất có vấn đề và không thể được khuyến khích. Về mặt trực quan, sự tương quan mô tả một mối quan hệ hai biến, trong khi cộng tuyến là một hiện tượng đa biến.

Cách khắc phục

  1. Đảm bảo rằng bạn không rơi vào bẫy biến giả ; bao gồm một biến giả cho mọi danh mục (ví dụ: mùa hè, mùa thu, mùa đông và mùa xuân) và bao gồm một số hạng không đổi trong hồi quy cùng nhau đảm bảo đa cộng tuyến hoàn hảo.
  2. Hãy thử xem điều gì sẽ xảy ra nếu bạn sử dụng các tập hợp con độc lập của dữ liệu để ước tính và áp dụng những ước tính đó cho toàn bộ tập dữ liệu. Về mặt lý thuyết, bạn sẽ có được phương sai cao hơn một chút từ các tập dữ liệu nhỏ hơn được sử dụng để ước tính, nhưng kỳ vọng của các giá trị hệ số phải giống nhau. Đương nhiên, các giá trị hệ số quan sát sẽ khác nhau, nhưng hãy xem chúng thay đổi bao nhiêu.
  3. Giữ nguyên mô hình, bất chấp đa cộng tuyến. Sự hiện diện của đa cộng tuyến không ảnh hưởng đến hiệu quả của việc ngoại suy mô hình phù hợp với dữ liệu mới với điều kiện là các biến dự báo tuân theo cùng một mẫu đa cộng tuyến trong dữ liệu mới như trong dữ liệu dựa trên mô hình hồi quy.
  4. Bỏ một trong các biến. Một biến giải thích có thể bị loại bỏ để tạo ra một mô hình có hệ số quan trọng. Tuy nhiên, bạn mất thông tin (vì bạn đã bỏ một biến). Việc bỏ sót một biến có liên quan dẫn đến ước tính hệ số chệch cho các biến giải thích còn lại có tương quan với biến bị loại bỏ.
  5. Lấy thêm dữ liệu, nếu có thể. Đây là giải pháp được ưu tiên. Nhiều dữ liệu hơn có thể tạo ra các ước tính tham số chính xác hơn (với sai số tiêu chuẩn thấp hơn), như được thấy từ công thức trong hệ số lạm phát phương sai cho phương sai của ước tính hệ số hồi quy về kích thước mẫu và mức độ đa cộng tuyến.
  6. Làm trung tâm các biến dự báo. Tạo các số hạng đa thức  hoặc các điều khoản tương tác  có thể gây ra một số đa cộng tuyến nếu biến được đề cập có một phạm vi giới hạn (ví dụ:. Lấy ý nghĩa làm trung tâm sẽ loại bỏ loại đa cộng tuyến đặc biệt này.  Tuy nhiên, nói chung, điều này không có tác dụng. Nó có thể hữu ích trong việc khắc phục các vấn đề phát sinh từ việc làm tròn số và các bước tính toán khác nếu chương trình máy tính được thiết kế cẩn thận không được sử dụng.
  7. Chuẩn hóa các biến độc lập của bạn. Điều này có thể giúp giảm việc gắn cờ sai cho chỉ số điều kiện trên 30.
  8. Người ta cũng gợi ý rằng sử dụng giá trị Shapley , một công cụ lý thuyết trò chơi , mô hình có thể giải thích các tác động của đa cộng tuyến. Giá trị Shapley chỉ định một giá trị cho mỗi dự đoán và đánh giá tất cả các kết hợp có thể có về mức độ quan trọng.
  9. Có thể sử dụng hồi quy Ridge hoặc hồi quy thành phần chính hoặc hồi quy bình phương nhỏ nhất từng phần(PLS) .
  10. Nếu các giải thích tương quan là các giá trị trễ khác nhau của cùng một trình giải thích cơ bản, thì có thể sử dụng kỹ thuật trễ phân tán , áp đặt cấu trúc chung cho các giá trị tương đối của các hệ số được ước tính.

Ứng dụng thực tế

Kiểm tra đa cộng tuyến

Trong lý thuyết thường nó nêu ra rất nhiều, nhưng trong thực tế phân tích thì các bạn chỉ cần kiểm tra bằng hệ số VIF và khắc phục sai phạm đa cộng tuyến bằng hồi quy Ridge thôi; Bây giờ chúng ta sẽ kiểm tra đa cộng tuyến trên những phần mềm thông dụng hiện nay

Stata

Trong phần mềm Stata chúng ta chạy hồi quy bình thường, xong rồi gõ lệnh vif nó sẽ kiểm tra đa cộng tuyến cho chúng ta, và có kết quả như sau:

đa cộng tuyến trên stata
Kiểm tra đa cộng tuyến trên Stata

Chúng ta điều có 3 biến bị đa cộng tuyến

Eviews

Tiếp theo chúng ta sẽ thử chạy phần mềm Eviews xem kết quả như thế nào ?

Kiểm tra đa cộng tuyến trên Eviews
Cách kiểm tra đa cộng tuyến trên Eviews

Kết quả cho ta cả 3 biến điều bị đa cộng tuyến

SPSS

Khi kiểm tra trên SPSS chúng ta vẫn có kết quả như vậy,

Đa cộng tuyến trên SPSS
Kiểm tra đa cộng tuyến trên SPSS

Minitab

Còn một phần mềm thống dụng nữa, chúng ta kiểm tra luôn xem sao

Kiểm tra đa cộng tuyến trên Minitab
Kiểm tra đa cộng tuyến trên Minitab

NCSS

Nói chúng là phần lớn những phần mềm thống kê điều có khả năng kiểm tra đa cộng tuyến trong hồi quy tuyến tính, bạn có thể sử dụng bắt cứ phần mềm nào mà bạn tiện nhất có thể; Giờ chúng tôi kiểm tra đa cộng tuyến thêm trên phần mềm thống kê NCSS, vì chúng ta dùng nó để khắc phục sai phạm, nên phải kiểm tra nó thôi.

Đa cộng tuyến trên minitab
Kiểm tra đa cộng tuyến trên NCSS

Khắc phục đa cộng tuyến bằng hồi quy Ridge

Thông thường để khắc phục đa cộng tuyến chúng ta thường sử dụng phần mêm thống kê R, đây là phần mềm thống kê rất mạnh và luôn có những cập nhật mới nhất về thống kê; Tính mới luôn luôn hơn hẳn những phần mềm thương mại, nhưng nhược điểm của nó là câu lệnh, nên vấn đề học đòi hỏi thời gian lâu và dài.

Rất may mắn, chúng ta có phần mềm với giao diện đồ hoạ tương tác mà có hồi quy ridge. Chạy hồi quy ridge trên NCSS thôi

Kết quả hồi quy Ridge
Kết quả hồi quy Ridge trên NCSS

Ta có hệ số hiệu chỉnh k=0.01 thì tất cả các biến trong mô hình không bị đa cộng tuyến.

Kết luận

Nếu các bạn có khó khăn nào trong việc khắc phục sai phạm đa cộng tuyến, hãy liên hệ ngay với chúng tôi được tư vấn và hỗ trợ kịp thời nhất.

Bài viết mới

Có thể bạn thích bài viết này:

Trả lời

Email của bạn sẽ không được hiển thị công khai.