7 giả định hồi quy bình phương nhỏ nhất OLS

Bình phương nhỏ nhất thông thường (OLS) là phương pháp ước lượng phổ biến nhất cho các mô hình tuyến tính — và điều đó đúng vì một lý do chính đáng. Miễn là mô hình của bạn đáp ứng các giả định OLS cho hồi quy tuyến tính , bạn có thể yên tâm khi biết rằng bạn đang nhận được các ước tính tốt nhất có thể .

Hồi quy là một phân tích mạnh mẽ có thể phân tích nhiều biến đồng thời để trả lời các câu hỏi nghiên cứu phức tạp. Tuy nhiên, nếu bạn không đáp ứng các giả định của OLS, bạn có thể không tin tưởng vào kết quả.

Trong bài đăng này, tôi đề cập đến các giả định hồi quy tuyến tính OLS, tại sao chúng lại cần thiết và giúp bạn xác định xem mô hình của mình có thỏa mãn các giả định hay không.

Ước tính OLS là gì và Ước tính tốt là gì?

Đầu tiên, một chút về bối cảnh.

Phân tích hồi quy cũng giống như các phương pháp suy luận khác . Mục tiêu của chúng tôi là lấy một mẫu ngẫu nhiên từ một quần thể và sử dụng nó để ước tính các thuộc tính của quần thể đó.

Trong phân tích hồi quy , các hệ số trong phương trình hồi quy là ước lượng của các tham số dân số thực tế . Chúng tôi muốn những ước tính hệ số này là những ước tính tốt nhất có thể!

Giả sử bạn yêu cầu một ước tính — giả sử cho chi phí của một dịch vụ mà bạn đang xem xét. Làm thế nào bạn sẽ xác định một ước tính hợp lý?

Các ước tính phải có xu hướng đúng với mục tiêu. Chúng không nên quá cao hoặc quá thấp một cách có hệ thống. Nói cách khác, trung bình chúng phải không thiên vị hoặc đúng.
Nhận ra rằng các ước tính hầu như không bao giờ đúng chính xác, bạn muốn giảm thiểu sự khác biệt giữa giá trị ước tính và giá trị thực tế. Sự khác biệt lớn là xấu!
Hai thuộc tính này chính xác là những gì chúng ta cần cho các ước tính hệ số của mình!

Hồi quy tuyến tính

Khi mô hình hồi quy tuyến tính của bạn thỏa mãn các giả định OLS, quy trình sẽ tạo ra các ước tính hệ số không chệch có xu hướng tương đối gần với các giá trị tổng thể thực (phương sai tối thiểu). Trên thực tế, định lý Gauss-Markov phát biểu rằng OLS tạo ra các ước lượng tốt hơn các ước lượng từ tất cả các phương pháp ước lượng mô hình tuyến tính khác khi các giả định là đúng.

Để biết thêm thông tin về hàm ý của định lý này đối với các ước lượng OLS, hãy tìm hiểu về : Định lý Gauss-Markov và Ước lượng Hệ số BLUE OLS .

Bảy giả định OLS Cổ điển

Giống như nhiều phân tích thống kê, hồi quy bình phương nhỏ nhất (OLS) thông thường có các giả định cơ bản. Khi các giả định cổ điển này cho hồi quy tuyến tính là đúng, các bình phương nhỏ nhất thông thường tạo ra các ước lượng tốt nhất. Tuy nhiên, nếu một số giả định này không đúng, bạn có thể cần phải áp dụng các biện pháp khắc phục hoặc sử dụng các phương pháp ước tính khác để cải thiện kết quả.

Nhiều giả định trong số này mô tả các thuộc tính của thuật ngữ lỗi. Thật không may, thuật ngữ lỗi là một giá trị tổng hợp mà chúng ta sẽ không bao giờ biết. Thay vào đó, chúng tôi sẽ sử dụng thứ tốt nhất tiếp theo hiện có — phần còn lại . Phần còn lại là ước lượng mẫu của sai số cho mỗi lần quan sát.

Phần còn lại = Giá trị quan sát – giá trị vừa vặn

Khi nói đến việc kiểm tra các giả định của OLS, việc đánh giá các phần còn lại là rất quan trọng!

Có bảy giả định OLS cổ điển cho hồi quy tuyến tính. Sáu đầu tiên là bắt buộc để tạo ra các ước tính tốt nhất. Mặc dù chất lượng của các ước tính không phụ thuộc vào giả định thứ bảy, nhưng các nhà phân tích thường đánh giá nó vì những lý do quan trọng khác mà tôi sẽ đề cập.

Hồi quy là tuyến tính trong các hệ số và phần sai số

Giả định này đề cập đến dạng chức năng của mô hình. Trong thống kê , mô hình hồi quy là tuyến tính khi tất cả các số hạng trong mô hình là hằng số hoặc là một tham số nhân với một biến độc lập. Bạn chỉ xây dựng phương trình mô hình bằng cách cộng các thuật ngữ với nhau. Các quy tắc này ràng buộc mô hình thành một kiểu:

Y =  a0 + a1X1 + a2X2 + a3X3+ …+ aiXi + ε

Trong phương trình, betas (a) là các tham số mà OLS ước tính. Epsilon (ε) là lỗi ngẫu nhiên.

Trên thực tế, đặc điểm xác định của hồi quy tuyến tính là dạng hàm này của các tham số chứ không phải là khả năng mô hình hóa độ cong. Mô hình tuyến tính có thể mô hình hóa độ cong bằng cách bao gồm các biến phi tuyến như đa thức và biến đổi hàm mũ.

Để thỏa mãn giả định này, mô hình được chỉ định chính xác phải phù hợp với mô hình tuyến tính.

Phần sai số có giá trị trung bình tổng thể bằng 0

Thuật ngữ lỗi giải thích cho sự thay đổi trong biến phụ thuộc mà các biến độc lập không giải thích được. Cơ hội ngẫu nhiên sẽ xác định các giá trị của thuật ngữ lỗi. Để mô hình của bạn không thiên vị, giá trị trung bình của thuật ngữ lỗi phải bằng 0.

Giả sử sai số trung bình là +7. Sai số trung bình khác 0 này chỉ ra rằng mô hình của chúng tôi dự đoán thấp hơn một cách có hệ thống các giá trị quan sát được. Các nhà thống kê gọi sai số hệ thống như thế này là sai lệch, và nó cho thấy rằng mô hình của chúng tôi không đầy đủ vì nó không đúng về trung bình.

Nói theo cách khác, chúng tôi muốn giá trị mong đợi của lỗi bằng 0. Nếu giá trị kỳ vọng là +7 thay vì 0, thì một phần của thuật ngữ lỗi có thể dự đoán được và chúng ta nên thêm thông tin đó vào chính mô hình hồi quy. Chúng tôi chỉ muốn lỗi ngẫu nhiên còn lại cho thuật ngữ lỗi.

Bạn không cần phải lo lắng về giả định này khi bạn đưa hằng số vào mô hình hồi quy của mình vì nó buộc giá trị trung bình của các phần dư bằng 0. Để biết thêm thông tin về giả định này, hãy đọc bài đăng của tôi về hằng số hồi quy .

Tất cả các biến độc lập không tương quan với phần sai số

Nếu một biến độc lập có tương quan với thuật ngữ lỗi, chúng ta có thể sử dụng biến độc lập để dự đoán thuật ngữ lỗi, điều này vi phạm quan điểm cho rằng thuật ngữ lỗi đại diện cho lỗi ngẫu nhiên không thể đoán trước. Chúng ta cần tìm cách kết hợp thông tin đó vào chính mô hình hồi quy.

Giả định này cũng được gọi là ngoại đồng nhất. Khi loại tương quan này tồn tại, thì có tính nội đồng nhất. Việc vi phạm giả định này có thể xảy ra do có sự đồng thời giữa các biến độc lập và phụ thuộc, sai lệch của biến bị bỏ qua hoặc sai số đo lường trong các biến độc lập.

Vi phạm giả định này sẽ làm sai lệch ước lượng hệ số. Để hiểu tại sao sự sai lệch này xảy ra, hãy nhớ rằng thuật ngữ lỗi luôn giải thích một số sự thay đổi trong biến phụ thuộc. Tuy nhiên, khi một biến độc lập tương quan với cụm từ lỗi, OLS quy sai một số phương sai mà cụm từ lỗi thực sự giải thích cho biến độc lập. Để biết thêm thông tin về việc vi phạm giả định này, hãy đọc bài đăng của tôi về các biến gây nhiễu và sai lệch biến bị bỏ qua .

Các quan sát của thuật ngữ lỗi không tương quan với nhau

Một quan sát của thuật ngữ lỗi không nên dự đoán quan sát tiếp theo. Ví dụ, nếu sai số cho một lần quan sát là dương và điều đó làm tăng xác suất sai số sau là dương một cách có hệ thống, thì đó là một mối tương quan thuận. Nếu sai số tiếp theo nhiều khả năng có dấu hiệu ngược lại, đó là mối tương quan nghịch. Vấn đề này được gọi là tương quan nối tiếp và tự tương quan. Tương quan nối tiếp có nhiều khả năng xảy ra trong các mô hình chuỗi thời gian.

Ví dụ: nếu doanh số bán hàng cao bất ngờ vào một ngày, thì chúng có khả năng cao hơn mức trung bình vào ngày hôm sau. Loại tương quan này không phải là một kỳ vọng không hợp lý đối với một số lĩnh vực chủ đề, chẳng hạn như tỷ lệ lạm phát, GDP, thất nghiệp, v.v.

Đánh giá giả định này bằng cách vẽ đồ thị phần dư theo thứ tự dữ liệu được thu thập. Bạn muốn thấy sự ngẫu nhiên trong cốt truyện. Trong biểu đồ của một mô hình bán hàng, có một mô hình chu kỳ với mối tương quan thuận.

Phần còn lại so với biểu đồ thứ tự để kiểm tra giả định OLS không có tương quan nối tiếp.

Như tôi đã giải thích, nếu bạn có thông tin cho phép bạn dự đoán thuật ngữ lỗi cho một quan sát, bạn phải kết hợp thông tin đó vào chính mô hình. Để giải quyết vấn đề này, bạn có thể cần thêm một biến độc lập vào mô hình nắm bắt thông tin này. Các nhà phân tích thường sử dụng mô hình độ trễ phân tán, sử dụng cả giá trị hiện tại của biến phụ thuộc và giá trị trong quá khứ của các biến độc lập.

Đối với mô hình bán hàng ở trên, chúng ta cần thêm các biến giải thích mô hình theo chu kỳ.

Tương quan nối tiếp làm giảm độ chính xác của ước tính OLS. Các nhà phân tích cũng có thể sử dụng phân tích chuỗi thời gian cho các hiệu ứng phụ thuộc vào thời gian.

Một phương pháp thay thế để xác định tự tương quan trong các phần dư là đánh giá hàm tự tương quan , đây là một công cụ tiêu chuẩn trong phân tích chuỗi thời gian.

 Phần sai số có phương sai không đổi (không có phương sai thay đổi)

Phương sai của các sai số phải nhất quán đối với tất cả các quan sát. Nói cách khác, phương sai không thay đổi đối với từng quan sát hoặc đối với một phạm vi quan sát. Điều kiện ưu tiên này được gọi là sự đồng biến đổi dạng (cùng phân tán). Nếu phương sai thay đổi, chúng tôi gọi đó là phương sai thay đổi (phân tán khác nhau).

Cách dễ nhất để kiểm tra giả định này là tạo một đồ thị giá trị thặng dư so với giá trị phù hợp. Trên loại đồ thị này, phương sai thay đổi xuất hiện dưới dạng hình nón trong đó sự lan truyền của phần dư tăng lên theo một hướng. Trong đồ thị bên dưới, mức chênh lệch của phần dư tăng lên khi giá trị vừa vặn tăng lên.

Phần còn lại theo các giá trị được điều chỉnh biểu thị hiển thị phương sai thay đổi, vi phạm giả định OLS.
Phương sai thay đổi làm giảm độ chính xác của các ước lượng trong hồi quy tuyến tính OLS.

Lưu ý: Khi giả thiết 4 (không tự tương quan) và 5 (đồng biến đổi) đều đúng, các nhà thống kê nói rằng thuật ngữ sai số là độc lập và phân phối giống nhau (IID) và coi chúng là sai số cầu.

Không có biến độc lập nào là một hàm tuyến tính hoàn hảo của các biến giải thích khác

Tương quan hoàn hảo xảy ra khi hai biến có hệ số tương quan của Pearson là +1 hoặc -1. Khi một trong các biến số thay đổi, thì biến số còn lại cũng thay đổi theo một tỷ lệ hoàn toàn cố định. Hai biến chuyển động đồng thời.

Tương quan hoàn hảo cho thấy rằng hai biến là các dạng khác nhau của cùng một biến. Ví dụ, trò chơi thắng và trận thua có mối tương quan âm hoàn hảo (-1). Nhiệt độ ở độ F và độ C có mối tương quan thuận hoàn toàn (+1).

Bình phương nhỏ nhất thông thường không thể phân biệt một biến này với biến kia khi chúng có tương quan hoàn hảo. Nếu bạn chỉ định một mô hình có chứa các biến độc lập với mối tương quan hoàn hảo, phần mềm thống kê của bạn không thể phù hợp với mô hình và nó sẽ hiển thị thông báo lỗi. Bạn phải xóa một trong các biến khỏi mô hình để tiếp tục.

Mối tương quan hoàn hảo là một điểm dừng của chương trình. Tuy nhiên, phần mềm thống kê của bạn có thể phù hợp với các mô hình hồi quy OLS với các mối quan hệ không hoàn hảo nhưng chặt chẽ giữa các biến độc lập. Nếu những mối tương quan này đủ cao, chúng có thể gây ra vấn đề. Các nhà thống kê gọi điều kiện này là đa cộng tuyến và nó làm giảm độ chính xác của các ước tính trong hồi quy tuyến tính OLS.

Sai số được phân phối bình thường (tùy chọn)

OLS không yêu cầu thuật ngữ lỗi tuân theo phân phối chuẩn để tạo ra các ước tính không chệch với phương sai nhỏ nhất. Tuy nhiên, việc thỏa mãn giả định này cho phép bạn thực hiện kiểm tra giả thuyết thống kê và tạo ra khoảng tin cậy và khoảng dự đoán đáng tin cậy .

Cách dễ nhất để xác định xem phần dư có tuân theo phân phối chuẩn hay không là đánh giá một đồ thị xác suất chuẩn. Nếu phần dư theo đường thẳng trên loại đồ thị này thì chúng được phân phối chuẩn. Họ trông tốt trên cốt truyện dưới đây!

Biểu đồ xác suất thông thường để đánh giá xem các phần dư có tuân theo phân phối chuẩn và thỏa mãn giả định OLS hay không.
Nếu bạn cần lấy giá trị p cho các ước lượng hệ số và kiểm định ý nghĩa tổng thể , hãy kiểm tra giả định này!

Tại sao bạn nên quan tâm đến các giả định hồi quy

Tóm lại, mô hình tuyến tính của bạn phải tạo ra phần dư có giá trị trung bình bằng 0, có phương sai không đổi và không tương quan với chính chúng hoặc các biến khác.

Nếu những giả định hồi quy  này đúng, thì thủ tục OLS sẽ tạo ra các ước tính tốt nhất có thể. Trong thống kê, các công cụ ước tính tạo ra các ước tính không chệch có phương sai nhỏ nhất được gọi là “hiệu quả”. Hiệu quả là một khái niệm thống kê so sánh chất lượng của các ước tính được tính bằng các quy trình khác nhau trong khi giữ nguyên cỡ mẫu không đổi. OLS là công cụ ước lượng hồi quy tuyến tính hiệu quả nhất khi các giả định đúng.

Một lợi ích khác của việc thỏa mãn các giả định này là khi kích thước mẫu tăng đến vô cùng, các ước lượng hệ số hội tụ trên các tham số dân số thực tế.

Nếu sai số của bạn cũng tuân theo phân phối chuẩn, bạn có thể sử dụng kiểm tra giả thuyết một cách an toàn để xác định xem các biến độc lập và toàn bộ mô hình có ý nghĩa thống kê hay không. Bạn cũng có thể tạo khoảng tin cậy đáng tin cậy và khoảng dự đoán.

Biết rằng bạn đang tối đa hóa giá trị dữ liệu của mình bằng cách sử dụng phương pháp hiệu quả nhất để có được các ước tính tốt nhất có thể sẽ giúp bạn cảm thấy thoải mái. Thật đáng giá khi kiểm tra các giả định OLS này! Cách tốt nhất để đánh giá chúng là sử dụng các ô còn lại. Để biết cách làm điều này, hãy đọc bài đăng của tôi về việc sử dụng các lô còn lại !

Nếu bạn đang học về hồi quy và thích cách tiếp cận mà tôi sử dụng trong blog của mình, nếu chưa rõ bạn có thể liên hệ để học trực tiếp đối với chúng tôi!

Bài viết mới

Có thể bạn thích bài viết này:

Trả lời

Email của bạn sẽ không được hiển thị công khai.