Phân tích hồi quy là gì ?!

Phân tích hồi quy là gì ? Chúng ta thường nói hồi quy như vậy thì hồi quy là gì? lịch sử ra đời của hồi qui ra sao ? và các giả định của hồi quy là gì ?

PHÂN TÍCH HỒI QUY

Phân tích hồi quy là gì ?

Trong mô hình thống kê , phân tích hồi quy là một tập hợp các quy trình thống kê để ước tính các mối quan hệ giữa một biến phụ thuộc (thường được gọi là biến ‘kết quả’ hoặc ‘phản hồi’ hoặc ‘nhãn’ theo cách nói của máy học) và một hoặc nhiều biến độc lập ( thường được gọi là ‘yếu tố dự báo’, ‘hiệp biến’, ‘biến giải thích’ hoặc ‘tính năng’). Hình thức phân tích hồi quy phổ biến nhất là hồi quy tuyến tính , trong đó người ta tìm ra đường (hoặc một tổ hợp tuyến tính phức tạp hơn ) phù hợp nhất với dữ liệu theo một tiêu chí toán học cụ thể.

Ví dụ, phương pháp bình phương nhỏ nhất thông thường tính toán dòng duy nhất (hoặc siêu phẳng ) để giảm thiểu tổng bình phương của sự khác biệt giữa dữ liệu thực và dòng đó (hoặc siêu phẳng). Vì các lý do toán học cụ thể (xem hồi quy tuyến tính ), điều này cho phép nhà nghiên cứu ước tính kỳ vọng có điều kiện (hoặc giá trị trung bình dân số ) của biến phụ thuộc khi các biến độc lập nhận một tập giá trị nhất định. Các dạng hồi quy ít phổ biến hơn sử dụng các thủ tục hơi khác để ước tính các thông số vị trí thay thế (ví dụ: hồi quy định lượng hoặc Phân tích điều kiện cần thiết ) hoặc ước tính kỳ vọng có điều kiện trên một tập hợp rộng hơn các mô hình phi tuyến tính (ví dụ:hồi quy không tham số ).

Mục đích của phân tích hồi quy

Phân tích hồi quy chủ yếu được sử dụng cho hai mục đích khác nhau về mặt khái niệm.

  1. Đầu tiên, phân tích hồi quy được sử dụng rộng rãi để dự đoán và dự báo , trong đó việc sử dụng nó có sự trùng lặp đáng kể với lĩnh vực máy học .
  2. Thứ hai, trong một số tình huống, phân tích hồi quy có thể được sử dụng để suy ra mối quan hệ nhân quả giữa các biến độc lập và phụ thuộc. Quan trọng là, bản thân hồi quy chỉ tiết lộ mối quan hệ giữa một biến phụ thuộc và một tập hợp các biến độc lập trong một tập dữ liệu cố định. Để sử dụng hồi quy để dự đoán hoặc để suy ra các mối quan hệ nhân quả, một nhà nghiên cứu phải giải thích một cách cẩn thận lý do tại sao các mối quan hệ hiện tại có sức mạnh dự đoán cho một bối cảnh mới hoặc tại sao mối quan hệ giữa hai biến lại có cách giải thích nhân quả. Điều sau đặc biệt quan trọng khi các nhà nghiên cứu hy vọng ước tính các mối quan hệ nhân quả bằng cách sử dụng dữ liệu quan sát

Lịch sử của hồi quy

Dạng hồi quy sớm nhất là phương pháp bình phương nhỏ nhất , được Legendre xuất bản năm 1805,  và Gauss năm 1809.  Legendre và Gauss đều áp dụng phương pháp này cho bài toán xác định, từ các quan sát thiên văn, quỹ đạo của các thiên thể quay quanh Mặt trời (chủ yếu là sao chổi, nhưng sau đó cũng là các hành tinh nhỏ mới được phát hiện sau đó). Gauss đã công bố sự phát triển thêm của lý thuyết bình phương nhỏ nhất vào năm 1821,  bao gồm một phiên bản của định lý Gauss – Markov .

Thuật ngữ “hồi quy” được đặt ra bởi Francis Galton vào thế kỷ 19 để mô tả một hiện tượng sinh học. Hiện tượng xảy ra là chiều cao của con cháu các tổ tiên cao có xu hướng thoái lui xuống mức trung bình bình thường (một hiện tượng còn được gọi là hồi quy về phía trung bình ).  Đối với Galton, hồi quy chỉ có ý nghĩa sinh học này,  nhưng công trình của ông sau đó được Udny Yule và Karl Pearson mở rộng sang bối cảnh thống kê tổng quát hơn.  Trong công trình của Yule và Pearson, phân phối chung của các biến phản hồi và giải thích được giả định là Gaussian. Giả định này đã bị suy yếu bởi RA Fisher trong các công trình của ông năm 1922 và 1925.  Fisher giả định rằng phân phối có điều kiện của biến phản hồi là Gaussian, nhưng phân phối chung thì không. Về mặt này, giả định của Fisher gần với công thức của Gauss năm 1821.

Hồi quy trong kinh tế học

Trong những năm 1950 và 1960, các nhà kinh tế đã sử dụng “máy tính” bàn điện cơ để tính toán hồi quy. Trước năm 1970, đôi khi mất đến 24 giờ để nhận được kết quả từ một lần hồi quy. 

Mở rộng của phương pháp hồi quy

Phương pháp hồi quy tiếp tục là một lĩnh vực được nghiên cứu tích cực. Trong những thập kỷ gần đây, các phương pháp mới đã được phát triển để hồi quy mạnh mẽ , hồi quy liên quan đến các phản hồi tương quan như chuỗi thời gian và đường cong tăng trưởng , hồi quy trong đó yếu tố dự đoán (biến độc lập) hoặc biến phản hồi là đường cong, hình ảnh, đồ thị hoặc các đối tượng dữ liệu phức tạp khác, phương pháp hồi quy chứa nhiều loại dữ liệu bị thiếu khác nhau, hồi quy không tham số , phương pháp Bayes cho hồi quy, hồi quy trong đó các biến dự báo được đo với sai số, hồi quy với nhiều biến dự báo hơn quan sát và suy luận nhân quả với hồi quy.

Các giả định cơ bản của hồi quy

Tự nó, một hồi quy chỉ đơn giản là một phép tính sử dụng dữ liệu. Để giải thích đầu ra của hồi quy như một đại lượng thống kê có ý nghĩa đo lường các mối quan hệ trong thế giới thực, các nhà nghiên cứu thường dựa vào một số giả định cổ điển . Những giả định này thường bao gồm:

  1. Mẫu đại diện cho dân số nói chung.
  2. Các biến độc lập được đo lường không có sai số.
  3. Độ lệch so với mô hình có giá trị kỳ vọng bằng 0, có điều kiện là hiệp biến: E(ei|Xi)=0
  4. Phương sai của phần dư ei  là không đổi qua các lần quan sát ( đồng biến đổi ).
  5. Phần dư ei không tương quan với nhau. Về mặt toán học, ma trận phương sai-hiệp phương sai của các lỗi là đường chéo .

Một số điều kiện đủ để công cụ ước lượng bình phương nhỏ nhất sở hữu các đặc tính mong muốn: đặc biệt, các giả định Gauss – Markov ngụ ý rằng các ước lượng tham số sẽ không chệch , nhất quán và hiệu quả trong loại công cụ ước lượng không chệch tuyến tính. Các học viên đã phát triển nhiều phương pháp khác nhau để duy trì một số hoặc tất cả các thuộc tính mong muốn này trong môi trường thực tế, bởi vì những giả định cổ điển này khó có thể giữ chính xác. Ví dụ, mô hình hóa lỗi-trong-biến có thể dẫn đến ước tính hợp lý các biến độc lập được đo lường với sai số. Sai số chuẩn nhất quán theo phương sai thay đổi thay đổi cho phép phương sai của ei để thay đổi các giá trị của Xi. Các lỗi liên quan tồn tại trong các tập con của dữ liệu hoặc theo các mẫu cụ thể có thể được xử lý bằng cách sử dụng các lỗi tiêu chuẩn nhóm, hồi quy có trọng số địa lý hoặc các lỗi tiêu chuẩn Newey – West , trong số các kỹ thuật khác. Khi các hàng dữ liệu tương ứng với các vị trí trong không gian, việc lựa chọn cách lập mô hình ei trong các đơn vị địa lý có thể gây ra những hậu quả quan trọng. Lĩnh vực kinh tế lượng chủ yếu tập trung vào việc phát triển các kỹ thuật cho phép các nhà nghiên cứu đưa ra kết luận hợp lý trong thế giới thực trong bối cảnh thế giới thực, nơi mà các giả định cổ điển không giữ chính xác

Kết luận phân tích hồi quy

Trong phân tích hồi quy chúng ta thường xuyên phạm những sai phạm cơ bản trong hồi quy, như vậy để giải quyết những sai phạm này chúng ta cần phải làm gì ? Nó các bạn gặp khó khăn trong việc khắc phục sai phạm, các bạn đừng ngần ngại hãy liên hệ với chúng tôi để được tư vấn hỗ trợ phân tích xử lý nghiên cứu định lượng chuyên nghiệp nhất.

Bài viết mới

Có thể bạn thích bài viết này:

One thought on “Phân tích hồi quy là gì ?!

Trả lời

Email của bạn sẽ không được hiển thị công khai.