Hồi quy biến thứ tự Ordinal ước lượng đa thức Multinomial

Hồi quy biến thứ tự Ordinal Multinomial Logistic Regression, đây là 2 trường hợp mở rộng của phương pháp hồi quy nhị thức logit, được ứng dụng rộng rãi trên thực tế. Để hồi quy này các bạn nên thực hiện trên phần mềm Stata hay R, ngoài ra những phần mềm thương mại vẫn có hỗ trợ như: SPSS, NCSS, Minitab…

Hồi quy biến thứ tự

Hồi quy Ordinal Logistic  là gì ?

Trong thống kê , hồi quy thứ tự , còn được gọi là phân loại thứ tự , là một loại phân tích hồi quy được sử dụng để dự đoán một biến thứ tự , tức là một biến có giá trị tồn tại trên một tỷ lệ tùy ý trong đó chỉ có thứ tự tương đối giữa các giá trị khác nhau là có ý nghĩa.

Có thể coi đây là một bài toán trung gian giữa hồi quy và phân loại .  Ví dụ về hồi quy thứ tự là logit có thứ tự và probit có thứ tự . Hồi quy thứ tự thường xuất hiện trong khoa học xã hội, chẳng hạn như trong mô hình hóa mức độ ưa thích của con người (trên thang điểm, chẳng hạn từ 1–5 cho “rất kém” đến “xuất sắc”), cũng như trong truy xuất thông tin . Trong học máy , hồi quy thứ tự cũng có thể được gọi là học xếp hạng

Trong thống kê , mô hình logit có thứ tự (cũng là hồi quy logistic có thứ tự hoặc mô hình tỷ lệ chênh lệch tỷ lệ ) là một mô hình hồi quy thứ tự — nghĩa là, một mô hình hồi quy cho các biến phụ thuộc thứ tự — được Peter McCullagh xem xét lần đầu tiên .

Ví dụ: nếu một câu hỏi trong cuộc khảo sát được trả lời bằng sự lựa chọn giữa “kém”, “khá”, “tốt” và “xuất sắc”và mục đích của phân tích là để xem phản hồi đó có thể được dự đoán tốt như thế nào bởi các câu trả lời cho các câu hỏi khác, một số câu trả lời có thể là định lượng, sau đó có thể sử dụng hồi quy logistic có thứ tự. Nó có thể được coi là một phần mở rộng của mô hình hồi quy logistic áp dụng cho các biến phụ thuộc phân đôi , cho phép nhiều hơn hai loại phản hồi (có thứ tự).

Hồi quy Multinomial Logistic là gì ?

Hồi quy logistic đa thức được sử dụng khi biến phụ thuộc được đề cập là danh nghĩa (tương đương có tính phân loại , nghĩa là nó thuộc bất kỳ một trong số các danh mục không thể được sắp xếp theo bất kỳ cách nào có ý nghĩa) và có nhiều hơn hai danh mục. Một số ví dụ sẽ là:

  • Sinh viên đại học sẽ chọn chuyên ngành nào, cho điểm của họ, đã nêu thích và không thích, v.v.?
  • Một người có nhóm máu nào, cho kết quả của các xét nghiệm chẩn đoán khác nhau?
  • Trong một ứng dụng quay số điện thoại di động rảnh tay, tên của người nào đã được nói, với các thuộc tính khác nhau của tín hiệu giọng nói?
  • Một người sẽ bỏ phiếu cho ứng cử viên nào, với các đặc điểm nhân khẩu học cụ thể?
  • Một công ty sẽ đặt văn phòng tại quốc gia nào, dựa trên các đặc điểm của công ty và của các quốc gia ứng cử viên khác nhau?

Đây là tất cả các vấn đề phân loại thống kê . Tất cả chúng đều có điểm chung là một biến phụ thuộc được dự đoán đến từ một trong một tập hợp giới hạn các mục không thể được sắp xếp có ý nghĩa, cũng như một tập hợp các biến độc lập(còn được gọi là tính năng, trình giải thích, v.v.), được sử dụng để dự đoán biến phụ thuộc.

Hồi quy logistic đa thức là một giải pháp cụ thể cho các bài toán phân loại sử dụng kết hợp tuyến tính của các đặc trưng quan sát và một số tham số cụ thể của bài toán để ước tính xác suất của từng giá trị cụ thể của biến phụ thuộc. Giá trị tốt nhất của các tham số cho một vấn đề nhất định thường được xác định từ một số dữ liệu đào tạo (ví dụ: một số người đã biết cả kết quả xét nghiệm chẩn đoán và nhóm máu hoặc một số ví dụ về các từ đã biết đang được nói).

Thực hành trên phần mềm Stata.

Hồi quy OLS

Stata code: reg MUAHANG LUONG THUONG SOCON CPHI TKIEM

Trước tiên chúng tôi hồi quy bình phương nhỏ nhất xem kết quả ra sao

Source SS df MS      Number of obs   = 200
F(5, 194)       = 135.19
Model 106.4133 5 21.282662   Prob > F        = 0
Residual 30.54169 194 .157431393   R-squared       = 0.777
Adj R-squared   = 0.7712
Total 136.955 199 .68821608   Root MSE        = 0.39678
MUAHANG Coef. Std. Err. t    P>t     [95% Conf. Interval]
LUONG 0.038139 0.0076134 5.01   0.000     .0231232 0.053155
THUONG 0.051062 0.0086511 5.90   0.000     .0339995 0.068124
SOCON 0.314246 0.0446416 7.04   0.000     .2262006 0.402291
CPHI 0.053261 0.007005 7.60   0.000     .0394456 0.067077
TKIEM 0.050484 0.0139962 3.61   0.000     .0228792 0.078088
_cons -1.28129 0.13934 -9.20   0.000    -1.556107 -1.00648

Ta có mô hình tổng quát

MUAHANG = 0.038*LUONG +0.051*THUONG + 0.3*SOCON + 0.06*CPHI + 0.05*TKIEM 

Tất cả các biến điều có ý nghĩa thống kê.

Hồi quy biến thứ bậc Ordinal Logistic

Stata code: ologit MUAHANG LUONG THUONG SOCON CPHI TKIEM

Và có kết quả hồi quy thứ tự như sau:

Ordered logistic regression Number of obs     = 200
LR chi2(5)        = 282.64
Prob > chi2       = 0
Log likelihood = -78.2162 Pseudo R2         = 0.6437
MUAHANG Coef. Std. Err. z P>z     [95% Conf. Interval]
LUONG 0.296556 0.06775 4.38 0.000     .1637686 0.429343
THUONG 0.368526 0.074428 4.95 0.000     .2226496 0.514402
SOCON 2.215569 0.406456 5.45 0.000     1.418931 3.012207
CPHI 0.364759 0.06486 5.62 0.000     .2376357 0.491882
TKIEM 0.291003 0.10389 2.8 0.005      .087382 0.494624
/cut1 20.23295 2.448365 15.43425 25.03166
/cut2 25.58596 3.058123 19.59215 31.57977

Ước lượng đa thức Multinomial Logistic

Stata code: mlogit MUAHANG LUONG THUONG SOCON CPHI TKIEM

Và cho kết quả hồi quy đa thức như sau:

Multinomial logistic regression Number of obs     = 200
LR chi2(10)       = 294.27
Prob > chi2       = 0
Log likelihood = -72.400977 Pseudo R2         = 0.6702
MUAHANG       Coef.   Std. Err. z P>z     [95% Conf. Interval]
1
LUONG   -.7622969   .1947852 -3.91 0.000    -1.144069 -0.38052
THUONG   -.9585096   .2126212 -4.51 0.000    -1.375239 -0.54178
SOCON   -5.074204    1.05401 -4.81 0.000    -7.140026 -3.00838
CPHI   -.7591269   .1872164 -4.05 0.000    -1.126064 -0.39219
TKIEM   -.7687992   .2715327 -2.83 0.005    -1.300994 -0.2366
_cons    52.67935    8.02342 6.57 0.000     36.95374 68.40496
2
LUONG   -.1876503   .0724585 -2.59 0.010    -.3296663 -0.04563
THUONG   -.2440938   .0871473 -2.8 0.005    -.4148994 -0.07329
SOCON   -1.654672   .4641016 -3.57 0.000    -2.564295 -0.74505
CPHI   -.3015059   .0696625 -4.33 0.000    -.4380419 -0.16497
TKIEM   -.1977973   .1275779 -1.55 0.121    -.4478454 0.052251
_cons    18.37955   3.246945 5.66 0.000     12.01566 24.74345
3              (base outcome)

Nhận xét

Cùng một bộ dữ liệu, nếu chúng ta dùng phương pháp hồi quy khác nhau, thì sẽ có ra kết quả khác nhau.

Kết quả thực thực hiện trên Stata là quá đơn giản và nhanh chóng

Mỗi mục đích nghiên cứu khoa học khác nhau thì có kết quả khác nhau

Mỗi nghiên cứu định lượng khác nhau thì áp dụng mô hình định lượng khác nhau.

Giới thiệu dịch vụ

Nếu các bạn gặp khó khăn về số liệu không có ý nghĩa thống kê, các giả định của mô hình bị sai phạm, không đọc rõ được kết quả nghiên cứu, không thực hiện được phần mềm thống kê … Các bạn đừng ngần ngại hãy liên hệ ngay với chúng tôi, để được tư vấn và khắc phục nhanh chóng.

Bài viết mới

Có thể bạn thích bài viết này:

Trả lời

Email của bạn sẽ không được hiển thị công khai.