Kiểm định hồi quy logistic nâng cao cho nghiên cứu viên

Kiểm định hồi quy logistic nâng cao cho nghiên cứu viên, trong nghiên cứu thông thường chúng ta thường bỏ qua những kiểm định ràng buột khi áp dụng mô hình định lượng hồi quy logistic vào trong nghiên cứu định lượng, chúng ta thường nghĩ nó không quan trọng, thực tế là điều ngược lại.

Trong bài viết này chúng tôi hướng dẫn đến các bạn những kiểm định (test) mạnh mẽ, giúp cho kết quả nghiên cứu của các bạn  tăng độ tin cậy lên. Chúng tôi đã có bài thực hiện về ước lượng hồi quy logit trên các phần mềm phân tích thống kê chuyên dụng, các bạn có thể xem lại.

HỒI QUY LOGISTIC

Hồi quy Logistic là gì ?

Hồi quy logistic là quá trình mô hình hóa xác suất của một kết quả cụ thể cho các biến đầu vào. Các mô hình hồi quy logistic phổ biến nhất tạo ra một kết quả nhị phân có thể nhận hai giá trị như lành mạnh / không lành mạnh, có / không, đúng / sai, v.v. Hồi quy logistic đa thức có thể mô hình hóa nhiều hơn hai kết quả có thể có.

Hồi quy logistic được sử dụng để làm gì?

Hồi quy logistic thường được sử dụng để hiểu mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập. Các trường hợp sử dụng điển hình cho hồi quy logistic có kết quả ‘có / không’ hoặc ‘đạt / không đạt’.

Sự khác biệt giữa hồi quy logistic và hồi quy tuyến tính là gì?

Hồi quy logistic được sử dụng để lấy giá trị của một biến phụ thuộc với kết quả nhị phân. Hồi quy tuyến tính cũng có một biến phụ thuộc và kết quả có thể phụ thuộc vào một hoặc nhiều biến độc lập.

Nhưng sự khác biệt chính là kết quả thường là một loạt các giá trị. Một trường hợp sử dụng ví dụ của hồi quy tuyến tính là dự đoán một loạt các giá trị trong tương lai của một biến trong một phạm vi dựa trên một phạm vi của (các) biến độc lập đầu vào. Người ta thường sử dụng biểu đồ để biểu diễn các dự đoán bằng hồi quy tuyến tính.

Ưu điểm của hồi quy logistic là gì?

Hồi quy logistic dễ thực hiện, diễn giải và đào tạo. Kỹ thuật hồi quy logistic đã xuất hiện từ những năm 1970, vì vậy các nhà khoa học dữ liệu có thể dễ dàng sử dụng lại một triển khai mạnh mẽ từ các kho lưu trữ mã nguồn mở hoặc bất kỳ bộ công cụ thương mại nào.

Vì nó là một trong những thuật toán được sử dụng rộng rãi nhất trong học máy, nên việc huấn luyện dữ liệu với nó và thực hiện các công việc học máy khác trên đó cũng rất thuận tiện, chẳng hạn như triển khai nó, theo dõi hiệu suất mô hình và lặp lại trên nó.

Hồi quy logistic được sử dụng ở đâu?

Hồi quy logistic được sử dụng để dự đoán biến phụ thuộc phân loại. Nó được sử dụng khi dự đoán mang tính phân loại, ví dụ: có hoặc không, đúng hoặc sai, 0 hoặc 1.

Những kiểm định thông thường

Những thống tin này thường được cho ra trong output của kết quả hồi quy logistic, như trong hình:

Kết quả hồi quy Logistic
Kết quả hồi quy có R2
  1. Pseudo R2: Mức độ giải thích của mô hình là 67.46%
  2. Prob > Chi2: Mức độ phù hợp của mô hình, tức là các biến độc lập xây dựng phù hợp để giải thích cho biến phụ thuộc khi Pvalue < 0.05

Trên đây là 2 test để kiểm định độ tin cậy của kết quả mô hình hồi quy logistic, nhưng những kiểm định này là cơ bản và chưa có độ tin cậy cao, vì vậy chúng ta cần kiểm định những test có độ tin cậy cao hơn.

Test hồi quy logistic nâng cao

Mức độ ước lượng chính xác của dữ liệu

Với kiểm tra này thì cho chúng ta biến rằng, dữ liệu đưa vào mô hình có được sử dụng để ước lượng chính xác hay không ?

hệ số ROC
Ước lượng hệ số dưới ROC

Ta có hệ số đường cong  vùng dưới của ROC là 0.9740, tức là chúng ta có 97.4 % lượng quan sát trong dữ liệu dùng để ước lượng mô hình, hệ số này thì chúng ta nên cho > 70%, nếu thấp quá điều này chứng tỏ dữ liệu chúng ta khôgn có độ tin cậy.

Sự phù hợp dữ liệu cho mô hình

Kiểm định Hosmer – Lemeshow là một kiểm định thống kê về mức độ phù hợp đối với các mô hình hồi quy logistic . Nó được sử dụng thường xuyên trong các mô hình dự báo rủi ro . Kiểm tra đánh giá xem liệu tỷ lệ dữ liệu quan sát có khớp với tỷ lệ sự kiện dự kiến ​​trong các nhóm con của quan sát của mô hình hay không.

Bài kiểm tra Hosmer – Lemeshow xác định cụ thể các nhóm con dưới dạng các phân đoạn của các giá trị rủi ro phù hợp. Các mô hình mà tỷ lệ sự kiện được mong đợi và quan sát được trong các nhóm con là tương tự nhau được gọi là đã được hiệu chỉnh tốt.

Tóm lại, Kiểm định Hosmer-Lemeshow (kiểm tra HL) là một kiểm tra phù hợp tốt cho hồi quy logistic, đặc biệt là đối với các mô hình dự báo rủi ro. Kiểm tra mức độ phù hợp cho bạn biết dữ liệu của bạn phù hợp với mô hình như thế nào. Cụ thể, kiểm tra HL tính toán xem tỷ lệ sự kiện quan sát được có khớp với tỷ lệ sự kiện dự kiến ​​trong các phân nhóm dân số hay không.

Ta đặt giả định thống kê như sau:

  • H0: Dữ liệu của bạn phù hợp với sự kiện  dự báo mô hình
  • Ha: Dữ liệu của bạn không phù hợp với sự kiện  dự báo mô hình

Thông thường ta ước lượng và có kết quả như sau:

number of observations = 270

number of groups = 10
Hosmer-Lemeshow chi2(8) = 1495.52
Prob > chi2 = 0.0000

Ta có Pvalue < 0.05 = > Dữ liệu mô hình không phù hợp với sự kiện

Song song với kiểm định Hosmer-Lemeshow, thì cũng có kiểm định của Pearson Chi2, kiểm định này cũng cho kết quả kiểm định tương tự nhưng khác tí về nội dung.

Kiểm tra  sự vừa vặn của dữ liệu

Kiểm định Pearson Chi2 của phép thử độ vừa vặn cung cấp một phương pháp để kiểm tra xem tỷ lệ quan sát được và tỷ lệ mong đợi có khác biệt đáng kể hay không. Phương pháp này hữu ích nếu có nhiều quan sát cho mỗi giá trị của (các) biến x.

Với giả định như sau:

  • H0: Dữ liệu quan sát là như dữ liệu kỳ vọng
  • Ha: Dữ liệu quan sát là không như dữ liệu kỳ vọng

Kết quả ta được

number of observations = 270
number of covariate patterns = 270
Pearson chi2(263) = 107284.38
Prob > chi2 = 0.0000

Ta có, Pvalue < 0.05, nên dữ liệu quan sát không như kỳ vọng.

Mức độ chính xác của ước lượng hồi quy logistic

ước lượng chính xác dự liệu
Biểu đồ SENS & SPEC

Trong kiểm định này chúng ta phải để ý 2 chỉ số: Specificity và Sensitivity

  • SPE: Tỉ lệ ước lượng chính xác cho dữ liệu là dữ liệu đối chứng
  • SEN: Tỉ lệ ước lượng chính xác cho dữ liệu là dữ liệu thực nghiệm

Logistic model for QDINH

Classified + if predicted Pr(D) >= .5
True D defined as QDINH != 0

Sensitivity Pr( + D) 92.44%
Specificity Pr( -~D) 94.90%
Positive predictive value Pr( D +) 96.95%
Negative predictive value Pr(~D -) 87.74%

False + rate for true ~D Pr( +~D) 5.10%
False – rate for true D Pr( – D) 7.56%
False + rate for classified + Pr(~D +) 3.05%
False – rate for classified – Pr( D -) 12.26%

Correctly classified 93.33%

Từ kết quả trên trên, ta độc hiểu kiểm định như sau: Khi dữ liệu thực nghiệm thì chúng ta ước lượng chính xác 92.44 %, Còn dữ liệu đối chứng thì chúng ta ước lượng chính xác 94.9 %. ( Khi phân tích chúng ta nên cho độ chính xác > 70% để đảm bảo tin cậy cho kết quả hồi quy logistic.)

Kết luận test hồi quy Logistic

Trên đây chúng tôi đã khái quát những kiểm định thương thông và những kiểm định nâng cao cho mô hình hồi quy logit, ngoài ra còn nhiều kiểm định nữa, mà trong bài viết này chúng tôi chưa tiện để nêu ra hết. Nếu các bạn có vấn đề “khúc mắc” thì đừng ngần ngại hãy liên hệ ngay với chúng tôi, để được tư vấn và giải quyết kịp thời.

Bài viết mới

Có thể bạn thích bài viết này:

Trả lời

Email của bạn sẽ không được hiển thị công khai.