Phương pháp so sánh điểm xu hướng PSM ( propensity score matching), đây là một phương pháp hiện đại nhằm đánh giá một sự kiện hay một chính sách tác động lên nhóm quan sát. PSM thì được chạy trên nhiều phần mềm thống kê, trong hướng dẫn này chúng tôi hướng dẫn các bạn chạy so sánh điểm xu hướng trên phần mềm Stata.
PSM
propensity score matching
Phương pháp so sánh điểm xu hướng là gì ?
So sánh điểm xu hướng (PSM) là một phương pháp bán thực nghiệm , trong đó nhà nghiên cứu sử dụng các kỹ thuật thống kê để xây dựng một nhóm đối chứng nhân tạo bằng cách đối sánh từng đơn vị được xử lý với đơn vị không được xử lý có các đặc điểm tương tự. Sử dụng các kết quả phù hợp này, nhà nghiên cứu có thể ước tính tác động của một sự can thiệp. Đối sánh là một phương pháp hữu ích trong phân tích dữ liệu để ước tính tác động của một chương trình hoặc sự kiện mà nó không khả thi về mặt đạo đức hoặc hậu cần để lấy ngẫu nhiên .
Mục tiêu của PSM là gì ?
Phương pháp so sánh điểm xu hướng (PSM) là phương pháp xây dựng nhóm so sánh thống kê dựa trên mô hình xác suất tham gia can thiệp bằng các số liệu thống kê được quan sát. Đối tượng tham gia sau đó được so sánh dựa trên xác suất này, hay còn gọi là điểm xu hướng, với đối tượng không tham gia. Hiệu quả can thiệp bình quân của chương trình sau đó được tính toán bằng sai biệt trung vị trong kết quả giữa hai nhóm. Tính hợp lý của PSM phụ thuộc vào hai điều kiện:
- tính độc lập có điều kiện (tức là các yếu tố không được quan sát không ảnh hưởng đến tình trạng tham gia),
- hỗ trợ chung lớn hay sự trùng khớp trong điểm xu hướng giữa các mẫu đối tượng tham gia
và không tham gia.
Nhiều cách thức được sử dụng để so sánh giữa đối tượng tham gia và không tham gia dựa trên điểm xu hướng. Trong đó có các phương pháp so sánh cận gần nhất (NN), so sánh trong phạm vi và bán kính, so sánh phân tầng và giãn cách, so sánh hạt nhân và so sánh tuyến tính tại chỗ (LLM). Các phương pháp hồi quy dựa trên mẫu đối tượng
tham gia và không tham gia, sử dụng điểm xu hướng làm gia quyền, cho phép tính toán hiệu quả hơn.
Điểm mạnh khi phân tích so sánh điểm xu hướng
Về phần mình, PSM là một phương pháp hữu ích khi chỉ các đặc trưng được quan sát được cho là có ảnh hưởng đến tình trạng tham gia chương trình. Nhận định này có chính xác hay không lại phụ thuộc vào những đặc trưng riêng của bản thân chương trình, như trong cơ chế chọn mẫu cũng như mức tiếp nhận cá nhân đối với chương
trình.
Giả sử việc lựa chọn các đặc điểm được quan sát đủ mạnh để quyết định tham gia chương trình, các dữ liệu ban đầu về những đặc tính không đồng nhất trước khi có chương trình sẽ cho phép tồn tại xác suất tham gia dựa trên việc các đặc trưng được quan sát được xác định chính xác hơn. Có thể thực hiện một số kiểm tra để đánh giá
mức độ sai số lựa chọn hay tham gia trên các đặc trưng không được quan sát.
Ứng dụng của PSM
PSM dành cho các trường hợp suy luận nhân quả và sai lệch lựa chọn đơn giản trong các cơ sở không thực nghiệm , trong đó:
- một số đơn vị trong nhóm so sánh không điều trị có thể so sánh với các đơn vị điều trị; và
- việc lựa chọn một tập hợp con các đơn vị so sánh tương tự với đơn vị xử lý là rất khó vì các đơn vị phải được so sánh trên một tập hợp các đặc điểm tiền xử lý có chiều cao.
Trong đối sánh bình thường, các đặc điểm đơn lẻ để phân biệt nhóm điều trị và nhóm chứng được so khớp nhằm làm cho các nhóm giống nhau hơn. Nhưng nếu hai nhóm không có sự trùng lặp đáng kể, thì lỗi đáng kể có thể được tạo ra. Ví dụ: nếu chỉ các trường hợp xấu nhất từ nhóm “so sánh” chưa được điều trị được so sánh với chỉ các trường hợp tốt nhất từ nhóm điều trị , kết quả có thể là hồi quy về giá trị trung bình , điều này có thể làm cho nhóm so sánh trông đẹp hơn hoặc xấu hơn thực tế.
PSM sử dụng xác suất dự đoán của thành viên nhóm — ví dụ: điều trị so với nhóm kiểm soát — dựa trên các yếu tố dự báo quan sát được, thường thu được từ hồi quy logistic để tạo ra một nhóm phản thực tế . Điểm số xu hướng có thể được sử dụng để so khớp hoặc làm hiệp biến , một mình hoặc với các biến hoặc hiệp biến phù hợp khác.
Phân tích PSM trên Stata
Bước 1: Tính điểm xu hướng
Stata code: pscore MUAXE LUONG THUONG KETHON SOCON CPHI TKIEM, pscore(Diem) blockid(khoi) comsup
Ta có kết quả:
**************************************************** | |
Algorithm to estimate the propensity score | |
**************************************************** | |
The treatment is MUAXE | |
MUAXE Freq. Percent Cum. | |
0 130 65.00 65.00 | |
1 70 35.00 100.00 | |
Total 200 100.00 | |
Estimation of the propensity score | |
note: KETHON != 2 predicts failure perfectly | |
KETHON dropped and 100 obs not used | |
Iteration 0: log likelihood = -61.08643 | |
Iteration 1: log likelihood = -38.957541 | |
Iteration 2: log likelihood = -36.407574 | |
Iteration 3: log likelihood = -36.226706 | |
Iteration 4: log likelihood = -36.225238 | |
Iteration 5: log likelihood = -36.225237 | |
Probit regression Number of obs = | 100 |
LR chi2(5) = | 49.72 |
Prob > chi2 = | 0.0000 |
Log likelihood = -36.225237 Pseudo R2 = | 0.4070 |
MUAXE Coef. Std. Err. z P>z [95% Conf. | Interval] |
LUONG .0721664 .0447265 1.61 0.107 -.0154959 | .1598287 |
THUONG .1484812 .0593477 2.50 0.012 .0321618 | .2648006 |
SOCON .9366126 .3177535 2.95 0.003 .3138272 | 1.559398 |
CPHI .1607733 .045305 3.55 0.000 .0719771 | .2495694 |
TKIEM .0930821 .0817935 1.14 0.255 -.0672303 | .2533945 |
_cons -9.248502 1.854241 -4.99 0.000 -12.88275 | -5.614257 |
Note: the common support option has been selected | |
The region of common support is [.27866892, .99977345] | |
Description of the estimated propensity score | |
in region of common support | |
Estimated propensity score | |
Percentiles Smallest | |
1% .2786689 .2786689 | |
5% .3825784 .2855209 | |
10% .4143129 .3396803 Obs 86 | |
25% .6813809 .3623161 Sum of Wgt. 86 | |
50% .8866575 Mean .7895064 | |
Largest Std. Dev. .2149366 | |
75% .9691843 .9992306 | |
90% .995472 .9993941 Variance .0461977 | |
95% .9986731 .9994502 Skewness -.8512771 | |
99% .9997735 .9997735 Kurtosis 2.455538 | |
****************************************************** | |
Step 1: Identification of the optimal number of blocks | |
Use option detail if you want more detailed output | |
****************************************************** | |
The final number of blocks is 5 | |
This number of blocks ensures that the mean propensity score | |
is not different for treated and controls in each blocks | |
********************************************************** | |
Step 2: Test of balancing property of the propensity score | |
Use option detail if you want more detailed output | |
********************************************************** | |
The balancing property is satisfied | |
This table shows the inferior bound, the number of treated | |
and the number of controls for each block | |
Inferior | |
of block MUAXE | |
of pscore 0 1 Total | |
.2 2 5 7 | |
.4 7 5 12 | |
.6 5 13 18 | |
.8 2 47 49 | |
Total 16 70 86 | |
Note: the common support option has been selected | |
******************************************* | |
End of the algorithm to estimate the pscore | |
******************************************* | |
Kết quả thì nó hiện thị nhiều, mình thì không cần quan tâm đến nó.
Chỉ quan tâm: The balancing property is satisfied ( Thuộc tính đã cân bằng là OK)
Tính tác động
So sánh cận gần nhất:
Một trong những kỹ thuật so sánh được sử dụng thường xuyên nhất là so sánh NN, trong đó mỗi đơn vị can thiệp được so sánh với một đơn vị đối chiếu có điểm xu hướng gần nhất. Ta cũng có thể chọn các đối tượng gần nhất n để thực hiện so sánh (n = 5 thường được sử dụng). Việc đối chiếu có thể thực hiện dù có hay không có thay thế. Chẳng hạn, so sánh có thay thế có nghĩa là sử dụng cùng một đối tượng không tham gia để đối chiếu với nhiều đối tượng tham gia khác nhau.
Stata code: attnd LUONG MUAXE, pscore(Diem) comsup
ATT estimation with Nearest Neighbor Matching method |
(random draw version) |
Analytical standard errors |
n. treat. n. contr. ATT Std. Err. t |
70 11 -0.529 1.804 -0.293 |
Note: the numbers of treated and controls refer to actual |
nearest neighbour matches |
So sánh trong phạm vi hay bán kính:
Một vấn đề trong so sánh NN là sai biệt trong điểm xu hướng giữa một đối tượng tham gia và không tham gia gần nhất có thể vẫn còn rất cao. Tình huống này dẫn đến so sánh kém chất lượng và cần tránh bằng cách đặt ngưỡng hay mức “dung sai” trên khoảng cách điểm xu hướng tối đa (trong phạm vi). Như vậy, quy trình này sẽ chỉ là so sánh có thay So sánh điểm xu hướng thế giữa các điểm số xu hướng trong một phạm vi nhất định. Tuy nhiên, nếu số lượng người tham gia bị loại trừ cao thì sẽ có khả năng làm tăng sai số chọn mẫu.
Stata code: attr TKIEM MUAXE , pscore(Diem) radius(0.001) comsup
ATT estimation with the Radius Matching method | ||
Analytical standard errors | ||
n. treat. n. contr. ATT Std. Err. | t | |
3 3 0.667 1.106 | 0.603 | |
Note: the numbers of treated and controls refer | to | actual |
matches within radius | ||
So sánh phân tầng hay khoảng thời gian:
Quy trình này phân chia hỗ trợ chung thành nhiều tầng (hay khoảng thời gian) khác nhau và tính toán tác động của chương trình trong từng khoảng thời gian. Cụ thể, trong mỗi khoảng thời gian, hiệu quả của chương trình sẽ là sai biệt trung vị trong kết quả giữa các quan sát can thiệp và đối chứng. Bình quân gia quyền của các ước tính tác động theo khoảng thời gian này sẽ cho biết tác động chương trình chung, trong đó coi tỉ lệ đối tượng tham gia trong từng khoảng thời gian là gia quyền.
Stata code: atts THUONG MUAXE, pscore(Diem) blockid(khoi) comsup
ATT estimation with the Stratification method | |
Analytical standard errors | |
n. treat. n. contr. ATT Std. Err. | t |
70 16 0.312 0.539 | 0.578 |
So sánh hạt nhân và tuyến tính tại chỗ:
Một rủi ro trong các phương pháp vừa trình bày là ở chỗ chỉ có một nhóm nhỏ đối tượng không tham gia thỏa mãn được các tiêu chí trong phạm vi hỗ trợ chung và cho kết quả phản thực. những phương pháp tính toán không có số lượng tham số nhất định như so sánh hạt nhân và LLM sử dụng bình quân gia quyền của tất cả các đối tượng không tham gia để thành đối chiếu phản thực cho mỗi đối tượng tham gia.
Stata code: attk CPHI MUAXE , pscore(Diem) comsup bootstrap reps(50)
ATT estimation with the Kernel Matching method | |
n. treat. n. contr. ATT Std. Err. t | |
70 16 2.397 . . | |
Note: Analytical standard errors cannot be computed. Use | |
the bootstrap option to get bootstrapped standard errors. | |
Bootstrapping of standard errors | |
command: attk CPHI MUAXE , pscore(Diem) comsup bwidth(.06) | |
statistic: attk = r(attk) | |
Bootstrap statistics Number of obs = | 200 |
Replications = | 50 |
Variable Reps Observed Bias Std. Err. [95% Conf. Interval] | |
attk 50 2.397008 .171406 1.217545 -.0497412 4.843757 | (N) |
.0934947 4.522678 | (P) |
-.9656411 4.292766 | (BC) |
Note: N = normal | |
P = percentile | |
BC = bias-corrected | |
ATT estimation with the Kernel Matching method | |
Bootstrapped standard errors | |
n. treat. n. contr. ATT Std. Err. t | |
70 16 2.397 1.218 1.969 | |
Kiểm tra độ tin cây
Trong trường hợp này chúng tôi áp dụng cho phương pháp Cận gần nhất.
Stata code: nnmatch LUONG MUAXE THUONG CPHI TKIEM , tc(att) m(1)
Matching estimator: Average Treatment | Effect for the | Treated | |
Weighting matrix: inverse variance | Number of | obs = | 200 |
Number of | matches (m) = | 1 | |
LUONG Coef. Std. Err. | z P>z | [95% Conf. | Interval] |
SATT 2.221429 1.078648 | 2.06 0.039 | .1073168 | 4.33554 |
Matching variables: THUONG CPHI TKIEM | |||
Kết luận
Trong lúc nghiên cứu khoa học mà các biến trong dữ liệu:
- Không có ý nghĩa thống kê
- Khó đọc hiểu kết quả output
- Không có dữ liệu
- Không biết chạy trên phần mềm.
- …
Các bạn đừng ngần ngại hãy liên hệ ngay với chúng tôi để được tư vấn và khắc phục hiệu quả.
Có thể bạn thích bài viết này:
Micom test trong phân tích đa nhóm Multigroup Analysis (MGA)
Micom test trong phân tích đa nhóm của SmartPLS (Partial Least Squares Structural Equation Modeling), [...]
Th9
2 Lý do chọn đề tài: tính cấp thiết & ý nghĩa khoa học
Lý do chọn đề tài: tính cấp thiết & ý nghĩa khoa học, Viết phần [...]
Th9
Số liệu biến rời rạc Có thể bạn chưa biết
Biến rời rạc là loại biến số trong thống kê chỉ có thể nhận một [...]
Th9
Báo giá Phiếu khảo sát doanh nghiệp: online + trực tiếp
Báo giá, phiếu khảo sát doanh nghiệp. Khảo sát doanh nghiệp, còn gọi là “business [...]
Th9
Mô hình phân tích tài chính Fama & French 5 yếu tố
Mô hình phân tích tài chính Fama & French 5 yếu tố, sau khi mô [...]
Th9
gấp: Làm đẹp số liệu thứ cấp – Xử lý dữ liệu sơ cấp lấy liền
Chúng tôi https://chaydinhluong.com giới thiệu đến quý khách hàng dịch vụ làm đẹp số liệu [...]
Th9
[Đào tạo] khoá học xử lý số liệu & phân tích định lượng Stata SmartPLS SPSS R-Studio
Khoá học xử lý số liệu & phân tích định lượng Stata SmartPLS SPSS R-Studio [...]
Th5
Chỉnh sửa định dạng văn bản in ấn tài liệu lưu hành nội bộ Thủ Đức TpHCM
Chỉnh sửa định dạng văn bản in ấn tài liệu lưu hành nội bộ Thủ [...]
Th4