Phân tích thành phần chính PCA trên Stata

Phân tích các thành phần chính pca (viết tắt là PCA: PRINCIPAL COMPONENTS ANALYSIS) là một kỹ thuật giảm biến có nhiều điểm tương đồng với phân tích nhân tố khám pháMục đích của nó là giảm một tập hợp các biến lớn hơn thành một tập hợp các biến ‘nhân tạo’ nhỏ hơn, được gọi là ‘các thành phần chính’, chiếm phần lớn phương sai trong các biến ban đầu.

PHÂN TÍCH CÁC THÀNH PHẦN CHÍNH

PRINCIPAL COMPONENTS ANALYSIS

Phân tích thành phần chính là gì ?

PCA được sử dụng trong phân tích dữ liệu khám phá và tạo mô hình dự đoán . Nó thường được sử dụng để giảm kích thước bằng cách chiếu mỗi điểm dữ liệu lên chỉ một vài thành phần chính đầu tiên để thu được dữ liệu có chiều thấp hơn trong khi vẫn giữ được càng nhiều biến thể của dữ liệu càng tốt. Thành phần chính đầu tiên có thể được định nghĩa một cách tương đương như một hướng tối đa hóa phương sai của dữ liệu dự kiến.

Các i  thành phần chính thứ có thể được coi là một hướng trực giao với thành phần đầu tiên i-1các thành phần chính tối đa hóa phương sai của dữ liệu dự kiến.

Có một số cách sử dụng phổ biến cho PCA:

  • (a) bạn đã đo lường nhiều biến (ví dụ: 7-8 biến, được biểu thị dưới dạng 7-8 câu hỏi / câu hỏi trong bảng câu hỏi) và bạn tin rằng một số biến đang đo lường giống nhau cấu trúc cơ bản (ví dụ: trầm cảm). Nếu các biến này có tương quan cao, bạn có thể chỉ muốn đưa những biến đó vào thang đo lường của mình (ví dụ: bảng câu hỏi của bạn) mà bạn cảm thấy đại diện chặt chẽ nhất cho cấu trúc, loại bỏ những biến khác;
  • (b) bạn muốn tạo một thang đo mới (ví dụ: bảng câu hỏi), nhưng không chắc liệu tất cả các biến mà bạn đã đưa vào có đo lường cấu trúc mà bạn quan tâm hay không (ví dụ: trầm cảm). Do đó, bạn kiểm tra xem cấu trúc bạn đang đo có ‘tải’ lên tất cả (hoặc chỉ một số) biến của bạn hay không. Điều này giúp bạn hiểu liệu một số biến số bạn đã chọn không đại diện đầy đủ cho cấu trúc mà bạn quan tâm và có nên bị loại bỏ khỏi thang đo lường mới của bạn hay không;
  • (c) bạn muốn kiểm tra xem liệu một thang đo lường hiện có (ví dụ: bảng câu hỏi) có thể được rút ngắn để bao gồm ít mục hơn (ví dụ: câu hỏi / phát biểu) hay không, có lẽ vì những mục đó có thể thừa (ví dụ, nhiều hơn một mục có thể được đo lường cùng một cấu trúc) và / hoặc có thể có mong muốn tạo ra một thang đo lường có nhiều khả năng được hoàn thành hơn (nghĩa là tỷ lệ phản hồi có xu hướng cao hơn trong các bảng câu hỏi ngắn hơn). Đây chỉ là một số công dụng phổ biến của PCA. Cũng cần lưu ý rằng mặc dù PCA khác về mặt khái niệm với phân tích nhân tố, nhưng trong thực tế, nó thường được sử dụng thay thế cho phân tích nhân tố,

Trong hướng dẫn “bắt đầu nhanh” này, chúng tôi chỉ cho bạn cách thực hiện PCA bằng cách sử dụng Thống kê Stata, cũng như các bước bạn sẽ cần thực hiện để giải thích kết quả từ thử nghiệm này. Tuy nhiên, trước khi chúng tôi giới thiệu cho bạn quy trình này, bạn cần hiểu các giả định khác nhau mà dữ liệu của bạn phải đáp ứng để PCA cung cấp cho bạn một kết quả hợp lệ. Chúng ta sẽ thảo luận về những giả định này tiếp theo.

Các giả định về PCA

Khi bạn chọn phân tích dữ liệu của mình bằng PCA, một phần của quy trình bao gồm việc kiểm tra để đảm bảo rằng dữ liệu bạn muốn phân tích thực sự có thể được phân tích bằng PCA. Bạn cần phải làm điều này vì chỉ thích hợp sử dụng PCA nếu dữ liệu của bạn “vượt qua” bốn giả định được yêu cầu để PCA cung cấp cho bạn một kết quả hợp lệ. Trên thực tế, việc kiểm tra các giả định này yêu cầu bạn sử dụng Stata Statistics để thực hiện thêm một số thử nghiệm, cũng như suy nghĩ thêm một chút về dữ liệu của bạn, nhưng đây không phải là một nhiệm vụ khó khăn.

Trước khi chúng tôi giới thiệu cho bạn bốn giả định này, đừng ngạc nhiên nếu khi phân tích dữ liệu của riêng bạn bằng Thống kê Stata, một hoặc nhiều giả định này bị vi phạm (tức là không được đáp ứng). Điều này không có gì lạ khi làm việc với dữ liệu trong thế giới thực hơn là các ví dụ trong sách giáo khoa. Tuy nhiên, ngay cả khi dữ liệu của bạn không đạt các giả định nhất định, thường có một giải pháp để thử và khắc phục điều này. Đầu tiên, chúng ta hãy xem xét bốn giả định sau:

Giả định số 1:

Bạn có nhiều biến số cần được đo lường là biến liên tục (mặc dù các biến số thứ tự rất thường xuyên được sử dụng). Ví dụ về các biến liên tục (tức là các biến tỷ lệ hoặc khoảng thời gian ) bao gồm thời gian ôn tập (đo bằng giờ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100), cân nặng (đo bằng kg), v.v.

Ví dụ về biến thứ tựthường được sử dụng trong PCA bao gồm một loạt các thang đo Likert (ví dụ: thang điểm 7 từ ‘hoàn toàn đồng ý’ đến ‘rất không đồng ý’; thang điểm 5 từ ‘không bao giờ’ đến ‘luôn luôn’; thang điểm 7 điểm từ ‘không hoàn toàn’ đến ‘rất nhiều’; thang điểm 5 từ ‘không quan trọng’ đến ‘cực kỳ quan trọng’).

Giả định số 2:

Cần phải có một mối quan hệ tuyến tính giữa tất cả các biến. Lý do cho giả định này là PCA dựa trên hệ số tương quan Pearson, và như vậy, cần phải có mối quan hệ tuyến tính giữa các biến. Trong thực tế, giả định này hơi thoải mái (ngay cả khi không nên) với việc sử dụng dữ liệu thứ tự cho các biến. Mặc dù có thể kiểm tra độ tuyến tính bằng cách sử dụng biểu đồ phân tán ma trận, điều này thường được coi là quá mức cần thiết vì biểu đồ phân tán đôi khi có thể có hơn 500 mối quan hệ tuyến tính.

Do đó, bạn nên chọn ngẫu nhiên chỉ một vài mối quan hệ có thể có giữa các biến và kiểm tra chúng. Bạn có thể kiểm tra độ tuyến tính trong Thống kê Stata bằng cách sử dụng biểu đồ phân tán và nếu có các mối quan hệ phi tuyến tính, hãy thử và “biến đổi” chúng. Nếu bạn chọn nâng cấp lên nội dung nâng cao của chúng tôi, chúng tôi có hướng dẫn Thống kê Stata chỉ cho bạn cách kiểm tra độ tuyến tính bằng Thống kê Stata, cũng như cách thực hiện các phép biến đổi khi giả định này bị vi phạm. Bạn có thể tìm hiểu thêm về nội dung nâng cao của chúng tôi trên tính năng: Trang tổng quan .

Giả định  3:

Bạn phải có đủ mức độ lấy mẫu , điều này đơn giản có nghĩa là để PCA tạo ra kết quả đáng tin cậy, thì cần phải có kích thước mẫu đủ lớn. Nhiều quy tắc ngón tay cái khác nhau đã được đề xuất. Những điều này chủ yếu khác nhau tùy thuộc vào việc một kích thước mẫu tuyệt đối được đề xuất hay nếu một bội số của số lượng biến trong mẫu của bạn được sử dụng. Nói chung, tối thiểu 150 trường hợp, hoặc 5 đến 10 trường hợp cho mỗi biến, được khuyến nghị làm cỡ mẫu tối thiểu. Có một số phương pháp để phát hiện mức độ thích hợp của việc lấy mẫu:

  • (1) Phép đo mức độ thích hợp của việc lấy mẫu của Kaiser-Meyer-Olkin (KMO) cho tập dữ liệu tổng thể; và
  • (2) thước đo KMO cho từng biến riêng lẻ.

Trong thủ tục Thống kê Stata ở phần sau của hướng dẫn này, chúng tôi sẽ chỉ cho bạn các tùy chọn cần chọn trong Thống kê Stata để kiểm tra tính thích hợp của việc lấy mẫu. Nếu bạn không chắc chắn về cách giải thích kết quả từ các thử nghiệm này, chúng tôi sẽ hiển thị cho bạn trong hướng dẫn PCA nâng cao, là một phần của nội dung nâng cao của chúng tôi (một lần nữa, bạn có thể tìm hiểu thêm về nội dung nâng cao của chúng tôi trên các Tính năng: trang Tổng quan ).

Giả định  4:

Dữ liệu của bạn phải phù hợp để giảm dữ liệu . Một cách hiệu quả, bạn cần có mối tương quan đầy đủ giữa các biến để các biến được giảm xuống một số thành phần nhỏ hơn. Phương pháp được Stata Statistics sử dụng để phát hiện điều này là phép thử của Bartlett về độ cầu. Phần diễn giải về bài kiểm tra này được cung cấp như một phần của hướng dẫn PCA nâng cao của chúng tôi.

Giả định số 5:

Không được có các giá trị ngoại lệ đáng kể . Các yếu tố ngoại lai rất quan trọng vì những yếu tố này có thể có ảnh hưởng không cân đối đến kết quả của bạn. Stata Statistics khuyến nghị xác định các giá trị ngoại lệ khi điểm thành phần lớn hơn 3 độ lệch chuẩn so với giá trị trung bình.

Một lần nữa, trong quy trình Thống kê Stata ở phần sau của hướng dẫn này, chúng tôi sẽ chỉ cho bạn các tùy chọn cần chọn trong Thống kê Stata để kiểm tra các giá trị ngoại lệ. Nếu bạn không chắc chắn về cách diễn giải kết quả Thống kê Stata mà bạn cần kiểm tra để kiểm tra các ngoại lệ, chúng tôi sẽ chỉ cho bạn trong hướng dẫn PCA nâng cao của chúng tôi.

Thực nghiệm trên phần mềm Stata

Chạy phân tích PCA

Stata code: pca LUONG THUONG CPHI TKIEM SOCON

Principal components/correlation Number of obs = 200
Number of comp. = 5
Trace = 5
Rotation: (unrotated = principal) Rho = 1.0000
Component Eigenvalue Difference Proportion Cumulative
Comp1 2.61246 1.87734 0.5225 0.5225
Comp2 .735113 .0778084 0.1470 0.6695
Comp3 .657305 .140993 0.1315 0.8010
Comp4 .516312 .0374974 0.1033 0.9042
Comp5 .478814 . 0.0958 1.0000
Principal components (eigenvectors)
Variable Comp1 Comp2 Comp3 Comp4 Comp5 Unexplained
LUONG 0.4548 -0.0457 -0.6109 0.5812 -0.2830 0
THUONG 0.4871 -0.0127 0.0594 -0.6186 -0.6135 0
CPHI 0.4823 -0.0745 -0.3204 -0.3675 0.7240 0
TKIEM 0.3938 0.7906 0.3972 0.2243 0.1086 0
SOCON 0.4101 -0.6059 0.6024 0.3070 0.0869 0

Một là bạn đọc kết quả trên, mình thì thường xem plot cho nhanh

Phân tích thành phân chính pca trên stata
Kết quả phân tích thành phần chính

Từ hình trên chúng ta nhận ra rằng chỉ có 1 nhân tố chính được hình thành .

Kiểm định cần thiết

Kiểm định KMO

Đây là kiểm định sự phù hợp với việc lấy mẫu.

Stata code: estat kmo

Kaiser-Meyer-Olkin measure of sampling adequacy
Variable kmo
LUONG 0.8172
THUONG 0.7952
CPHI 0.7953
TKIEM 0.8525
SOCON 0.8447
Overall 0.8155

KMO = 0.8 > 0.5 = > Mẫu quan sát trong mô hình là hợp lệ.

Sự tương quan với nhau giữ các thành phần

Stata code: factortest LUONG THUONG CPHI TKIEM SOCON

Determinant of the correlation matrix
Det = 0.312
Bartlett test of sphericity
Chi-square = 228.831
Degrees of freedom = 10
p-value = 0.000
H0: variables are not intercorrelated
Kaiser-Meyer-Olkin Measure of Sampling Adequacy
KMO = 0.815

Ta có Pvalue <0.05 => Các thành phần thì có tương quan nhau.

Sau 2 kiểm định trên, thì thành phần chính được hình thành là dùng được.

Bài viết mới

Có thể bạn thích bài viết này:

Trả lời

Email của bạn sẽ không được hiển thị công khai.