Xu Hướng 12/2023 # Hướng Dẫn Thực Hành Cách Phân Tích Hồi Quy Đa Biến # Top 13 Xem Nhiều

Bạn đang xem bài viết Hướng Dẫn Thực Hành Cách Phân Tích Hồi Quy Đa Biến được cập nhật mới nhất tháng 12 năm 2023 trên website Channuoithuy.edu.vn. Hy vọng những thông tin mà chúng tôi đã chia sẻ là hữu ích với bạn. Nếu nội dung hay, ý nghĩa bạn hãy chia sẻ với bạn bè của mình và luôn theo dõi, ủng hộ chúng tôi để cập nhật những thông tin mới nhất.

Nhóm MBA Bách Khoa hướng dẫn thực hành cách phân tích hồi quy đa biến SPSS. Đồng thời giải thích chi tiết ý nghĩa của kết quả hồi quy

Tập tin thực hành có thể lấy ở đây https://phantichspss.com/filefordownload/phantichspss.sav

Thực hành cách phân tích hồi quy đa biến

Chọn nhân tố độc lập và phụ thuộc vào các ô bên phải. Cụ thể bài ví dụ này có 6 nhân tố độc lập TINCAY, DAPUNG, DAMBAO, CAMTHONG, HUUHINH, MINHBACH sẽ được đưa vào ô Independent(s) và 1 nhân tố phụ thuộc HAILONG sẽ được đưa vào ô Dependent. ( đưa vào ô bằng cách bấm chọn biến và ấn nút mũi tên)

Xong bấm vào Statistics chọn Collinearity diagnostics ( để tính ra hệ số VIF – hệ số phóng đại phương sai- để đánh giá hiện tượng đa cộng tuyến)

Xong bấm OK, kết quả sẽ ra như sau:

Cách giải thích kết quả hồi quy đa biến SPSS

Nhìn vào Bảng 1 hình trên, dùng để đánh giá độ phù hợp của mô hình hồi quy đa biến, hệ số R bình phương hiệu chỉnh Adjusted R Square là 0.609. Nghĩa là 60.9% biến thiên của biến phụ thuộc HÀI LÒNG được giải thích bởi 6 nhân tố độc lập. Điều này cho thấy mô hình hồi quy tuyến tính này phù hợp với tập dữ liệu của mẫu ở mức 60.9%, tức là các biến độc lập giải thích được 60.9% biến thiên của biến phụ thuộc sự HÀI LÒNG.

Nhìn vào Bảng 2 hình trên, kiểm định giả thuyết về độ phù hợp với tổng thể của mô hình, giá trị F=26.746 với sig.=0.000 <5%. Chứng tỏ R bình phương của tổng thể khác 0. Đồng nghĩa với việc mô hình hồi quy tuyến tính xây dựng được là phù hợp với tổng thể (chi tiết hơn là R bình phương tổng thể ta không thể tính cụ thể được, nhưng ta biết chắc chắn sẽ khác 0, mà khác 0 thì chứng tỏ là các biến độc lập có tác động đến biến phụ thuộc)

Phần nâng cao: kiểm tra các giả định hồi quy

Mô hình hồi quy tuyến tính bằng phương pháp OSL được thực hiện với một số giả định và mô hình chỉ thực sự có ý nghĩa khi các giả định này được đảm bảo. Do vậy để đảm bảo cho độ tin cậy của mô hình, việc dò tìm sự vi phạm các giả định là cần thiết. Giả định đa cộng tuyến đã đề cập ở trên, phần này sẽ làm về giả định phân phối chuẩn của phần dư và giả định liên hệ tuyến tính.

Trong bảng hồi quy, nhấn vào nút Plots như hình bên dưới. Đưa giá trị *zresid vào ô Y, *zpred vào ô X để ra được biểu đồ *zresid by *zpred Scatterplot. Check vào Histogram và Normal Probability Plot để ra được biểu đồ Histogram và Normal P-P Plot

Kết quả hồi quy sẽ có thêm 3 biểu đồ sau.

1. Biều đồ histogram: giả định phân phối chuẩn của phần dư

Nhìn vào đây ta thấy phần dư chuẩn hóa phân bố theo hình dạng của phân phối chuẩn. Có một đường cong hình chuông trên hình là đường phân phối chuẩn, ta thấy biểu đồ tần số histogram tương ứng với đường cong hình chuông đó. Thêm nữa, giá trị trung bình mean là -1.15E-15 xấp xỉ =0, và độ lệch chuẩn bằng 0.969 xấp xỉ =1 càng khẳng định thêm phần dư chuẩn hóa tuân theo phân phối chuẩn. (Lưu ý về mặt lý thuyết, phân phối chuẩn là phân phối có trung bình =0 và phương sai bằng 1)

2. Biều đồ Normal P-P Plot of Regression Standardized Residual : giả định phân phối chuẩn của phần dư

Xem biểu đồ Normal P-P Plot bên dưới, các trị số quan sát và trị số mong đợi đều nằm gần trên đường chéo chứng tỏ phần dư chuẩn hóa có phân phối chuẩn. Kiểm định bằng Biểu đồ P- P Plot thể hiện những giá trị của các điểm phân vị của phân phối của biến theo các phân vị của phân phối chuẩn. Quan sát mức độ các điểm thực tế, tập trung sát đường thẳng kỳ vọng, cho thấy tập dữ liệu nghiên cứu là tốt, phần dư chuẩn hóa có phân phối gần sát phân phối chuẩn

3. Biều đồ Scatterplot :giả định liên hệ tuyến tính

Về giả định liên hệ tuyến tính, phương pháp được sử dụng là biểu đồ phân tán Scatterplot. Nhìn vào biểu đồ ta thấy phần dư chuẩn hóa (Regression Standardized Residual) không thay đổi theo một trật tự nào đối với giá trị dự đoán chuẩn hóa (Regression Standardized Predicted Value). Do đó giả định về liên hệ tuyến tính không bị vi phạm. Điều này có nghĩa là như thế này: giá trị dự đoán chuẩn hóa chính là giá trị chuẩn hóa của biến phụ thuộc, còn phần dư chuẩn hóa là giá trị chuẩn hóa của phần dư. Ta thấy biến phụ thuộc không có liên hệ gì với lại phần dư.

Các ghi chú cần thiết cho việc chạy hồi quy SPSS

Các nhân tố được trích ra trong phân tích nhân tố được sử dụng cho phân tích hồi quy đa biến để kiểm định mô hình nghiên cứu và các giả thuyết kèm theo. Các kiểm định giả thuyết thống kê đều áp dụng mức ý nghĩa là 5%. Phương pháp tạo ra nhân số đại diện của các nhân tố ở đây: https://phantichspss.com/cach-tinh-gia-tri-nhan-so-dai-dien-cho-nhan-to-sau-khi-phan-tich-efa.html

-Xử lý/ hiệu chỉnh số liệu khảo sát để chạy ra kết quả phân tích nhân tố hội tụ,phân tích hồi quy hồi quy có ý nghĩa thống kê. – Tư vấn mô hình/bảng câu hỏi/ traning trực tiếp về phân tích hồi quy, nhân tố, cronbach alpha… trong SPSS, và mô hình SEM, CFA, AMOS

Phân Tích Và Đọc Kết Quả Hồi Quy Đa Biến Trong Spss

– Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó phản ánh mức độ ảnh hưởng của các biến độc lập lên biến phụ thuộc. Cụ thể trong trường hợp này, 6 biến độc lập đưa vào ảnh hưởng 67.2% sự thay đổi của biến phụ thuộc, còn lại 32.8% là do các biến ngoài mô hình và sai số ngẫu nhiên .

Xây dựng xong một mô hình hồi quy đa biến, vấn đề quan tâm đầu tiên của bạn phải là xem xét độ phù hợp của mô hình đối với tập dữ liệu qua giá trị Adjusted R Square (hoặc R Square) như đã trình bày ở mục 1. Nhưng cần nhớ rằng, sự phù hợp này mới chỉ thể hiện giữa mô hình bạn xây dựng được với tập dữ liệu là MẪU NGHIÊN CỨU.

Tổng thể rất lớn, chúng ta không thể khảo sát hết toàn bộ, nên thường trong nghiên cứu, chúng ta chỉ chọn ra một lượng mẫu giới hạn để tiến hành điều tra, từ đó suy ra tính chất chung của tổng thể. Mục đích của kiểm định F trong bảng ANOVA chính là để kiểm tra xem mô hình hồi quy tuyến tính này có suy rộng và áp dụng được cho tổng thể hay không.

Cụ thể trong trường hợp này, giá trị sig của kiểm định F là 0.000 < 0.05. Như vậy, mô hình hồi quy tuyến tính xây dựng được phù hợp với tổng thể .

3. Bảng Coefficients

Đầu tiên là giá trị Sig kiểm định t từng biến độc lập, sig nhỏ hơn hoặc bằng 0.05 có nghĩa là biến đó có ý nghĩa trong mô hình, ngược lại sig lớn hơn 0.05, biến độc lập đó cần được loại bỏ.

Tiếp theo là hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy, biến độc lập nào có Beta lớn nhất thì biến đó ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc. Do đó khi đề xuất giải pháp, các bạn nên chú trọng nhiều vào các nhân tố có Beta lớn. Nếu hệ số Beta âm nghĩa là biến đó tác động nghịch, hệ số Beta dương, biến đó tác động thuận. Khi so sánh thứ tự độ lớn, chúng ta xét giá trị tuyệt đối của hệ số Beta.

Cuối cùng là VIF, giá trị này dùng để kiểm tra hiện tượng đa cộng tuyến. Theo lý thuyết nhiều tài liệu viết, VIF < 10 sẽ không có hiện tượng đa cộng tuyến. Tuy nhiên trên thực tế với các đề tài nghiên cứu có mô hình + bảng câu hỏi sử dụng thang đo Likert thì VIF < 2 sẽ không có đa cộng tuyến, trường hợp hệ số này lớn hơn hoặc bằng 2, khả năng cao đang có sự đa cộng tuyến giữa các biến độc lập. Để hiểu rõ hơn về nguyên nhân, dấu hiệu nhận biết và giải pháp khắc phục đa cộng tuyến, các bạn có thể xem qua bài viết: Đa cộng tuyến: Nguyên nhân, dấu hiệu nhận biết và cách khắc phục. Với dữ liệu mình đang chạy, như các bạn thấy sig hệ số hồi quy của các biến độc lập đều nhỏ hơn hoặc bằng 0.05, do đó các biến độc lập này đều có ý nghĩa giải thích cho biến phụ thuộc, không biến nào bị loại bỏ. Hệ số VIF nhỏ hơn 2 do vậy không có đa cộng tuyến xảy ra .

Riêng cột Tolerance, các bạn sẽ thấy một số bài nghiên cứu, tài liệu sử dụng hệ số này để kiểm tra đa cộng tuyến. Nhưng ở đây mình không dùng, bởi vì hệ số này là nghịch đảo của VIF, nên các bạn có thể sử dụng 1 trong 2, cái nào cũng được, thường mọi người hay dùng VIF hơn.

Như vậy phương trình hồi quy chuẩn hóa sẽ là:

F_YD = 0.317*F_NT + 0.414*F_NTi + 0.351 *F_KSD

+ 0.251*F_DM + 0.365*F_KST + 0.242*F_GT

4. Biểu đồ tần số phần dư chuẩn hóa Histogram

Từ biểu đồ ta thấy được, một đường cong phân phối chuẩn được đặt chồng lên biểu đồ tần số. Đường cong này có dạng hình chuông, phù hợp với dạng đồ thị của phân phối chuẩn. Giá trị trung bình Mean gần bằng 0, độ lệch chuẩn là 0.976 gần bằng 1, như vậy có thể nói, phân phối phần dư xấp xỉ chuẩn. Do đó, có thể kết luận rằng: Giả thiết phân phối chuẩn của phần dư không bị vi phạm.

5. Biểu đồ phần dư chuẩn hóa Normal P-P Plot

Như mình đã đề cập ở mục 4, ngoài cách kiểm tra bằng biểu đồ Histogram, thì P-P Plot cũng là một dạng biểu đồ được sử dụng phổ biến giúp nhận diện sự vi phạm giả định phần dư chuẩn hóa.

Với P-P Plot (hoặc bạn có thể dùng Q-Q Plot, 2 đồ thị này không khác nhau nhiều), các điểm phân vị trong phân phối của phần dư sẽ tập trung thành một đường chéo nếu phần dư có phân phối chuẩn. Hay nói một cách đơn giản, dễ hiểu, các bạn nhìn vào đồ thị này, các chấm tròn tập trung thành dạng một đường chéo thì sẽ không vi phạm giả định hồi quy về phân phối chuẩn phần dư.

Cụ thể với dữ liệu mình đang sử dụng, các điểm phân vị trong phân phối của phần dư tập trung thành 1 đường chéo, như vậy, giả định phân phối chuẩn của phần dư không bị vi phạm .

6. Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính

Biểu đồ phân tán Scatter Plot giữa các phần dư chuẩn hóa và giá trị dự đoán chuẩn hóa giúp chúng ta dò tìm xem, dữ liệu hiện tại có vi phạm giả định liên hệ tuyến tính hay không. Trong bài viết này, mình biểu diễn giá trị phần dư chuẩn hóa (Standardized Residual) ở trục hoành và giá trị dự đoán chuẩn hóa (Predicted Value) ở trục tung. Các bạn phải thực sự chú ý chỗ này, bởi vì có nhiều tài liệu, sách biểu diễn ngược lại với mình nên khi nhận xét sẽ có vài điểm thay đổi giữa mỗi tác giả khác nhau.

Kết quả đồ thị xuất ra, các điểm phân bố của phần dư nếu có các dạng: đồ thị Parabol, đồ thị Cubic,.. hay các dạng đồ thị khác không phải đường thẳng thì dữ liệu của bạn đã vi phạm giả định liên hệ tuyến tính. Nếu giả định quan hệ tuyến tính được thỏa mãn thì phần dư sẽ dao dộng xung quanh đường tung độ 0 và không phân tán đi quá xa.

Cụ thể với tập dữ liệu mình đang sử dụng, phần dư chuẩn hóa phân bổ tập trung xunh quanh đường tung độ 0, do vậy giả định quan hệ tuyến tính không bị vi phạm .

Từ khóa: hồi quy trong spss, hồi quy đa biến spss, phân tích hồi quy spss, hồi quy tuyến tính bội spss, đọc kết quả hồi quy spss, cách chạy hồi quy bội spss

Phân Tích Hồi Quy Là Gì?

Phân tích hồi quy (regression analysis) là kỹ thuật thống kê dùng để ước lượng phương trình phù hợp nhất với các tập hợp kết quả quan sát của biến phụ thuộc và biến độc lập. Nó cho phép đạt được kết quả ước lượng tốt nhất về mối quan hệ chân thực giữa các biến số. Từ phương trình ước lượng được này, người ta có thể dự báo về biến phụ thuộc (chưa biết) dựa vào giá trị cho trước của biến độc lập (đã biết).

Hãy lấy ví dụ đơn giản nhất về một phương trình tuyến với một biến độc lập và một biến phụ thuộc, chẳng hạn thu nhập sử dụng và chi tiêu cho tiêu dùng. Vấn đề đặt ra là phải vẽ được đường thẳng phù hợp nhất với tập hợp số liệu bao gồm các cặp kết quả quan sát về thu nhập (Y) và tiêu dùng (C).

Hình trên biểu thị tập hợp các kết quả quan sát như thế dưới dạng đồ thị và chúng ta phải tìm phương trình của đường thẳng đó với điều kiện nó phù hợp nhất với số lượng mà chúng ta thu thập được, vì một đường như vậy sẽ đem lại kết quả dự báo tốt nhất cho biến phụ thuộc. Đường thẳng phù hợp nhất với số liệu phải được lựa chọn sao cho giá trị của tổng bình phương các độ lệch (khoảng cách) theo phương thẳng đứng giữa các điểm và đường thẳng là nhỏ nhất. Phương pháp bình phương nhỏ nhất thông thường này được ứng dụng trong hầu hết các phân tích hồi quy. Tính phù hợp của đường hồi quy với các kết quả quan sát mẫu được phản ánh bằng hệ số tương quan.

Đồ thị ở hình trên có thể mô tả bằng phương trình tuyến tính có dạng:

C = C¯ + cY

trong đó C¯ và c là hệ số của phương trình – con số ước tính dựa trên các quan sát đơn lẻ rút ra từ các tham số chân thực tế của tổng thể. Những hẳng số C¯ và c thu được bằng phương pháp bình phương nhỏ nhất thông thường này được gọi là hệ số hồi quy ước lượng được. Khi đã có giá trị bằng số của chúng, người ta sử dụng chúng để dự báo giá trị của biến phụ thuộc C khi biết giá trị của biến độc lập Y.

Ví dụ, nếu hệ số hồi quy ước lượng được của C¯ và c lần lượt là 500 và 0.7, phương trình hồi quy sẽ là C = 500 + 0.7Y, và chúng ta có thể suy ra rằng, nếu thu nhập bằng 10 000 đồng, mức chi tiêu cho tiêu dùng sẽ bằng :

C = 500 + 0.7Y = 500 + 0.7 x 10000 = 7500

Hệ số hồi quy phản ánh độ dốc của đường hồi quy tuyến tính c có ý nghĩa đặc biệt quan trọng trong kinh tế học, vì nó cho thấy sự thay đổi của biến phụ thuộc – trong trường hợp này là biến tiêu dùng – khi có sự thay đổi bằng một đơn vị của biến độc lập – trong trường hợp này là thu nhập. Ví dụ, giá trị của c bằng 0.7 cho thấy người tiêu dùng sẽ chi 70% thu nhập sử dụng tăng thêm cho mục đích tiêu dùng.

Phương trình hồi quy không đem lại dự báo chính xác về biến phụ thuộc khi biết giá trị của biến độc lập. Lý do là các hệ số hồi quy ước lượng được từ kết quả quan sát mẫu chỉ là con số ước lượng tốt nhất cho các tham số chân thực của tổng thể, vì vậy chúng phụ thuộc vào những biến thiên ngẫu nhiên. Kết quả là có thể thiết lập một phân phối có điều kiện để cho các giá trị có khả năng xuất hiện của biến phụ thuộc C do phương trình hồi quy dự báo cho một giá trị cho trước của biến độc lập Y. Độ lệch tiêu chuẩn của phân phối có điều kiện này là chỉ báo về các giới hạn mà chúng ta hy vọng rằng chỉ tiêu cho tiêu dùng sẽ rơi vào đó với một mức thu nhập cho trước. Vấn đề này được phản ánh trong đại lượng thống kê có tên là sai số chuẩn của ước lượng – đại lượng biểu thị các giới hạn ước lượng được mà trong đó chúng ta hy vọng C sẽ rời vào với một Y cho trước và một xác suất cho trước, chẳng hạn 0.95 và 500, khi đó chúng ta có thể tin tưởng rằng trong 95% trường hợp, mức tiêu dùng chân thực tính cho mức thu nhập 10000 đồng sẽ nằm trong khoảng 7500đ – 500 và 7500đ + 500

Để xác nhận tính chấ không hoàn hảo của tất cả các phương trình hồi quy ước lượng được dựa trên một mẫu khi xác định mối quan hệ chân thực trong tổng thể, phương trình hồi quy thường được viết thành:

C = C¯ + cYd + e

tức được bổ sung thêm biểu thức biểu thị phần dư hoặc sai số e để phản ánh tác động phụ thêm của sự biến thiên ngẫu nhiên và những tác động của các biến số độc lập khác, ví dụ lãi suất của tín dụng tiêu dùng – yếu tố ảnh hưởng đến chi tiêu cho tiêu dùng, nhưng không được biểu thị rõ trong phương trình hồi quy.

Khi nghĩ rằng không phải chỉ có một biến số độc lập tác động mạnh tới biến số phụ thuộc, người ta sử dụng phương pháp hồi quy tuyến tính bội. Kỹ thuật này bao gồm việc thiết lập một phương trình hồi quy bội có hai hoặc nhiều biến độc lập. Chẳng hạn:

C = C¯ + bY + di + e

trong đó i là lãi suất của tín dụng tiêu dùng và d là hệ số bội quy bổ sung gắn với biến độc lập bổ sung i. Việc ước lượng phương trình hồi quy bội bằng phương pháp bình phương nhỏ nhất thông thường làm cho đồ thị trong không gian ba chiều phù hợp với các kết quả quan sát mẫu và có thể được sử dụng để ước lượng giá trị của ba hệ số hồi quy C¯, c và d trong phương trình trên.

Khi các mối quan hệ cơ bản giữa những biến số độc lập và phụ thuộc không phải tuyến tính (phi tuyến), phương pháp hồi quy tuyến tính không ứng dụng được. Tuy nhiên, các mối quan hệ có dạng cong (phi tuyến) có thể chuyển thành quan hệ tuyến tính bằng cách sử dụng logarit tự nhiên của các biến số, qua đó làm cho chúng tuân theo phương pháp phân tích hồi quy tuyến tính.

Hồi Quy Ols Đa Biến Stata Kiểm Tra Sai Phạm

Để thuận tiện cho việc đọc kết quả, các bạn nên sử dụng chung bộ dữ liệu của chúng tôi, mở phần mềm stata ra và nhập lệnh sử dụng dữ liệu như sau:

use https://solieu.vip/data/reg01.dta

Bây giờ chúng ta đang sử dụng bộ dữ liệu chúng tôi với các biến như sau: income, educ, jobexp, race

Để hồi quy đa biến trên phần mềm stata chúng ta sử dụng lệnh reg hay regress

reg income educ jobexp race

Ta có, income là biến phụ thuộc các biến còn lại là biến độc lập. Ta nhận kết quả như sau:

Như thế là chúng ta đã có kết quả của việc hồi quy bình phương nhỏ nhất ( ols) cho đa biến này rồi. Quá đơn giản phải không các bạn.

Cách kiểm tra sai phạm a, Mức độ phù hợp của mô hình

Chúng ta xem xét trong bảng kết quả hồi quy ở trên, xét chỉ tiêu R-Squared. Đây chính mức độ giải biến phụ thuộc được giải thích bởi các biến độc lập là 84,54%. Chỉ số R2 này tương đối tốt vì chỉ riêng có 3 biến độc lập là educ, jobexp, race mà đã giải thích đến 85%, còn lại 15% là do các biến khác.

Chú ý: Khi chạy mô hình hồi quy thì chỉ số R-Squared rất quan trọng, nên chúng tôi rút ra được một số kinh nghiệm như sau:

b, Kiểm tra hiện tượng đa cộng tuyến

Đa cộng tuyến là gì: Đa cộng tuyến là hiện tượng các biến độc lập có mối tương quan rất mạnh với nhau. Mô hình hồi quy xảy ra hiện tượng đa cộng tuyến sẽ khiến nhiều chỉ số bị sai lệch, dẫn đến kết quả của việc phân tích định lượng không còn mang lại nhiều ý nghĩa.

Để kiểm tra đa cộng tuyến trong stata, ta dùng lệnh: vif sau khi hồi quy

Định nghĩa VIF ( hệ số phóng đại phương sai): Trong thống kê , hệ số lạm phát phương sai ( VIF ) là tỷ lệ phương sai trong một mô hình có nhiều số hạng, chia cho phương sai của một mô hình chỉ có một thuật ngữ. [1] Nó định lượng mức độ nghiêm trọng của đa cộng tuyến trong phân tích hồi quy bình phương nhỏ nhất bình thường . Nó cung cấp một chỉ số đo lường mức độ chênh lệch (bình phương độ lệch chuẩn của ước tính) của một hệ số hồi quy ước tính được tăng lên do cộng tuyến.

c, Kiểm định giả thuyết thống kê (Hypothesis testing)

Chúng ta nghe cái tên thì thấy nó chung chung, kho hiểu dịch nôm na cho dễ hiểu đó là kiểm định các biến không đồng thời bằng không.

Kiểm định giả thuyết thống kê (statistical hypothesis test) là phương pháp ra quyết định sử dụng dữ liệu, hoặc từ thí nghiệm hoặc từ nghiên cứu quan sát (observational study)(không có kiểm soát). Trong thống kê (statistics), một kết quả được gọi là đủ độ tin cậy mang tính thống kê (statistically significant) nếu nó ít có khả năng diễn ra theo một ngưỡng xác suất cho trước (ví dụ 5% hay 10%). Cụm từ kiểm định độ tin cậy (“test of significance”) được đưa ra bởi Ronald Fisher.

Có 2 định nghĩa như trên các bạn muốn hiểu theo cách nào thì hiểu, còn phần kiểm định hypothesis test này thì đơn giản vô cùng với stata, ta dùng lệnh test

Cách đặt giả thuyết:

H0: các biến không đồng thời bằng không

H1: các biến đồng thời bằng không

Ta có kết quả là chấp nhận H0, bác bỏ H1, tức là hai biến educ và jobexp không đồng thời bằng 0.

chúng ta kiểm tra cho các cặp biến còn lại, tương tự như thế

d. Kiểm định phương sai phần dư thay đổi.

Đây là một kiểm định cực kỳ quan trọng nên bất cứ mô hình hồi quy nào cũng cần phải có. Để kiểm định phương sai phần dư thây đổi ta dùng lệnh hettest sau hồi quy.

Ta đặt giả thuyết như sau:

H0: có hiện tượng phương sai phần dư thay đổi

H1: Không có hiện tượng phươn sai phần dư thay đổi

Trong mô hình hồi quy ols đa biến chúng ta phải kiểm tra hết tất cả các khuyêt tật hay còn gọi là sai phạm trong mô hình hồi quy, nếu mô hình có khuyết tật thì chúng ta phải khăc phục nó, trước khi sử dụng mô hình.

Note: Thế nào cũng có các bạn hỏi, tại sao nói kiểm tra hết các khuyết tật mà không thấy kiểm tra hiện tượng tự tương quan mô hình, hay tự tương quạn phần dư … do bộ dữ liệu của chúng tôi không có dữ liệu thời gian nên chúng ta không thể kiểm tra tự tương quan. Nói cách khác, khi mô hình có chuỗi thời gian thì chúng ta mới có kiểm tra tự tương quan.

Hướng Dẫn Hồi Quy Gmm Toàn Tập

Hướng dẫn hồi quy GMM toàn tập, hồi quy GMM là một trong những mô hình hồi quy được các bạn nghiên cứu sinh rất thích, vì nó giải quyết vấn đề cốt lõi của kinh tế là nội sinh trong mô hình nghiên cứu. Nhưng thật ra để hiểu đúng và áp dụng đúng cũng là một vấn đề rất nan giải, mà chưa có tài liệu chính thống nào “diễn giải” hay đề cập đề vấn đề này.

Trong tip bài ” Hướng dẫn hồi quy GMM toàn tập “, có rất nhiều thuật ngữ mà cả chúng tôi cũng không định nghĩa được, nên chúng tôi sẽ diễn giải và dùng ví dụ để minh họa, rất mong các bạn thông cảm, cho vấn đề “yếu kém” của bên chúng tôi.

GMM: Phương pháp hồi quy tổng quát khoảng khắc

Trong kinh tế lượng và thống kê , phương pháp tổng quát của các khoảnh khắc (GMM ) là một phương pháp chung để ước tính các tham số trong các mô hình thống kê . Thông thường, nó được áp dụng trong ngữ cảnh của các mô hình bán tổng thể , trong đó tham số quan tâm là hữu hạn, trong khi hình dạng đầy đủ của hàm phân phối dữ liệu có thể không được biết và do đó ước tính khả năng tối đa không được áp dụng.

Phương pháp yêu cầu một số điều kiện nhất định được chỉ định cho mô hình. Các điều kiện thời điểm này là các hàm của các tham số mô hình và dữ liệu, sao cho kỳ vọng của chúng bằng 0 tại các giá trị thực của tham số. Phương pháp GMM sau đó tối thiểu hóa một định mức nhất định của trung bình mẫu của các điều kiện thời điểm.

Các công cụ ước tính GMM được biết là nhất quán , bình thường không có triệu chứng và hiệu quả trong lớp của tất cả các công cụ ước tính không sử dụng bất kỳ thông tin bổ sung nào ngoài các điều kiện có trong điều kiện thời điểm.

Trước khi bắt đầu xem xét các trường phái của gmm chúng ta sử dụng dữ liệu sau để các bạn có thể ứng dụng thực hành và sử dụng phần mềm STATA

use http:// solieu.vip/dulieu/Cong.13.8.dta

Chúng ta hồi quy ols và được kết quả như sau:

GMM Tĩnh: Stationarity GMM

Chúng tôi tìm hiểu thì cũng không có nhiều tài liệu định nghĩa về GMM tĩnh, nhưng mà chúng tôi diễn giải cho các bạn dễ hiểu, trong mô hình nghiên cứu chúng ta biến được biến nào là biến nội sinh biến bào là biến công cụ, như cái video trên các bạn qua sẽ hiểu.

Để chúng tôi tóm tắt lại, mô hình hồi quy GMM tĩnh là chúng ta biết cụ thể biến nào là biến nội sinh, biến nào là biến ngoại sinh, biến nào là biến công cụ; Để áp dụng vào mô hình định lượng.

Bây giờ chúng ta hồi quy với LnGDP là biến nội sinh và LnPOP + LnLAND là biến công cụ, chúng ta được kết quả như trên.

Nhân tiện, chúng ta kiểm tra xem Biến công cụ đưa vào mô hình có phải là biến công cụ yếu không ?

GMM Động: Dynamic GMM

Đây là mô hình chúng ta sư dụng nhiều nhất, nhưng mốc chốt nằm ở biến công cụ giải thích biến nội sinh, nhưng biến nội sinh ở đây là “dynamic”, tức là biến nội sinh không xác định được, thì chúng ta áp dụng phương pháp này. Trong phương pháp GMM động này thì chia ra làm 2 trường phái là chúng tôi và S.GMM.

D.GMM: Different GMM

Đây là một phương pháp, nên chúng tôi vẫn chưa có thể định nghĩa được. Chúng tôi sẽ dùng ví dụ sau, cho các bạn nhận biến được mô hình định lượng chúng tôi này.

Sau khi hồi quy chúng tôi ta được kết quả như trên, vẫn dùng LnPOP và LnLAND làm biến công cụ.

S.GMM: System GMM

Trong kinh tế lượng , công cụ ước tính trái phiếu Arellano Nhận là một phương pháp tổng quát của công cụ ước tính khoảnh khắc được sử dụng để ước tính mô hình dữ liệu bảng động . Nó được đề xuất lần đầu tiên bởi Manuel Arellano và Stephen Bond vào năm 1991 để giải quyết vấn đề nội sinh, sự không đồng nhất và các vấn đề tương quan nối tiếp trong vấn đề dữ liệu bảng tĩnh. Công cụ ước tính GMM-SYS là một hệ thống chứa cả các mức và phương trình khác biệt đầu tiên. Nó cung cấp một sự thay thế cho công cụ ước tính GMM khác biệt đầu tiên.

Trong ước lượng khắc phục biến nội sinh (Không quan tâm đến GMM động hay tĩnh, hay chúng tôi hay chúng tôi thì thường chúng ta nghĩ là chạy s.GMM.

Các bạn có thể xem theo về GMM tĩnh tại kênh youtube của chúng tôi.

Thân ái,

Tổng Quan Về Regression (Phân Tích Hồi Quy)

Bigdatauni.com

Follow Fanpage

Contact

Ở những bài viết trước về các thuật toán cây quyết định, Decision trees hay Classification & Regression trees, chúng tôi đã đề cập đến phương pháp phân tích hồi quy, Regression analysis, cụ thể trong phần cuối cùng về Regression tree, cách sử dụng cây quyết định để dự báo giá trị của biến mục tiêu (là biến định lượng), dựa trên các thuộc tính, đặc điểm nằm ở những biến đầu vào còn lại của các đối tượng dữ liệu. Mô hình cây quyết định sử dụng chính nguyên lý hoạt động của các phương trình hồi quy, đó là tìm ra mối quan hệ giữa những biến độc lập với biến phụ thuộc, giữa những biến đầu vào và biến dự báo, cũng vì vậy nên được gọi là Regression tree.

Ví dụ được lấy từ tài liệu “Data mining for business analytics – concepts, techniques and applications in R” của tác giả Galit Shmueli và các cộng sự. Bên trên là mô hinh Regression tree dự báo giá của một chiếc xe Toyota dựa trên 3 biến: tuổi đời chiếc xe (Age), trọng lượng (Weight) và mã lực (Horse power – HP),  đã được chọn lọc trong 12 biến có được trong tập dữ liệu về 1000 chiếc xe Toyota Corolla, được lấy ra 600 để làm tập dữ liệu training. Ví dụ với chiếc xe có độ tuổi là 55, mã lực bằng 100 thì có thể bán với giá 9358$.

Các bạn có thể thấy mối quan hệ giữa độ tuổi với giá trị của chiếc xe, tức độ tuổi cao hay thấp sẽ có tác động nhất định với giá trị của chiếc xe, tương tự như mã lực cao hay thấp, tuy nhiên tác động của độ tuổi, và mã lực đến giá xe, tác động nào mạnh hơn, lớn hơn? Dựa trên mô hình cây quyết định chúng ta khó có thể xác định được. Cũng chính vì thế, để diễn giải kết quả phân tích hồi quy, hoặc mô tả mối quan hệ theo cách định lượng hóa, thì mô hình cây quyết định thường không được phổ biến hay ưu tiên áp dụng, mà thay vào đó là sử dụng những phương trình hay mô hình hồi quy bao gồm các công thức định lượng mối quan hệ giữa các biến, các phương pháp kiểm định để chắc chắn các biến có mối liên hệ, và kết hợp với những đồ thị trực quan.

Phần 2 bài viết, chúng ta sẽ tìm hiểu về cách thức xác định mối quan hệ giữa 2 biến đơn giản bất kỳ, sử dụng Correlation và Regression (dạng đầu tiên Simple linear regression).

Correlation và Regression là gì?

Có lẽ sẽ có bạn thắc mắc tại sao trọng tâm bài viết là về Regression nhưng chúng tôi lại đề cập về phương pháp phân tích sự tương quan, Correlation, đầu tiên. Đơn giản, chúng ta có thể xác định biến mục tiêu và biến độc lập có quan hệ với nhau hay không và quan hệ như thế nào về mặt định lượng chỉ bằng phương pháp hồi quy. Tuy nhiên trong những trường hợp chúng ta muốn tìm hiểu nhanh liệu 2 biến bất kỳ có quan hệ với nhau, mức độ quan hệ ra sao hay không mà chưa cần dùng đến phương pháp hồi quy phức tạp hay muốn kiểm chứng từ phương trình hồi quy lần nữa xem 2 biến có quan hệ với nhau không, thì phương pháp phân tích tương quan sẽ cho chúng ta kết quả nhanh chóng. Qua các giải thích trên chắc các bạn đã phần nào hiểu được phân tích tương quan là gì.

Correlation là phương pháp nghiên cứu mối quan hệ tuyến tính giữa 2 hay nhiều biến khác nhau, dựa trên đo lường mức độ quan hệ, hay cường độ quan hệ tuyến tính.

Điểm khác biệt thứ nhất giữa tương quan và hồi quy mà chúng tôi trình bày trong bài viết này, đó là Correlation không quan tâm biến nào sẽ là biến độc lập và biến nào sẽ là biến phục thuộc, các biến ở vị thế “ngang nhau”, tức biến này có thể tác động lên biến kia và ngược lại, còn Regression chỉ quan tâm đến biến mục tiêu, tìm hiểu xem các biến khác sẽ tác động ra sao lên biến mục tiêu này.

Correlation sử dụng hệ số tương quan (Correlation Coefficient) và phương pháp kiểm định hệ số tương quan để xem xét giữa các biến có mối quan hệ tương quan hay nhau. Lưu ý lần nữa, tương quan theo nghĩa tiếng Việt đơn giản là tác động qua lại giữa hai phía, nghĩa là phương pháp này có thể xem xét mối liên hệ theo 2 chiều, còn Regression thì thể hiện khía cạnh 1 chiều (biến độc lập tác động thế nào đến biến mục tiêu chứ không xét ngược lại).

Regression là phương pháp nghiên cứu mối quan hệ giữa 2 biến mà cụ thể một biến sẽ là biến độc lập (ảnh hưởng đến biến mục tiêu), và biến còn lại sẽ là biến mục tiêu (bị ảnh hưởng bởi biến độc lập), mô hình hóa, định lượng hóa mối quan hệ này để qua đó có thể xác định được giá trị của biến mục tiêu nếu các biến độc lập thay đổi như thế nào.

Điểm khác biệt thứ hai, có thể là khác biệt lớn nhất đó chính là kết quả của phân tích hồi quy, chính là kết quả dự báo của biến mục tiêu. Đây là cơ sở để Regression còn là phương pháp chính trong Predictive analytics (phân tích dự báo) bên cạnh là kiến thức nền tảng trong lĩnh vực thống kê (Statistics) và khai phá dữ liệu (Data mining). Còn kết quả của Correlation chỉ dừng lại ở việc đánh giá có mối quan hệ giữa 2 biến hay không, đo lường chiều hướng và tính bền vững trong mối quan hệ này. Cụ thể hệ số tương quan của Correlation sẽ nằm từ -1 đến 1:

Giải thích một chút về từ quan hệ tuyến tính (linear relationship), như các bạn đã từng được học ở các lớp phổ thông hay trung học về đồ thị hàm số, cho các giá trị của x và các giá trị y tương ứng, nhiệm vụ là tìm phương trình và vẽ đồ thị. Nếu phương trình mà các bạn lập được thành công, và đồ thị các bạn vẽ được là một đường thẳng thì lúc này các bạn đã chứng minh giữa x và y đã có mối quan hệ tuyến tính (chưa xét đến nghịch hay thuận).

Nhưng đó chỉ là bài toán rất đơn giản để chúng ta hiểu thế nào là mối quan hệ tuyến tính giữa x và y. Trong thực tế, khi tìm hiểu về mối quan hệ giữa 2 hay nhiều đối tượng, hiện tượng nghiên cứu khác nhau ở mọi lĩnh vực và đảm bảo kết quả chính xác thì dữ liệu cần phân tích là rất nhiều, do đó các công thức tính toán như trước đây chúng ta từng được học sẽ không thể nào áp dụng. Lúc này phương pháp Correlation và Regression sẽ cực kỳ hữu dụng. Giả sử chúng ta có một tập dữ liệu gồm nhiều giá trị x, và tương ứng với mỗi giá trị x là một giá trị, chúng ta sẽ có các điểm dữ liệu gọi là Mi (xi, yi), nếu các điểm dữ liệu này nằm trên cùng một đường thẳng chứng tỏ x và y có quan hệ tuyến tính và ngược lại.

Giá trị x tăng thì y tăng theo, lúc này x và y có quan hệ tuyến tính thuận, hệ số tương quan sẽ lớn hơn 0 nhưng chưa chắc tiến gần 1, chưa có cơ sở khẳng định mối quan hệ này vững chắc.

Hình trên thì x và y không thể hiện mối quan hệ tuyến tính, lúc này hệ số tượng quan có thể gần giá trị 0.

Giá trị x giảm, giá trị y lại tăng, x và y thể hiện mối quan hệ tuyến tính nghịch, lúc này hệ số tương quan sẽ mang giá trị âm và nhỏ hơn 0, nhưng chưa chắn tiến gần giá trị -1 và không có cơ sở khẳng định  mối quan hệ này là bền vững.

Giá trị x tăng, y chắc chắn sẽ tăng, lúc này x và y thể hiện mối quan hệ tuyến tính thuận và cực kỳ bền vững và hoàn hảo, lúc này giá trị của hệ số tương quan có thể bằng 1.

Giá trị của x giảm, và y chắc chắn tăng, lúc này giữa x và y thể hiện mối quan hệ tuyến tính nghịch, và mối quan hệ này bền vững, giá trị của hệ số tương quan sẽ bằng -1. Công thức của hệ số tương quan tổng quát như sau:

Với Sxy là hiệp phương sai (Covariance) của x và y, Sx là độ lệch chuẩn của các giá trị x, Sy là độ lệch chuẩn của các giá trị y. Hiệp phương sai của x và y cũng là một chỉ số thể hiện sự tương quan của 2 biến bất kỳ. Bên cạnh việc tính toán hệ số tương quan, chúng ta còn có thể sử dụng phương pháp kiểm định giả thuyết t để củng cố kết luận của mình. Lưu ý công thức ở trên áp dụng cho xác định mối quan hệ giữa x và y cho bộ dữ liệu mẫu (Sample) không phải dữ liệu tổng thể.

Ở bài viết sắp tới về cách phân tích mối quan hệ giữa 2 biến bất kỳ, chúng tôi sẽ trình bày lại Correlation trong ví dụ cụ thể, tương tự như dạng đầu tiên của Regression là Simple linear regression. Còn ở phần 1 kỳ này chúng tôi chỉ dừng lại ở phần giới thiệu mà thôi.

Correlation và Regression là 2 phương pháp thường song hành nhau trong lĩnh vực thống kê. Ví dụ như nếu chỉ sử dụng Correlation, và nhìn vào biểu đồ hay giá trị của hệ số tương quan chúng ta sẽ thấy được mối quan hệ tuyến tính giữa x và y chỉ trong dữ liệu lịch sử, vậy muốn lập phương trình, muốn đưa ra dự báo về giá trị y khi trong tương lai giá trị x thay đổi một lượng bất kỳ, thì chúng ta phải sử dụng phương pháp Regression. Đối với dạng tuyến tính cho 2 biến, thì chúng ta có phương trình hồi quy tổng quát, và đơn giản nhất của Regression như sau:

Với y là biến phụ thuộc (chịu ảnh hưởng của biến x), là biến chúng ta sẽ dự báo giá trị, x là biến độc lập (biến tác động lên biến phụ thuộc), β0 là giá trị ước lượng của y khi x đạt giá trị 0, β1 là độ dốc của đường hồi quy tuyến tính, nói cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vị, ε là sai số, thể hiện giá trị của các yếu tố khác không thể nghiên cứu hết và các yếu tố này vẫn tác động lên giá trị của y.

Cách xác định các tham số sẽ được chúng tôi trình bày ở bài viết sắp tới. Tuy nhiên trong thực tế chúng ta không chỉ có nghiên cứu mối quan hệ giữa 2 biến độc lập và biến phụ thuộc, mà còn nghiên cứu mối quan hệ của nhiều biến độc lập và biến phụ thuộc, và không chỉ có mối quan hệ tuyến tính mà còn nhiều mối quan hệ phức tạp hơn giữa các biến mà chúng ta phải khai phá. Chính vì thế chúng ta có nhiều phương trình hồi quy và nhiều đồ thị trực quan thể hiện các phương trình từ đơn giản đến phức tạp khác nhau. Do đó mặc dù là kiến thức nền tảng và xuất hiện đầu tiên trong lĩnh vực thống kê (Statistics) nhưng Regression với nhiều dạng khác nhau, được ứng dụng nhiều trong các lĩnh vực khác nhau không chỉ riêng ở lĩnh vực khoa học dữ liệu.

Các dạng, các loại mô hình (phương trình) hồi quy phổ biến

Các mô hình hồi quy có thể được phân loại theo nhiều cách như các mô hình tuyến tính (linear) và phi tuyến tính (non-linear); các mô hình áp dụng cho biến định lượng và các mô hình áp dụng cho biến định tính; các mô hình áp dụng cho phân tích mối quan hệ giữa 2 biến hay nhiều hơn 2 biến; các mô hình có tham số và không có tham số; các mô hình cổ điển và hiện đại (những mô hình mở rộng).

Linear Regression

Simple linear regression, đây được xem là mô hình hồi quy đơn bội, đơn giản nhất và phổ biến nhất, chỉ nghiên cứu mối quan hệ tuyến tính giữa một biến độc lập và biến phụ thuộc, áp dụng cho biến định lượng, và đồ thị là dạng đường thẳng

Phương trình tổng quát:

Đồ thị minh họa

Multiple regression (Multi linear regression), mô hình hồi quy đa bội áp dụng cho nghiên cứu mối quan hệ của nhiều biến độc lập và một biến phụ thuộc, áp dụng cho biến định lượng. Phương trình tổng quát:

 Đồ thị minh họa (nguồn hình Analyticsvidhya post – Medium)

Logistic Regression

Mô hình hồi quy Logit áp dụng cho biến phụ thuộc là biến định đính hoặc định lượng chỉ có 2 giá trị, hay còn gọi là biến thay phiên (Binary) ví dụ y chỉ có 2 giá trị là 0 và 1, có hoặc không,… Phương trình tổng quát: Logistic Regression cho đơn biến

Logistic Regression cho mô hình đa biến

(Nguồn hình: En.wikipedia)

Polynominal Regression

Mô hình hồi quy Polynominal áp dụng cho các trường hợp mà biến độc lập x có bậc mũ lớn hơn 1, và y là biến định lượng. Phương trình tổng quát:

Đồ thị của mô hình hồi quy này không phải đường thẳng, và là một đường cong, do đó đây không phải dạng hồi quy tuyến tính.

Đồ thị minh họa:

(Nguồn hình towardsdatascience )

Quantile Regression

Là dạng mô hình hồi quy mở rộng của hồi quy tuyến tính – Linear regression, tìm hiểu mối quan hệ tuyến tuyến giữa biến độc lập và biến phụ thuộc trong trường hợp bộ dữ liệu có các giá trị ngoại lệ (outliers), độ lệch/ chệch cao của phân phối dữ liệu (high skewness), mức độ không đồng nhất của dữ liệu. Mô hình dựa trên xem xét phân phối tổng thể của dữ liệu, không chỉ sử dụng mỗi giá trị trung bình để tính toán, xây dựng công thức như trong linear regression.

Quantile chính là phân vị trong lĩnh vực thống kê, là phương pháp xác định với n % bất kỳ của bộ dữ liệu thì phân phối các giá trị của dữ liệu trong n % là như thế nào (các giá trị đãđược sắp xếp từ nhỏ đến lớn) để đánh giá độ phân tán của dữ liệu, và tại phân vị thứ n này giá trị đạt được của biến là bao nhiêu. Phương trình tổng quát của Quantile Regression tương tự như Linear regression, và y biến định lượng liên tục (Continuous varibale), tuy nhiên Quantile Regression hướng đến giảm thiểu sai số của mô hình với công thức tổng quát như sau: Phương trình tổng quát:

Công thức tính sai số có trọng số theo mô hình hồi quy

Với τ là phân vị cần xét của tập dữ liệu.

Đồ thị minh họa:

Ridge Regression (Shrinkage regression)

Mô hình Ridge Regression là phương pháp áp dụng khi bộ dữ liệu gặp vấn đề về đa cộng tuyến (các biến độc lập x có mối liên hệ với nhau, và ảnh hưởng lên kết quả dự báo của y), hay giải quyết các vấn đề về Overfitting (mô hình áp dụng tốt cho dữ liệu training nhưng không không hoạt động tốt trên dữ liệu test) mà mô hình hồi quy tuyến tính thông thường gặp phải. Phương trình tổng quát của linear regression cho đơn biến và đa biến các bạn có thể để ý sẽ thấy giá trị ε ở đằng sau mỗi phương trình.

Đậy là sai số của các phương trình hồi quy, là chênh lệch giữa kết quả dự báo và kết quả thực tế. Các sai số được chia thành 2 phần: Biased (thiên vị), Variance (phương sai). Biased là trường hợp mô hình phân tích không khớp, không đem lại kết quả chính xác trên tập dữ liệu training, còn Variance là đối với dữ liệu test. Mối quan hệ đánh đổi giữa Biased và Variance xét trên mức độ phức tạp của mô hình, chúng tôi sẽ đề cập vấn đề này trong chính bài viết về Ridge regression sắp tới.

Nguồn hình chúng tôi

Ridge Regression là mô hình hồi quy phân tích mối quan hệ giữa các biến độc lập và biến phụ thuộc sử dụng phương pháp Regularization, điều chỉnh mô hình sao cho giảm thiểu các vấn đề Overfitting, tối ưu hay kiểm soát mức độ phức tạp của mô hình để cân đối giữa Biased và Variance qua đó giảm sai số của mô hình. Công thức tổng quát của mô hình:

Hệ số lambda còn gọi là tham số Regularization, hay tham số Penalty, hay tham số Shrinkage, là số luôn dương, là giá trị mà ở đó phương trình tuyến tính sẽ được “tinh chỉnh” sao cho sai số của mô hình được giảm tối đa, nghĩa là giá trị lambda nào mà mô hình đạt MSE (Mean Square Error) sẽ được chọn, wj là hệ số β của phương trình hồi quy tuyến tính.

Cách triển khai công thức như thế nào, áp dụng phương pháp Regularization chúng tôi sẽ trình bày lại ở bài viết về Ridge Regression. Đồ thị minh họa:

Nguồn hình: stats.stackexchange.com

Lasso Regression

Lasso viết tắt của Least Absolute Shrinkage and Selection Operator, là phương pháp gần giống với Ridge Regression, cũng hạn chế sự khác biệt, chênh lệch giữa kết quả dự báo và kết quả thực tế của mô hình hồi quy tuyến tính, gia tặng độ chính xác của mô hình.

Công thức tổng quát của Lasso Regression khác một chút ở phía cuối công thức, thay vì bình phương wj, hay chính là hệ số β như Ridge Regression, thì ở đây công thức Lasso lấy trị tuyệt đối.

Elastic Net Regression

Là mô hình hồi quy kết hợp mô hình Lasso và Ridge để xây dựng mô hình hồi quy xử lý vấn đề các biến độc lập x có mối quan hệ tương quan với nhau dẫn đến kết quả dự báo cho biến phụ thuộc y bị ảnh hưởng. Công thức tổng quát:

Poisson Regression

Mô hình hồi quy Poisson áp dụng cho trường hợp biến phụ thuộc, biến y mang giá trị là các số đếm, tức biến định lượng dạng rời rạc có thể đếm được, ví dụ 0, 1, 2, 3, 4. Để áp dụng mô hình hồi quy Poisson thì giá trị của biến y phải có phân phối Poisson, và là số nguyên dương.

Công thức phân phối Poisson của một giá trị x bất kỳ

Với e là hằng số Nepe gần bằng 2.71828 µ là E(x) và là trung bình của x được tính bằng n*p, ở một số tài liệu thống kê khác µ chính là λ Giá trị kỳ vọng E(x) = µ = λ, phương sai Var (x) = λ = µ. Chúng ta áp dụng cho giá trị y thì được, P là xác suất của một giá trị y = k bất kỳ

Ghép vào mô hình hồi quy với hệ số β và từng biến xi để xác định giá trị kỳ vọng cho từng giá trị của biến y. Phương trình tổng quát

Cox Regression

Mô hình hồi quy Cox áp dụng cho loại dữ liệu theo thời gian, được dùng trong phân tích sống sót “Survival analysis” ví dụ như phân tích rủi ro khách hàng rời dịch vụ theo thời gian, thời gian bệnh nhân tính từ lúc bệnh nhân bắt đầu điều trị ung thư cho đến khi qua đời,…Tức y lúc này có thể chỉ mang 2 giá trị “còn” và “không”, “sống” và “chết”, “đã rời dịch vụ” và “chưa rời dịch vụ”. Mô hình tổng quát của Cox regression sẽ có dạng:

Đồ thị minh họa:

(nguồn hình: chúng tôi

Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.

Cập nhật thông tin chi tiết về Hướng Dẫn Thực Hành Cách Phân Tích Hồi Quy Đa Biến trên website Channuoithuy.edu.vn. Hy vọng nội dung bài viết sẽ đáp ứng được nhu cầu của bạn, chúng tôi sẽ thường xuyên cập nhật mới nội dung để bạn nhận được thông tin nhanh chóng và chính xác nhất. Chúc bạn một ngày tốt lành!