Phương pháp hồi quy là gì

Phương pháp hồi quy là một trong những công cụ hữu ích cho những người nghiên cứu tài chính, chứng khoán. Với một người mới liệu bạn đã biết hồi quy là gì? Và mô hình hồi quy biểu diễn như thế nào chưa? Bài viết này mình sẽ giải đáp những thắc mắc đó cho bạn.

Phương pháp hồi quy là phương pháp dự đoán các chỉ tiêu kinh tế, tài chính tương lai của doanh nghiệp. Nhưng việc tìm hiểu cũng như sử dụng đúng phương pháp này thì không phải ai cũng biết và thành thạo.

Phương pháp hồi quy là gì?

Phương pháp hồi quy là phương pháp vận dụng phân tích kỹ thuật theo hướng thống kê. Người ta thường dùng để ước lượng phương trình thích hợp nhất với các tập hợp kết quả quan sát của biến phụ thuộc và biến độc lập.

Phương pháp hồi quy là gì

Phương pháp này cho phép đạt được kết quả ước lượng tốt nhất về mối quan hệ chân thực giữa các biến số. Từ phương trình ước lượng được này; người ta nhờ vào trị giá cho trước của biến độc lập để có thể được dự báo về biến phụ thuộc.

Phương pháp này dùng để dự đoán các chỉ tiêu trong kinh tế của doanh nghiệp từ đó có thể tìm biết được các doanh nghiệp hoạt động hiệu quả.

Phương pháp hồi quy gồm nhiều loại nào?

Các nhà nghiên cứu thường hay sử dụng số liệu quá khứ, dữ liệu đã diễn ra theo thời gian. Các số liệu, dữ liệu đó có thể được đã diễn ra tại cùng một khoảng thời gian để thiết lập mối quan hệ giữa các sự kiện và hiện tượng có liên quan. Như vậy có thể thấy đây chính là một biểu hiện của phương pháp hồi quy.

Khi sử dụng hồi quy thì sẽ có sự xuất hiện của phương trình hồi quy. Khi đó, người ta hoàn toàn có thể giải thích diễn biến quá khứ. Đồng thời họ sẽ triển khai các dẫn chứng để ước lượng; dự báo những sự kiện sắp sửa xảy ra trong tương lai. Phương pháp này sẽ bao gồm 2 loại chính, đó là: Phương pháp đơn và phương pháp bội.

Phương pháp hồi quy đơn

Phương pháp hồi quy đơn hay còn có tẹn gọi đầy đủ là phương pháp hồi quy đơn biến. Đây là phương pháp được phép dùng để xem xét mối quan hệ giữa một chỉ tiêu phản ánh kết quả vận động của một hiện tượng tài chính với chỉ tiêu phản ánh nguyên nhân. Mục đích sau cùng của phương pháp này vẫn là giải thích hoặc dự báo một chỉ tiêu cần nghiên cứu.

Phương pháp hồi quy là gì
Phương pháp hồi quy đơn

Chính vì vậy mà công thức tính của phương pháp này chính là:

Y= a +bx

Với phương trình này, ta có:

  • Y được gọi là biến phụ thuộc; x là biến độc lập;
  • a là tung độ gốc (nút chặn trên đồ thị); b là hệ số góc (độ dốc hay độ nghiêng của đường biểu diễn Y trên đồ thị)

Phương pháp hồi quy bội hay còn gọi là hồi quy đa biến.

Phương pháp hồi quy là gì

Với phương pháp này ta có phương trình như sau:

Y= b0 +b1x1 + b2x2 +… + bixi +… + bnxn + e

Trong đó:

  • Y: biến phụ thuộc (chỉ tiêu có chức năng phản ánh đối tượng nghiên cứu) và được hiểu là ước lượng (Y); b0 là tung độ gốc; bi các độ dốc của phương trình theo các biến xi; xi các biến độc lập (nhân tố ảnh hưởng); e các sai số.

Áp dụng phương pháp hồi quy vào bộ dữ liệu giá chứng khoán Việt Nam

Như mọi người cũng đã biết, trong thị trường chứng khoán Việt Nam thường được phép sử dụng để xem xét sự ảnh hưởng của các biến độc lập với biến phụ thuộc. Từ đó xem xét tính thích hợp cũng như dự báo. Mặc dù mô hình này chưa phải là quá mới nhưng nó vẫn được những áp vào nhiều vào lĩnh vực chứng khoán. Cụ thể:

Giới thiệu bộ dữ liệu

Bộ dữ liệu trên sàn chứng khoán rất đa dạng và phong phú làm nhiều nhà đầu tư băn khoăn trong việc sử dụng. Chỉ số VN-Index, Chỉ số trung bình công nghiệp Dow Jones và tỷ giá EUR/VND của Ngân hàng Nhà nước Việt Nam (đơn vị: nghìn đồng); tỷ giá giữa USD/VND do Ngân hàng Nhà nước Việt Nam ban hành (đơn vị nghìn đồng), Chỉ số S&P 500 (Standard & Poor); giá vàng ở Mỹ (đơn vị USD/ounce), giá dầu thô WTI là giá dầu ở giếng khoan Mỹ tính theo ngày (đơn vị tính USD/thùng) chính là bộ dữ liệu nghiên cứu của Thomson Reuters lấy tại Trung tâm Nghiên cứu kinh tế – kinh tế (Đại học kinh tế tài chính – Luật, Đại học Quốc gia TP. Hồ Chí Minh).

Mục đích của việc sử dụng của phương pháp hồi quy

Phương pháp hồi quy được sử dụng nhằm giúp chúng ta sẽ có thể được ra được phép một đường sao cho phù hợp nhất; và sát nhất thông qua những điểm dữ liệu đã thu thập được những. Từ đó, họ sẽ có thể được biểu diễn mối quan hệ giữa hai biến thu nhập và chỉ tiêu tiêu dùng thông qua các quan sát đó theo một cách đáng tin cậy nhất. Đó thường là mục đích sử dụng của phương pháp này.

Ta sẽ nhận thấy được điều đó khi các bạn hoàn toàn có thể tưởng tượng ra rằng; người nghiên cứu sẽ phải bắt gặp một thông tin về thu nhập và chỉ tiêu tiêu dùng. Lúc này, chỉ tiêu tiêu dùng cần xem xét phụ thuộc vào thu nhập và chúng ta sẽ biểu diễn hai biến độc lập này lên đồ thị.

Mô hình hồi quy biểu diễn tất cả các giá trị

Để kiểm tra tính đúng đắn của mô hình nghiên cứu, nghiên cứu này chạy mô hình hồi quy OLS của tất cả các trị giá. Kết quả về độ phù hợp R^2=92.7% minh chứng mô hình nghiên cứu thích hợp. Cụ thể, mô hình hồi quy OLS có sẽ dạng sau:

VN-Index=589.2356 + 0.0886×DJI + 0.0153× EUR -0.0428× USD.

-0.388× SP500 -0.0971× VANG -1.3795× DAU+e.

Phương pháp hồi quy là gì

Phương pháp phân tích hồi quy thực sự mang lại nhiều lợi ích cho những người chơi chứng khoán. Qua bài viết này mình hy vọng các bạn có thể hiểu được sơ lược hồi quy là gì và áp dụng như thế nào. Tuy nhiên bài viết chỉ đề cập đến những thông tin cơ bản nhất. Những vấn đề chuyên sâu hơn cần có sự hướng dẫn và nghiên cứu nhiều lần.

Phân tích hồi quy là một phân tích thống kê để xác định xem các biến độc lập (biến thuyết minh) quy định các biến phụ thuộc (biến được thuyết minh) như thế nào.

Đây là một phương pháp thống kê mà giá trị kỳ vọng của một hay nhiều biến ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫu nhiên (đã tính toán) khác. Cụ thể, có hồi qui tuyến tính, hồi qui lôgic, hồi qui Poisson và học có giám sát. Phân tích hồi qui không chỉ là trùng khớp đường cong (lựa chọn một đường cong mà vừa khớp nhất với một tập điểm dữ liệu); nó còn phải trùng khớp với một mô hình với các thành phần ngẫu nhiên và xác định (deterministic and stochastic components). Thành phần xác định được gọi là bộ dự đoán (predictor) và thành phần ngẫu nhiên được gọi là phần sai số (error term).

Dạng đơn giản nhất của một mô hình hồi qui chứa một biến phụ thuộc (còn gọi là "biến đầu ra," "biến nội sinh," "biến được thuyết minh", hay "biến-Y") và một biến độc lập đơn (còn gọi là "hệ số," "biến ngoại sinh", "biến thuyết minh", hay "biến-X").

Ví dụ thường dùng là sự phụ thuộc của huyết áp Y theo tuổi tác X của một người, hay sự phụ thuộc của trọng lượng Y của một con thú nào đó theo khẩu phần thức ăn hằng ngày X. Sự phụ thuộc này được gọi là hồi qui của Y lên X.

Xem thêm: phân phối chuẩn đa biến (multivariate normal distribution), các ẩn bản quan trọng trong phân tích hồi qui.

Hồi qui thường được xếp vào loại bài toán tối ưu vì chúng ta nỗ lực để tìm kiếm một giải pháp để cho sai số và phần dư là tốt nhất. Phương pháp sai số chung nhất được sử dụng là phương pháp bình phương cực tiểu: phương pháp này tương ứng với một hàm hợp lý dạng Gauss của các dữ liệu quan sát khi biết biến ngẫu nhiên (ẩn). Về một mặt nào đó, bình phương cực tiểu là một phương pháp ước lượng tối ưu: xem định lý Gauss-Markov.

Để giải quyết bài toán tối ưu trong hồi qui thường dùng các giải thuật như giải thuật hạ bậc gradient gradient descent, giải thuật Gauss-Newton, và giải thuật Levenberg-Marquardt. Các giải thuật xác suất như RANSAC có thể được dùng để tìm một phù hợp tốt cho tập mẫu, khi cho trước một mô hình tham số hóa của hàm đường cong.

Hồi qui có thể được biểu diễn bằng phương pháp hàm hợp lý ước lượng các tham số của một mô hình nào đó. Tuy nhiên, với một lượng nhỏ dữ liệu, ước lượng này có thể có phương sai lớn (high variance). Các phương pháp Bayesian có thể được sử dụng để ước lượng các mô hình hồi qui. Các tham số có một phân phối điều kiện được giả định trước, nó bao gồm mọi thông tin thống kê đã biết trước về các biến. (Ví dụ, nếu một tham số được biết là không âm thì một phân phối không âm sẽ được gán cho nó.) Phân phối được giả định trước này sau đó được áp dụng cho vector tham số. Phương pháp Bayes có ưu điểm là khai thác được toàn bộ các thông tin đã có và nó là ước lượng chính xác, không phải ước lượng chệch và do đó rất tốt cho các tập số liệu nhỏ. Trong thực hành, người ta sử dụng phương pháp MAP maximum a posteriori, phương pháp này đơn giản hơn phân tích Bayes đầy đủ, trong đó các tham số được chọn sao cho cực đại hóa phân phối giả định trước posterior. Các phương pháp MAP có liên hệ với Occam's Razor: ở chỗ có sự ưu tiên cho sự đơn giản, khi có nhiều mô hình hồi qui (đường cong) cũng như khi có nhiều lý thuyết thì chọn cái đơn giản.

Chúng ta muốn dự báo giá trị của một biến ngẫu nhiên Y có điều kiện dựa trên một biến ngẫu nhiên khác gọi là nhân tố. Đặt p ∈ N ∗ {\displaystyle p\in \mathbb {N} ^{*}}   là số nhân tố được sử dụng cho dự đoán này.

( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},P)}   xác định một không gian xác suất và ( Γ , S ) {\displaystyle (\Gamma ,S)}   là một không gian đo được trong đó ( Γ , + , . ) {\displaystyle (\Gamma ,+,.)}   Γ = R n {\displaystyle \Gamma =\mathbb {R} ^{n}}   S = B n {\displaystyle S={\mathcal {B}}_{n}}   với n ∈ N ∗ {\displaystyle n\in \mathbb {N} ^{*}}  ). Bây giờ chúng ta có thể xác định biến phụ thuộc Y : ( Ω , A ) → ( Γ , S ) {\displaystyle Y:(\Omega ,{\mathcal {A}})\rightarrow (\Gamma ,S)}   ∀ i ∈ { 1 , ⋯ , p } , X i : ( Ω , A ) → ( Γ , S ) {\displaystyle \forall i\in \{1,\cdots ,p\},X_{i}:(\Omega ,{\mathcal {A}})\rightarrow (\Gamma ,S)}  . Bây giờ, đặt F {\displaystyle F}   là tập các hàm được xác định bởi Ω {\displaystyle \Omega }   nhận các giá trị trong Γ {\displaystyle \Gamma }   Y , X 1 , ⋯ , X p ∈ F {\displaystyle Y,X_{1},\cdots ,X_{p}\in F}   d {\displaystyle d}   là một metric (độ đo) sao cho ( F , d ) {\displaystyle (F,d)}   là một không gian metric đầy đủ complete metric space.

Chúng ta đang tìm một hàm đo được f : ( Γ p , S p ) → ( Γ , S ) {\displaystyle f:(\Gamma ^{p},S^{p})\rightarrow (\Gamma ,S)}   sao cho d ( ω ↦ Y ( ω ) , ω ↦ f ( X 1 ( ω ) , ⋯ , X p ( ω ) ) {\displaystyle d(\omega \mapsto Y(\omega ),\omega \mapsto f(X_{1}(\omega ),\cdots ,X_{p}(\omega ))}   là nhỏ nhất.

Hồi quy tuyến tính là một trường hợp rất phổ biến trong thực tế. Ta giả thiết rằng hàm f {\displaystyle f}   phụ thuộc tuyến tính vào bộ X 1 , ⋯ , X p {\displaystyle X_{1},\cdots ,X_{p}}   như vậy ta chỉ cần tìm kiếm các hệ số phù hợp.

Đặt Θ {\displaystyle \Theta }   là tập các hệ số. Đối thuyết của hồi quy tuyến tính là:

∃ ( β 0 , ⋯ , β p ) ∈ θ p + 1 : {\displaystyle \exists (\beta ^{0},\cdots ,\beta ^{p})\in \theta ^{p+1}:}   E ( Y | X 1 , ⋯ , X p ) = β 0 + ∑ j = 1 p β j X j {\displaystyle \mathbb {E} (Y|X_{1},\cdots ,X_{p})=\beta ^{0}+\sum _{j=1}^{p}\beta ^{j}X_{j}}  

và matric được sử dụng ở đây là:

∀ f , g ∈ F , d ( f , g ) = E [ ( f − g ) 2 ] {\displaystyle \forall f,g\in F,d(f,g)=\mathbb {E} [(f-g)^{2}]}  

Chúng ta muốn cực tiểu hóa E [ ( Y − f ( X 1 , ⋯ , X p ) ) 2 ] {\displaystyle \mathbb {E} [(Y-f(X_{1},\cdots ,X_{p}))^{2}]}  , có nghĩa là

f ( X 1 , ⋯ , X p ) = E ( Y | X 1 , ⋯ , X p ) = β 0 + ∑ j = 1 p β j X j {\displaystyle f(X_{1},\cdots ,X_{p})=\mathbb {E} (Y|X_{1},\cdots ,X_{p})=\beta ^{0}+\sum _{j=1}^{p}\beta ^{j}X_{j}}  .

Như vậy chỉ cần tìm β 0 , ⋯ , β p {\displaystyle \beta ^{0},\cdots ,\beta ^{p}}  . Để giải quyết bài toán này một cách hiệu quả, một số phương pháp đã được đưa ra. Phương pháp phổ biến nhất là phương pháp Gauss-Markov, nhưng nó đòi hỏi thêm một số đối thuyết nữa.

Xem thêm bình phương cực tiểu

Ví dụ đơn giản nhất của hồi qui là trong trường hợp 1 chiều. Chúng ta được cấp một vec-tơ của các giá trị x và một vec-tơ khác của các giá trị y và chúng ta đang cố gắng tìm kiếm một hàm mà f ( x i ) = y i {\displaystyle f(x_{i})=y_{i}}  .

giả sử x → = ( − 2 − 1 0 1 2 ) , y → = ( 5 2 1 2 5 ) {\displaystyle {\vec {x}}={\begin{pmatrix}-2\\-1\\0\\1\\2\\\end{pmatrix}},{\vec {y}}={\begin{pmatrix}5\\2\\1\\2\\5\\\end{pmatrix}}}  

Giả thiết rằng giải pháp (hàm) của chúng ta là thuộc họ các hàm được định bởi chuỗi Fourier mở rộng cấp 3 (3rd degree Fourier expansion) được viết dưới dạng:

f ( x ) = a 0 / 2 + a 1 cos ⁡ ( x ) + b 1 sin ⁡ ( x ) + a 2 cos ⁡ ( 2 x ) + b 2 sin ⁡ ( 2 x ) + a 3 cos ⁡ ( 3 x ) + b 3 sin ⁡ ( 3 x ) {\displaystyle f(x)=a_{0}/2+a_{1}\cos(x)+b_{1}\sin(x)+a_{2}\cos(2x)+b_{2}\sin(2x)+a_{3}\cos(3x)+b_{3}\sin(3x)}  

với a i , b i {\displaystyle a_{i},b_{i}}   là các số thực. Bài toán này có thể được biểu diễn theo dạng ma trận như sau:

( 1 / 2 , cos ⁡ ( x ) , sin ⁡ ( x ) , cos ⁡ ( 2 x ) , sin ⁡ ( 2 x ) , cos ⁡ ( 3 x ) , sin ⁡ ( 3 x ) , ) ( a 0 a 1 b 1 a 2 b 2 a 3 b 3 ) = y → {\displaystyle {\begin{pmatrix}1/2,&\cos(x),&\sin(x),&\cos(2x),&\sin(2x),&\cos(3x),&\sin(3x),\\\end{pmatrix}}{\begin{pmatrix}a_{0}\\a_{1}\\b_{1}\\a_{2}\\b_{2}\\a_{3}\\b_{3}\\\end{pmatrix}}={\vec {y}}}  

điền vào dạng này các giá trị của chúng ta sẽ cho ta bài toán với dạng Xw = y

( 1 / 2 cos ⁡ ( − 2 ) sin ⁡ ( − 2 ) cos ⁡ ( − 4 ) sin ⁡ ( − 4 ) cos ⁡ ( − 6 ) sin ⁡ ( − 6 ) 1 / 2 cos ⁡ ( − 1 ) sin ⁡ ( − 1 ) cos ⁡ ( − 2 ) sin ⁡ ( − 2 ) cos ⁡ ( − 3 ) sin ⁡ ( − 3 ) 1 / 2 1 0 1 0 1 0 1 / 2 cos ⁡ ( 1 ) sin ⁡ ( 1 ) cos ⁡ ( 2 ) sin ⁡ ( 2 ) cos ⁡ ( 3 ) sin ⁡ ( 3 ) 1 / 2 cos ⁡ ( 2 ) sin ⁡ ( 2 ) cos ⁡ ( 4 ) sin ⁡ ( 4 ) cos ⁡ ( 6 ) sin ⁡ ( 6 ) ) . ( a 0 a 1 b 1 a 2 b 2 a 3 b 3 ) = ( 5 2 1 2 5 ) {\displaystyle {\begin{pmatrix}1/2&\cos(-2)&\sin(-2)&\cos(-4)&\sin(-4)&\cos(-6)&\sin(-6)\\1/2&\cos(-1)&\sin(-1)&\cos(-2)&\sin(-2)&\cos(-3)&\sin(-3)\\1/2&1&0&1&0&1&0\\1/2&\cos(1)&\sin(1)&\cos(2)&\sin(2)&\cos(3)&\sin(3)\\1/2&\cos(2)&\sin(2)&\cos(4)&\sin(4)&\cos(6)&\sin(6)\\\end{pmatrix}}.{\begin{pmatrix}a_{0}\\a_{1}\\b_{1}\\a_{2}\\b_{2}\\a_{3}\\b_{3}\\\end{pmatrix}}={\begin{pmatrix}5\\2\\1\\2\\5\\\end{pmatrix}}}  

Bài toán này bây giờ có thể chuyển thành bài toán tối ưu để tìm ra tổng cực tiểu của bình phương sai số.

 

hàm Fourier bậc 3

min w → ∑ i = 1 n ( x i → w → − y i ) 2 {\displaystyle \min _{\vec {w}}\sum _{i=1}^{n}({\vec {x_{i}}}{\vec {w}}-y_{i})^{2}}   min w → ‖ X w → − y → ‖ 2 . {\displaystyle \min _{\vec {w}}\|X{\vec {w}}-{\vec {y}}\|^{2}.}  

giải bằng phương pháp bình phương cực tiểu cho ra:

w → = ( 0 4.25 0 − 6.13 0 2.88 0 ) {\displaystyle {\vec {w}}={\begin{pmatrix}0\\4.25\\0\\-6.13\\0\\2.88\\0\\\end{pmatrix}}}  

vì thế hàm Fourier bậc 3 mà trùng khớp nhất với dữ liệu có công thức cụ thể:

f ( x ) = 4.25 cos ⁡ ( x ) − 6.13 cos ⁡ ( 2 x ) + 2.88 cos ⁡ ( 3 x ) . {\displaystyle f(x)=4.25\cos(x)-6.13\cos(2x)+2.88\cos(3x).}  
  • Mạng nơ-ron nhân tạo
  • Kriging
  • Khai phá dữ liệu
  • Thống kê

  • Audi, R., Ed. (1996) The Cambridge Dictionary of Philosophy. Cambridge, Cambridge University Press. curve fitting problem p. 172-173.
  • David Birkes and Yadolah Dodge, Alternative Methods of Regression (1993), ISBN 0-471-56881-3
  • W. Hardle, Applied Nonparametric Regression (1990), ISBN 0-521-42950-1
  • J. Fox, Applied Regression Analysis, Linear Models and Related Methods. (1997), Sage
  • Regression Analysis SixSigmaFirst
  • Curve Expert (shareware) Lưu trữ 2006-05-07 tại Wayback Machine fits functions to data (limited to one dependant and one independent variable.)
  • Online curve and surface fitting Online curve and surface fitting
  • TableCurve2D and TableCurve3D by Systat automates curve fitting
  • LMS applet Lưu trữ 2005-04-08 tại Wayback Machine
  • another choice
  • online curve-fitting textbook

Lấy từ “https://vi.wikipedia.org/w/index.php?title=Phân_tích_hồi_quy&oldid=67713658”