Math Behind PCA

2019-05-17
Jun Sok Huhh | ๐Ÿ lostineconomics.com

tl; dr

PCA

"์ฐจ์›์˜ ์ €์ฃผ"๋ผ๋Š” ํ‘œํ˜„์ด ์žˆ๋‹ค. ์–ธ๋œป ๋ณด๋ฉด ์ž๋ช…ํ•œ ์ด์•ผ๊ธฐ ๊ฐ™์ง€๋งŒ, ๊ณฐ๊ณฐ์ด ์ƒ๊ฐํ•ด๋ณด๋ฉด ๋ชจํ˜ธํ•œ ๊ตฌ์„์ด ๋งŽ๋‹ค. ๊ด€์ฐฐ ์ˆ˜๋Š” ๋งŽ์„์ˆ˜๋ก ์ข‹์€๋ฐ ์ฐจ์›์€ ๊ด€์ฐฐ๊ณผ ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅผ๊นŒ? ์‰ฝ๊ฒŒ ์ƒ๊ฐํ•ด๋ณด์ž. ๊ด€์ฐฐ ์ˆ˜๋ž€ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ƒ˜ํ”Œ์˜ ์ˆ˜๋‹ค. ์ด๋Š” ๋‹น์—ฐํžˆ ๋งŽ์„์ˆ˜๋ก ์ข‹๋‹ค. (๋ฌผ๋ก  ๋ฏธ์น  ๋“ฏ์ด ๋งŽ์œผ๋ฉด ์ƒˆ๋กœ์šด ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๊ธด ํ•˜๋‚˜, ๋Œ€์ฒด๋กœ ์šฐ๋ฆฌ๋Š” ์ƒ˜ํ”Œ์ด ๋ถ€์กฑํ•ด์„œ ๋ฌธ์ œ๋ฅผ ๊ฒช๋Š”๋‹ค) ํ•˜๋‚˜์˜ ์ƒ˜ํ”Œ์—์„œ ๊ด€์ฐฐ ๊ฐ€๋Šฅํ•œ ๋ณ€์ˆ˜๊ฐ€ 7๊ฐœ๋ผ๊ณ  ํ•ด๋ณด์ž. ์ƒ˜ํ”Œ ์ˆ˜์— ๋”ฐ๋ผ์„œ๋Š” ์ ๋‹นํ•ด ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ, ์ƒ˜ํ”Œ์€ 100 ๊ฐœ์ธ๋ฐ, ํ•œ ์ƒ˜ํ”Œ์—์„œ ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋Š” ํฌ์ธํŠธ๊ฐ€ 1,000 ๊ฐœ๋ผ๊ณ  ์น˜์ž. ์ด ๋ฐ์ดํ„ฐ ์…‹์€ 10๋งŒ ๊ฐœ์˜ ๊ฐœ๋ณ„ ํฌ์ธํŠธ๋ฅผ ์ง€๋‹Œ ์ œ๋ฒ• ํฐ ๋ฐ์ดํ„ฐ ์…‹์ด์ง€๋งŒ ๋ณ„ ์“ธ๋ชจ๋Š” ์—†๋‹ค. ๊ด€์ฐฐ ์ˆ˜์— ๋น„ํ•ด์„œ ๊ฐœ์ฒด์˜ ์ฐจ์›์ด ์ง€๋‚˜์น˜๊ฒŒ ํฌ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋Ÿด ๊ฒฝ์šฐ ์–ด๋–ป๊ฒŒ ์ฐจ์›์„ ์ค„์ด๋ฉด ์ข‹์„๊นŒ? ์‰ฝ๊ฒŒ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์€ 1,000 ๊ฐœ์˜ ํŠน์ง•๋“ค์„ ์ข€ ์ค„์—ฌ๋ณด๋Š” ๊ฒƒ์ด๋‹ค. ์ฃผ์„ฑ๋ถ„๋ถ„์„(Principal Component Analysis)์€ ์ด๋ฅผ ์œ„ํ•ด ํ•„์š”ํ•œ ๋ฐฉ๋ฒ•์ด๋‹ค.

Objective function for PCA?

๋Œ€์ฒด๋กœ ๋งŽ์€ PCA์— ๊ด€ํ•œ ์„ค๋ช…๋“ค์ด ์›๋ž˜ ํ•˜๊ณ  ์‹ถ์€ ๊ฒŒ ๋ฌด์—‡์ธ์ง€์— ๊ด€ํ•ด ๋ฌป์ง€ ์•Š๋Š”๋‹ค. PCA๋ž€ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์••์ถ•ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋ผ๋Š” ์ด์•ผ๊ธฐ๋งŒ ํ•  ๋ฟ. ์ˆ˜ํ•™์ ์œผ๋กœ ๋งํ•˜๋ฉด ๋ชฉ์ ํ•จ์ˆ˜์— ๊ด€ํ•œ ์งˆ๋ฌธ์ด๊ณ  ์šฐ๋ฆฌ๋Š” ๋จผ์ € ์ด ์งˆ๋ฌธ์— ์ง‘์ค‘ํ•˜๊ฒ ๋‹ค.

๋Œ€์ฒด๋กœ ํ†ต๊ณ„ํ•™์˜ ์•Œ๊ณ ๋ฆฌ๋“ฌ์€ ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ํ˜•ํƒœ์ด๋‹ค. PCA๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋‹ค. ๊ด€์ฐฐ ๋Œ€์ƒ ii(for i=1,โ€ฆ,ni = 1, \dotsc, n)์— ๊ด€ํ•œ kk ์ฐจ์›์˜ ํ”ผ์ฒ˜ ๋ฒกํ„ฐ xix_i๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•˜์ž. xix_i๋Š” kร—1k \times 1์˜ ์นผ๋Ÿผ ๋ฒกํ„ฐ์ด๋‹ค. ์•ž์œผ๋กœ ํŠน๋ณ„ํ•œ ์–ธ๊ธ‰์ด ์—†๋Š” ์ด์ƒ ์•ž์œผ๋กœ xix_i ๋ฒกํ„ฐ๋Š” nn๊ฐœ์˜ ๊ด€์ฐฐ์— ๋Œ€ํ•œ ํ‰๊ท ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฒกํ„ฐ ฮผ=[ฮผ1 ฮผ2 โ€ฆ ฮผk]T\mu = [\mu^1~\mu^2~\dotsc~\mu^k]^T๋ฅผ ๋บ€ ๊ฐ’์ด๋ผ๊ณ  ๊ฐ„์ฃผํ•˜์ž. ์ฆ‰, XiX_i๊ฐ€ ํ‰๊ท ์„ ๋นผ์ง€ ์•Š์€ ii ๋ผ๊ณ  ํ•  ๋•Œ,

xikร—1=[Xi1โˆ’ฮผ1Xi2โˆ’ฮผ2โ‹ฎXikโˆ’ฮผk] \underset{k \times 1}{x_i} = \left[\begin{array}{c}{X^1_i - \mu^1} \\ {X^2_i - \mu^2} \\ {\vdots} \\ {X^k_i - \mu^k}\end{array}\right]

์ด์ œ ํ•ด๋‹น ํ”ผ์ณ๋ฅผ ์  ์Šคํฌ๋ฆฐ์œผ๋กœ ํ™œ์šฉํ•  ์œ ๋‹› ๋ฒกํ„ฐ๋ฅผ ww๋ผ๊ณ  ํ•˜์ž. ์œ ๋‹› ๋ฒกํ„ฐ๋ž€ wโ‹…w=1w \cdot w = 1๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ์Šคํฌ๋ฆฐ์ด๋ผ๋Š” ์˜๋ฏธ๋Š” ๊ฐœ๋ณ„ ๊ด€์ฐฐ์ด ์ง€๋‹ˆ๋Š” ํŠน์ง•์„ ์ด ๋ฒกํ„ฐ๋กœ ํ”„๋กœ์ ์…˜ํ•ด์„œ ๊ทธ ํŠน์ง•์„ ์š”์•ฝํ•˜๊ฒ ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์šฐ๋ฆฌ์—๊ฒŒ ์ต์ˆ™ํ•œ ํšŒ๊ท€๋ถ„์„ ์—ญ์‹œ yiy_i๋ผ๋Š” ๊ด€์ฐฐ์„ ์„ค๋ช…๋ณ€์ˆ˜ X\mathbf X๊ฐ€ ํ˜•์„ฑํ•˜๋Š” ์„ ํ˜• ๋ถ€๋ถ„๊ณต๊ฐ„์œผ๋กœ ํ”„๋กœ์ ์…˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. xix_i๋ฅผ ww๋กœ ํ”„๋กœ์ ์…˜ ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

Projโกw(xi)=wโ‹…xiโˆฅwโˆฅ=wโ‹…xi \operatorname{Proj}_{w}(x_i) = \dfrac{w \cdot x_i}{\Vert w \Vert} = w \cdot x_ i

์ด ํ”„๋กœ์ ์…˜์˜ ๋ฒกํ„ฐ ww ์œ„์˜ ์ด๋ฏธ์ง€๋Š” (wโ‹…xi)w(w \cdot x_i) w๊ฐ€ ๋œ๋‹ค.

์ด ํ”„๋กœ์ ์…˜ ์Šค์นผ๋ผ ๊ฐ’ ํ˜น์€ ํ”„๋กœ์ ์…˜ ๋ฒกํ„ฐ์˜ ๊ธฐ๋Œ“๊ฐ’์€ ์•„๋ž˜์™€ ๊ฐ™์ด 0์ด ๋œ๋‹ค.
1nโˆ‘i=1n(wโ‹…xi)=(1nโˆ‘i=1nxi)โ‹…w=0โ‹…w=0 \dfrac{1}{n} \sum^n_{i=1} (w \cdot x_i) = \left( \dfrac{1}{n} \sum_{i=1}^n x_i \right)\cdot w = \boldsymbol{0} \cdot w = 0

๋ฒกํ„ฐ xix_i์™€ ์ด ํ”„๋กœ์ ์…˜ ์ด๋ฏธ์ง€ ์‚ฌ์ด์˜ ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํ•ด๋ณด์ž.

โˆฅxiโˆ’(wโ‹…xi)wโˆฅ2=โˆฅxiโˆฅ2โˆ’2(wโ‹…xi)(wโ‹…xi)+โˆฅwโˆฅ2=โˆฅxiโˆฅ2โˆ’2(wโ‹…xi)2+1 \begin{aligned} \Vert x_i - (w \cdot x_i) w \Vert^2 & = \Vert x_i \Vert^2 - 2 (w \cdot x_i)(w \cdot x_i) + \Vert w \Vert^2 \\ & = \Vert x_i \Vert^2 - 2 (w \cdot x_i)^2 + 1 \end{aligned}

๋ชจ๋“  ๊ด€์ฐฐ ์ˆ˜ nn์— ๋Œ€ํ•ด์„œ ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํ•ด ๋”ํ•˜๋ฉด ์ด๊ฒƒ์ด ์ผ์ข…์˜ MSE(Mean Squared Error)๊ฐ€ ๋œ๋‹ค.

MSE(w)=1nโˆ‘i=1n(โˆฅxiโˆฅ2โˆ’2(wโ‹…xi)2+1)=1+1nโˆ‘i=1nโˆฅxiโˆฅ2โŸ(โˆ—)โˆ’21nโˆ‘i=1n(wโ‹…xi)2 \begin{aligned} \mathrm{MSE}(w) & = \dfrac{1}{n}\sum_{i=1}^n \left( \Vert x_i \Vert^2 - 2(w \cdot x_i)^2 + 1 \right) \\ & = \underbrace{1 + \dfrac{1}{n}\sum_{i=1}^n \Vert x_i \Vert^2}_{(\ast)} - 2\dfrac{1}{n}\sum_{i=1}^n (w \cdot x_i)^2 \end{aligned}

MSE๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒŒ ๋ชฉํ‘œ๋ผ๊ณ  ํ•˜์ž. ๋ชฉ์ ํ•จ์ˆ˜๋ฅผ ์ตœ์ ํ™” ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ww๋ฅผ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. (โˆ—)(*)๋Š” ww๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์ง€ ์•Š์œผ๋ฏ€๋กœ ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„์„ ์ตœ์†Œํ™”ํ•˜๋ฉด MSE๊ฐ€ ๊ทน๋Œ€ํ™”๋œ๋‹ค.

1nโˆ‘i=1n(wโ‹…xi)2=(1nโˆ‘i=1nwโ‹…xi)2+Vari[wโ‹…xi] \dfrac{1}{n} \sum_{i=1}^n (w \cdot x_i)^2 = \left(\dfrac{1}{n} \sum_{i=1}^n w \cdot x_i \right)^2 + \underset{i}{\mathrm{Var}}[w \cdot x_i]

์ด ์‹์ด ์„ฑ๋ฆฝํ•˜๋Š” ์ด์œ ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ Var(y)=E(y2)โˆ’(E(y))2\mathrm{Var}(y)= \mathrm{E}(y^2) - (\mathrm{E}(y))^2์ด ์„ฑ๋ฆฝํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์•ž์—์„œ ๋ณด์•˜๋“ฏ์ด E(wโ‹…xi)=0\mathrm{E} (w \cdot x_i) = 0 ์„ฑ๋ฆฝํ•œ๋‹ค. ๋”ฐ๋ผ์„œ MSE๋ฅผ ์ตœ์†Œํ™”ํ•œ๋‹ค๋Š” ๊ฒƒ์€ Vari[โ‹…]\mathrm{Var}_i [\cdot]์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™๊ฒŒ ๋œ๋‹ค. PCA์— ๋ถ„์‚ฐ์— ๊ด€ํ•œ ์ด์•ผ๊ธฐ๊ฐ€ ์ž๊พธ ๋‚˜์˜ค๋Š” ๊ฒƒ์€ ์ด ๋•Œ๋ฌธ์ด๋‹ค.

Variance Maximization

Variance-covariance matrix

์™œ ๋ถ„์‚ฐ์ด ๋“ฑ์žฅํ•˜๋Š”์ง€๋ฅผ ํŒŒ์•…ํ–ˆ์œผ๋‹ˆ ๋ถ„์‚ฐ ์ตœ๋Œ€ํ™”๋ฅผ ๊ณ„์‚ฐํ•ด๋ณผ ์ฐจ๋ก€๋‹ค. ์•„๋ž˜ ํ–‰๋ ฌ XX๋ฅผ ํ†ตํ•ด ์‰ฝ๊ฒŒ ๋ถ„์‚ฐ-๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์„ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค. xijx_i^j ์—์„œ i(=1,2,โ€ฆ,n)i (=1,2,\dotsc, n)๋Š” ๊ด€์ฐฐ์„, j(=1,2,โ€ฆ,k)j(=1,2,\dotsc,k)๋Š” ํ”ผ์ณ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

Xnร—k=[x1Tx2Tโ‹ฎxnT]=[x11x12โ‹ฏx1kx21x22โ‹ฏx2kโ‹ฎโ‹ฎโ‹ฑโ‹ฎxn1xn2โ‹ฏxnk] \underset{n \times k}{X} = \begin{bmatrix} {x_1}^T \\ {x_2}^T \\ \vdots \\ {x_n}^T \end{bmatrix} = \begin{bmatrix} {x_1^1} & {x_1^2} & {\cdots} & {x_1^k} \\ {x_2^1} & {x_2^2} & {\cdots} & {x_2^k}\\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {x_n^1} & {x_n^2} & {\cdots} & {x_n^k} \end{bmatrix}

1nโˆ’1XTX(kร—n)(nร—k)=[cov(x1,x1)cov(x1,x2)โ‹ฏcov(x1,xk)cov(x2,x1)cov(x2,x2)โ‹ฏcov(x2,xk)cov(xk,x1)cov(xk,x2)โ‹ฏcov(xk,xk)]=ฮฃ, where \begin{aligned} \dfrac{1}{n-1} \underset{(k \times n) (n \times k)}{X^{T} X} = \begin{bmatrix} \text{cov}(x^1, x^1) & \text{cov}(x^1, x^2) & \cdots & \text{cov}(x^1, x^k) \\ \text{cov}(x^2, x^1) & \text{cov}(x^2, x^2) & \cdots & \text{cov}(x^2, x^k) \\ \text{cov}(x^k, x^1) & \text{cov}(x^k, x^2) & \cdots & \text{cov}(x^k, x^k) \end{bmatrix} = \Sigma, \text{~where} \end{aligned}

cov(xi,xj)=1nโˆ’1โˆ‘k=1nxkixkj \text{cov}(x^i, x^j) = \dfrac{1}{n-1}\sum_{k=1}^{n} x^i_k x^j_k

eigenvalue๋Š” ์–ด๋–ป๊ฒŒ ๋“ฑ์žฅํ•˜๋‚˜?

์ž„์˜์˜ ๋‹จ์œ„ ๋ฒกํ„ฐ ww์™€ ๊ทธ ํ”„๋กœ์ ์…˜์„ ๋‹ค์‹œ ์ ์–ด๋ณด์ž. ํ‘œ๊ธฐ๋ฅผ ๊ฐ„๋‹จํžˆ ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ƒ์ฒจ์ž๋Š” ์ƒ๋žตํ•œ๋‹ค. ์ด์ œ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๊ฐ€ ์•„๋‹ˆ๋ผ XX๋ผ๋Š” ๋งคํŠธ๋ฆญ์Šค ์ „์ฒด์— ๋Œ€ํ•ด์„œ ํ”„๋กœ์ ์…˜์„ ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

Projโกw(X)=XwโˆฅwโˆฅโˆˆRnร—1\operatorname{Proj}_{w} (X) = \dfrac{X w}{\Vert w \Vert} \in {\mathbb R}^{n \times 1}

์ด์ œ ๊ทน๋Œ€ํ™”์˜ ๋ชฉ์ ์€ ์ด๋ ‡๊ฒŒ ํ”„๋กœ์ ์…˜๋œ ์ด๋ฏธ์ง€์˜ ๋ถ„์‚ฐ์„ ๊ฐ€์žฅ ํฌ๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค. ์•ž์„œ์˜ ๊ฐ€์ •์— ๋”ฐ๋ผ์„œ E(X)=0\mathrm{E}(X) = 0๊ฐ€ ์„ฑ๋ฆฝํ•จ์„ ๊ธฐ์–ตํ•ด๋‘์ž.

Var(Xw)=1nโˆ’1(Xw)T(Xw)=1nโˆ’1wTXTXw=1nโˆ’1wT(XTX)w=wT(XTXnโˆ’1)w=wTฮฃw \begin{aligned} \mathrm{Var}(X {w}) &= \frac{1}{n-1}(X {w})^{T}(X {w}) \\ &=\frac{1}{n-1} {w}^{T} X^{T} X {w} =\frac{1}{n-1} {w}^{T}\left(X^{T} X\right) {w} \\ &={w}^{T}\left(\frac{X^{T} X}{n-1}\right) {w} \\ &={w}^{T} \Sigma {w} \end{aligned}

๊ทธ๋Ÿฐ๋ฐ, ww๋Š” ๋‹จ์œ„๋ฒกํ„ฐ์ž„์œผ๋กœ wโ‹…w=1w \cdot w = 1์ด๋‹ค. ์ด๋ฅผ ์ œ์•ฝ ์กฐ๊ฑด์œผ๋กœ ๋‘๊ณ  ์ œ์•ฝ ํ•˜์˜ ๊ทน๋Œ€ํ™” ๋ฌธ์ œ๋ฅผ ์ •์‹ํ™”ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

L=wTโกฮฃwโˆ’ฮป(wโ‹…wโˆ’1) {\mathcal L} =w^{\operatorname T} \Sigma w - \lambda (w \cdot w -1)

โˆ‚Lโˆ‚w=0=2ฮฃwโˆ’2ฮปwโˆ‚Lโˆ‚ฮป=0=wโ‹…wโˆ’1 \begin{aligned} \dfrac{\partial \mathcal L}{\partial w} & = 0 = 2 \Sigma w - 2\lambda w \\ \dfrac{\partial \mathcal L}{\partial \lambda} & = 0 = w \cdot w - 1 \end{aligned}

1๊ณ„ ์กฐ๊ฑด์„ ๋‹ค์‹œ ๋ณด์ž.1 ฮฃw=ฮปw\Sigma w = \lambda w ์กฐ๊ฑด์ด ํฅ๋ฏธ๋กญ๋‹ค. 1๊ณ„ ์กฐ๊ฑด์ด ์ •ํ™•ํ•˜๊ฒŒ ์•„์ด๊ฒ๋ฐธ๋ฅ˜(eigenvalue, ๊ณ ์œ ๊ฐ’)์™€ ์•„์ด๊ฒ๋ฒกํ„ฐ(eigenvector, ๊ณ ์œ ๋ฒกํ„ฐ)๋ฅผ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์–ด๋–ค ๋งคํŠธ๋ฆญ์Šค๊ฐ€ ์žˆ์„ ๋•Œ ํ•ด๋‹น ๋งคํŠธ๋ฆญ์Šค์˜ ๋ถ„์‚ฐ-๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ์•„์ด๊ฒ๋ฐธ๋ฅ˜์™€ ์•„์ด๊ฒ๋ฒกํ„ฐ๋ฅผ ๊ตฌํ•˜๋ฉด ๊ทธ ์•„์ด๊ฒ๋ฐธ๋ฅ˜์™€ ๋ฒกํ„ฐ๊ฐ€ ๋ฐ”๋กœ MSE๋ฅผ ์ตœ์ ํ™”ํ•ด์ฃผ๋Š” ๊ฐ’์ด ๋œ๋‹ค. ์ด๋•Œ ww๋Š” ์•„์ด๊ฒ๋ฒกํ„ฐ์ด๋ฉฐ ฮป\lambda๋Š” ์•„์ด๊ฒ๋ฐธ๋ฅ˜๊ฐ€ ๋œ๋‹ค. ์•„์ด๊ฒ๋ฐธ๋ฅ˜๋Š” ์•„๋ž˜ ์‹์—์„œ ๋ณด๋“ฏ์ด ๋ถ„์‚ฐ์ด๋‹ค.2

Varโก(Xw)=wTฮฃw=wT(ฮปw)=ฮปwโ‹…w=ฮป \operatorname{Var}(X w) = w^{\mathrm T} \Sigma w = w^{\mathrm T} (\lambda w) = \lambda w \cdot w = \lambda

์•„๋งˆ๋„ ์ตœ์ ํ™” ๊ณต๋ถ€๋ฅผ ํ•ด๋ณธ ์‚ฌ๋žŒ์ด๋ผ๋ฉด ๊ฐธ์šฐ๋šฑํ• ์ง€ ๋ชจ๋ฅด๊ฒ ๋‹ค. 1๊ณ„ ์กฐ๊ฑด์€ ํ•„์š” ์กฐ๊ฑด์ด๋‹ค. ์ฆ‰, ๊ทน๋Œ€ํ™”, ๊ทน์†Œํ™” ๋ชจ๋‘๋ฅผ ๊ทธ ์•ˆ์— ๋‹ด๊ณ  ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด 2๊ณ„ ์ถฉ๋ถ„ ์กฐ๊ฑด์„ ๋”ฐ์ ธ์•ผ ํ•˜์ง€ ์•Š์„๊นŒ? ๊ทธ๋Ÿฐ๋ฐ, ์œ„ ์‹์— ๋Œ€ํ•ด์„œ ์‚ฌ์‹ค 2๊ณ„ ์ถฉ๋ถ„ ์กฐ๊ฑด์„ ๋”ฐ์ง€๋Š” ๊ฒƒ์ด ์‰ฝ์ง€ ์•Š๋‹ค. ๋‹ค๋งŒ ์ด ๋ฌธ์ œ๋Š” ๋‹คํ–‰์Šค๋Ÿฝ๊ฒŒ๋„ ์ง€๋ฆ„๊ธธ์ด ์žˆ๋‹ค. ์œ„์—์„œ ๋ณด๋“ฏ์ด 1๊ณ„ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋Š” ww๋Š” ฮฃ\Sigma์˜ ์•„์ด๊ฒ๋ฒกํ„ฐ๋‹ค. ๋”ฐ๋ผ์„œ ์ด ์•„์ด๊ฒ๋ฒกํ„ฐ์—์„œ๋งŒ ๊ทน๋Œ€๊ฐ’๊ณผ ๊ทน์†Œ๊ฐ’์ด ์กด์žฌํ•œ๋‹ค. 1๊ณ„ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋Š” ์•„์ด๊ฒ๋ฒกํ„ฐ๋ฅผ ฯ‰\omega๋ผ๊ณ  ํ•˜์ž.

L(ฯ‰)=ฯ‰Tฮฃฯ‰โˆ’ฮป(ฯ‰โ‹…ฯ‰โˆ’1)=ฯ‰T(ฮฃwโˆ’ฮปw)+ฮป=ฮป \begin{aligned} {\mathcal L}(\omega) & =\omega^{T} \Sigma \omega - \lambda (\omega \cdot \omega -1) \\ & = \omega^T (\Sigma w - \lambda w) + \lambda \\ & = \lambda \end{aligned}

์ฆ‰, 1๊ณ„ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋Š” ๊ฐ’์—์„œ ๋ชฉ์  ํ•จ์ˆ˜์˜ ๊ฐ’์€ ์•„์ด๊ฒ๋ฐธ๋ฅ˜ ฮป\lambda๊ฐ€ ๋œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์œ„์—์„œ ๋ณด์•˜๋“ฏ์ด ฮป\lambda๋Š” XwXw์˜ ๋ถ„์‚ฐ์ด ๋˜๊ธฐ ๋•Œ๋ฌธ์— ๋ถ„์‚ฐ์ด ํฐ ๊ฐ’์˜ ์•„์ด๊ฒ๋ฒกํ„ฐ๊ฐ€ ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ww๊ฐ€ ๋œ๋‹ค.

์•ž์„œ ฮป\lambda๊ฐ€ ๋ถ„์‚ฐ์ด ๋œ๋‹ค๊ณ  ๋งํ–ˆ๋‹ค. ์ž ๊น, ๋ถ„์‚ฐ์ด๋ผ๋ฉด ํ•ญ์ƒ 0๋ณด๋‹ค ์ปค์•ผ ํ•˜๋Š”๋ฐ, ฮป\lambda๊ฐ€ 0๋ณด๋‹ค ํฌ๋‹ค๋Š” ๋ณด์žฅ์ด ์žˆ๋Š”๊ฐ€? ์ด ๋ฌธ์ œ๋ฅผ ํฌํ•จํ•˜์—ฌ ์•ž์—์„œ ์ •๋ฆฌํ•˜์ง€ ๋ชปํ•œ ๋ช‡ ๊ฐ€์ง€ ๋ฌธ์ œ๋ฅผ ๋ชจ์•„์„œ ์‚ดํŽด๋ณด์ž.

Properties of var-cov matrix

๋ถ„์‚ฐ-๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์€ ์•„๋ž˜์™€ ๊ฐ™์€ ๋‘ ๊ฐ€์ง€ ํŠน์ง•์„ ์ง€๋‹Œ๋‹ค.

๋Œ€์นญ ํ–‰๋ ฌ

์šฐ์„ , ๋ถ„์‚ฐ-๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์ด๋ฏ€๋กœ ๋Œ€์นญ์ด๋‹ค. ํ–‰๋ ฌ์ด ๋Œ€์นญ์ผ ๊ฒฝ์šฐ ์•„์ด๊ฒ๋ฐธ๋ฅ˜๋Š” ๋ชจ๋‘ ์‹ค์ˆ˜์ด๋ฉฐ ์•„์ด๊ฒ๋ฒกํ„ฐ๋“ค์€ ์„œ๋กœ ์ง๊ต(orthogonal)ํ•œ๋‹ค.

For i,jโˆˆ{1,2,โ€ฆ,k} with iโ‰ j,wiโ‹…wj=0i, j \in \{ 1, 2, \dotsc, k\}~\text{with}~i \ne j, w^i \cdot w^j = 0, and for iโˆˆ{1,2,โ€ฆ,k} ,wiโ‹…wi=1i \in \{ 1, 2, \dotsc, k\}~, w^i \cdot w^i =1

์—ฌ๋Ÿฌ๊ฐœ์˜ ํ”„๋กœ์ ์…˜ ์Šคํฌ๋ฆฐ ๋ฒกํ„ฐ๋“ค์ด ์กด์žฌํ•  ๊ฒฝ์šฐ ํ•ด๋‹น ๋ฒกํ„ฐ๋“ค์ด ์„œ๋กœ ์ง๊ตํ•˜๋ฉด ๋ถ„์‚ฐ๊ฐ’์˜ ํ•ฉ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ๊ณผ MSE๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ์ง€๋‹Œ๋‹ค. ์ด ์กฐ๊ฑด์ด ๋ถ„์‚ฐ-๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ์†์„ฑ์„ ํ†ตํ•ด ์„ฑ๋ฆฝํ•œ๋‹ค.

๋ถ„์‚ฐ-๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ์ด ํŠน์ง•์ด PCA์˜ ํฅ๋ฏธ๋กœ์šด ์  ํ•˜๋‚˜๋ฅผ ๋“œ๋Ÿฌ๋‚œ๋‹ค. 2 ์ฐจ์› ํ‰๋ฉด์—์„œ ์‚ฌ ๋ถ„๋ฉด์„ ๋– ์˜ฌ๋ ค๋ณด์ž. ์‚ฌ ๋ถ„๋ฉด์„ ๊ตฌ์„ฑํ•˜๋Š” xx, yy ์ถ•์€ ์„œ๋กœ ์ง๊ตํ•œ๋‹ค. 2 ์ฐจ์› ํ‰๋ฉด ์œ„์— ์–ด๋–ค ๊ด€์ฐฐ์— ๋Œ€ํ•ด์„œ PCA๋ฅผ ํ–ˆ๋‹ค๊ณ  ํ•˜์ž. PCA์˜ ์Šคํฌ๋ฆฐ์œผ๋กœ ๋‘ ๊ฐœ๋ฅผ ์‚ฌ์šฉํ–ˆ๊ณ , ํ•ด๋‹น ์Šคํฌ๋ฆฐ์ด ์•„์ด๊ฒ๋ฒกํ„ฐ๋ผ๋ฉด ์ด ๋‘ ๋ฒกํ„ฐ๋Š” ์„œ๋กœ ์ง๊ตํ•œ๋‹ค. ์ฆ‰, ์›๋ž˜ ์ง๊ตํ–ˆ๋˜ ๋‘ ์ถ•์—์„œ ์ง๊ตํ•˜๋Š” ๋‹ค๋ฅธ ๋‘ ์ถ•์œผ๋กœ ์ขŒํ‘œ์˜ ๊ธฐ์ค€์„ ์ด๋™ํ•˜๋Š” ๊ฐœ๋…์ด๋‹ค. ์ฆ‰ PCA๋Š” ๋ถ„์‚ฐ์„ ๊ฐ€์žฅ ํฌ๊ฒŒ ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ขŒํ‘œ์ถ•์„ ์ด๋™ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ์ดํ•ดํ•˜๋ฉด ์ข‹๊ฒ ๋‹ค. PCA์— ๊ด€ํ•œ ์†Œ๊ฐœ์—์„œ ์•„๋ž˜์˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ์ถ•์„ ๋Œ๋ฆฐ ์˜ˆ์‹œ๊ฐ€ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ๊นŒ๋‹ญ์ด๊ธฐ๋„ ํ•˜๊ฒ ๋‹ค.3

Positive-definite

ฮฃ\Sigma๋Š” ์ค€์–‘์ •ํ–‰๋ ฌ(positive semi-definite) ํ–‰๋ ฌ์ด๋‹ค.4 ์ฆ‰,

xTฮฃxโ‰ฅ0 for any x. x^T \Sigma x \geq 0 ~\text{for any $x$.}

์ด ๊ฒฝ์šฐ ๋ชจ๋“  ์•„์ด๊ฒ๋ฐธ๋ฅ˜์˜ ๊ฐ’์€ ์Œ์ˆ˜๊ฐ€ ๋˜์ง€ ์•Š๋Š”๋‹ค. ์•ž์„œ ์•„์ด๊ฒ๋ฐธ๋ฅ˜๊ฐ€ ๋ถ„์‚ฐ์ด ๋œ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ณด์•˜๋‹ค. ์•„์ด๊ฒ๋ฐธ๋ฅ˜๊ฐ€ ์Œ์ˆ˜๊ฐ€ ๋  ์ˆ˜ ์—†๊ณ  ๋”ฐ๋ผ์„œ ๋ถ„์‚ฐ์ด ๋  ์ˆ˜ ์žˆ๋‹ค.

Principal component?

ํ”„๋กœ์ ์…˜ ์Šคํฌ๋ฆฐ ๋ฒกํ„ฐ ww์— ๋”ฐ๋ฅธ ๊ทน๋Œ€ํ™” ๋ฌธ์ œ๋ฅผ ํ’€๋ฉด ์•„์ด๊ฒ๋ฐธ๋ฅ˜์™€ ์•„์ด๊ฒ๋ฒกํ„ฐ๋ฅผ ๊ฐ๊ฐ ํ•˜๋‚˜์”ฉ ์–ป๊ฒŒ ๋œ๋‹ค. kk ๊ฐœ์˜ ์Šคํฌ๋ฆฐ ๋ฒกํ„ฐ ํ˜น์€ ์•„์ด๊ฒ๋ฒกํ„ฐ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ํ•  ๋•Œ, ๋ถ„์‚ฐ(์•„์ด๊ฒ๋ฐธ๋ฅ˜)์ด ํฐ ์ˆœ์„œ๋Œ€๋กœ ์•„์ด๊ฒ๋ฒกํ„ฐ๋ฅผ ์ •๋ ฌํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž. ์ด๋ ‡๊ฒŒ ์ •๋ ฌํ•˜๋ฉด ํ”„๋กœ์ ์…˜ ์Šคํฌ๋ฆฐ ๋ฒกํ„ฐ ์ค‘์—์„œ MSE๋ฅผ ๋” ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ๋ฒกํ„ฐ ์ˆœ์œผ๋กœ ์ •๋ ฌํ•˜๋Š” ์…ˆ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ๋ถ„์‚ฐ์ด ํฐ ์ˆœ์„œ๋Œ€๋กœ ๋‚˜์—ดํ•œ ์„œ๋กœ ๋‹ค๋ฅธ ์Šคํฌ๋ฆฐ๋ฒกํ„ฐ๊ฐ€ ๋ฐ”๋กœ ์ฃผ์„ฑ๋ถ„(pricipal component)๋‹ค.

kk ๊ฐœ์˜ ์ฃผ์„ฑ๋ถ„ ์ค‘์—์„œ ์ž„์˜๋กœ ll ๊ฐœ๋ฅผ ์ทจํ•œ๋‹ค๋ฉด(์ด๊ฒŒ ์ฐจ์› ์ถ•์†Œ๊ฐ€ ์•„๋‹๊นŒ?), MSE๋ฅผ ๋‚ฎ์ถ”๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ถ„์‚ฐ์ด ํฐ ์ˆœ์„œ๋Œ€๋กœ, ์ฆ‰ ์•„์ด๊ฒ๋ฐธ๋ฅ˜๊ฐ€ ํฐ ์ˆœ์„œ๋Œ€๋กœ ์ฃผ์„ฑ๋ถ„์„ ์ทจํ•˜๋ฉด ๋œ๋‹ค. ์ด๊ฒŒ PCA๋ฅผ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ดํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

๊ทธ๋Ÿฐ๋ฐ ํ•œ ๊ฐ€์ง€ ์ฐœ์ฐœํ•œ ์ ์ด ๋‚จ๋Š”๋‹ค. ์ฃผ์„ฑ๋ถ„์€ ์ด๋ ‡๊ฒŒ ์ˆœ์„œ๋Œ€๋กœ ์ทจํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์€ ์ฃผ์„ฑ๋ถ„์„ ๊ฒฐํ•ฉํ•ด์„œ ๋” ํฐ ๋ถ„์‚ฐ์„ ์–ป์„ ์ˆ˜ ์—†์„ ๋•Œ๋งŒ ๊ฐ€๋Šฅํ•˜๋‹ค. ์˜ˆ์ปจ๋Œ€, w1w_1๊ณผ w2w_2๋ฅผ ์ ๋‹นํžˆ ์„ ํ˜•๊ฒฐํ•ฉํ•ด ๋ถ„์‚ฐ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค๋ฉด ๋ถ„์‚ฐ์ด ํฐ ์ˆœ์„œ๋Œ€๋กœ ์•„์ด๊ฒ๋ฒกํ„ฐ๋ฅผ ์„ ํƒํ•œ๋‹ค๋Š” ๋…ผ์˜๋Š” ๊นจ์ง€๊ฒŒ ๋œ๋‹ค. ์ด ๊ฐ€๋Šฅ์„ฑ์„ ์‚ดํŽด๋ด์•ผ ํ•˜๊ฒ ๋‹ค.

ํ”„๋กœ์ ์…˜์˜ ์Šคํฌ๋ฆฐ์œผ๋กœ ๋™์›๋˜๋Š” ๋ฒกํ„ฐ๊ฐ€ w1,w2,โ€ฆ,wkw^1, w^2, \dotsc, w^k๋ผ๊ณ  ํ•˜์ž. ์ด ํ”„๋กœ์ ์…˜์„ ํ†ตํ•ด ์ƒ์„ฑ๋˜๋Š” ๋ฒกํ„ฐ๋“ค์ด ์ด๋ฃจ๋Š” ๋ถ€๋ถ„๊ณต๊ฐ„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

โˆ‘j=1k(xiโ‹…wj)๊ฐ€์ค‘์น˜wj \sum_{j=1}^k \underset{\mathrm{๊ฐ€์ค‘์น˜}}{( x_i \cdot w^j) } w^j

xix_i์™€ wjw^j ๋ชจ๋‘ kร—1k \times 1 ๋ฒกํ„ฐ์ž„์„ ํ™•์ธํ•˜๊ณ  ๊ฐ€์ž. ์ด ๋…€์„๊ณผ xix_i์˜ MSE๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฌธ์ œ๋Š” ์–ด๋–ป๊ฒŒ ๋ ๊นŒ? ๊ณ„์‚ฐ์ด ๋‹ค์†Œ ๋ณต์žกํ•˜๋‹ˆ ์ง๊ด€๋งŒ ์งš๊ณ  ๋„˜์–ด๊ฐ€์ž.

  1. ์•ž์„œ ์Šคํฌ๋ฆฐ์ด ํ•˜๋‚˜์˜€๋˜ ๊ฒฝ์šฐ์™€ ๋งˆ์นœ๊ฐ€์ง€๋กœ xix_i์™€ ์ € ๊ฐ’์˜ ๋‚ด์ ์˜ ๋ถ„์‚ฐ์„ ์ตœ๋Œ€ํ™” ํ•ด์•ผ ํ•œ๋‹ค.
  2. ๋งŒ์ผ wโ‹…w_\cdot๋“ค์ด ์„œ๋กœ ์ง๊ตํ•œ๋‹ค๋ฉด, wiโ‹…wj(iโ‰ j)w_i \cdot w_j (i \neq j)๋Š” 0์ด ๋˜์–ด ์‚ฌ๋ผ์งˆ ๊ฒƒ์ด๊ณ , wiโ‹…wiw_i \cdot w_i(=1)๋กœ ๊ตฌ์„ฑ๋œ ํ…€๋งŒ ๋งŒ๊ฒŒ ๋œ๋‹ค. ๊ฒฐ๊ตญ
  3. ์Šคํฌ๋ฆฐ์„ ์ด๋ฃจ๋Š” ์ถ•๋“ค๊ณผ xix_i์˜ ํฌ๋กœ์Šค ํ”„๋กœ๋•ํŠธ ๊ฐ’์˜ ๋ถ„์‚ฐ(Var(xiโ‹…wj)\mathrm{Var} (x_i \cdot w^j))์„ ๋”ํ•œ ๊ฐ’์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์ด MSE๋ฅผ ๊ทน์†Œํ™” ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค. ์ฆ‰, ๊ฐ๊ฐ wjw^j์™€ xix_i์˜ ๋‹ท ํ”„๋กœ๋•ํŠธ์˜ ๋ถ„์‚ฐ์„ ์ตœ๋Œ€ํ™”ํ•˜๋ฉด ๋œ๋‹ค. ์ฆ‰,

Vari[โˆ‘j=1k(xiโ‹…wj)wj]=โˆ‘j=1kฮปj \underset{i}{\text{Var}}[\sum_{j=1}^k {( x_i \cdot w^j) } w^j] = \sum_{j=1}^k {\lambda^j}

๋งˆ์นจ๋‚ด ์ฐจ์› ์ถ•์†Œ

์ด์ œ ๋งˆ์นจ๋‚ด ์ฐจ์› ์ถ•์†Œ๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋‹ค! ์•ž์„œ MSE ์ตœ์†Œํ™” ๋ฌธ์ œ์—์„œ ๋ณด์•˜๋“ฏ์ด ๋ถ„์‚ฐ์ด ํด์ˆ˜๋ก ์ข‹๋‹ค. ์ž„์˜์˜ ๊ฐฏ์ˆ˜๋กœ ์ฃผ์„ฑ๋ถ„์„ ์ทจํ•œ๋‹ค๊ณ  ํ•  ๋•Œ ์˜ ๊ธฐ์ค€์€ ๋ถ„์‚ฐ์ด ํฐ ์ˆœ์„œ์ด๊ณ  ๋ถ„์‚ฐ์€ ์•„์ด๊ฒ๋ฐธ๋ฅ˜์™€ ๊ฐ™๋‹ค. l(<k)l(<k) ๊ฐœ์˜ ์ฃผ์„ฑ๋ถ„์„ ์ทจํ•  ๋•Œ ์ทจํ•  ๋•Œ ์•„์ด๊ฒ๋ฐธ๋ฅ˜๊ฐ€ ํฐ ์ˆœ์„œ๋Œ€๋กœ ์ทจํ•˜๋ฉด ๋˜๊ฒ ๋‹ค.5

Key Questions

Q1. MSE ์ตœ์†Œํ™”๋Š” ๋ฌด์—‡์œผ๋กœ ์—ฐ๊ฒฐ๋˜๋Š”๊ฐ€?

XwXw์˜ ๋ถ„์‚ฐ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Q2. ์•„์ด๊ฒ๋ฐธ๋ฅ˜ ์•„์ด๊ฒ๋ฒกํ„ฐ๋Š” ์–ด๋–ป๊ฒŒ ๋“ฑ์žฅํ•˜๋Š”๊ฐ€?

XwXw์˜ ๋ถ„์‚ฐ์„ wTw=1w^T w =1์˜ ์ œ์•ฝํ•˜์—์„œ ๊ทน๋Œ€ํ™”ํ•  ๋•Œ 1๊ณ„ ์กฐ๊ฑด์—์„œ ๋“ฑ์žฅํ•œ๋‹ค.

Q3. ์•„์ด๊ฒ๋ฒกํ„ฐ์™€ ์•„์ด๊ฒ๋ฐธ๋ฅ˜๋Š” ์–ด๋–ค ํŠน์ง•์„ ์ง€๋‹ˆ๊ณ  ์žˆ๋Š”๊ฐ€?

1๊ณ„ ์กฐ๊ฑด์—์„œ ์•„์ด๊ฒ๋ฒกํ„ฐ์™€ ์•„์ด๊ฒ๋ฐธ๋ฅ˜๋ฅผ ์ฐพ์•„์•ผ ํ•˜๋Š” ๋งคํŠธ๋ฆญ์Šค๋Š” var-cov ํ–‰๋ ฌ ฮฃ\Sigma๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ํ–‰๋ ฌ์€ ๋Œ€์นญํ–‰๋ ฌ์ด๋ฉฐ Positive definite ํ–‰๋ ฌ์ด๋‹ค. ์ด ์กฐ๊ฑด์œผ๋กœ๋ถ€ํ„ฐ, ์•„์ด๊ฒ๋ฒกํ„ฐ๋“ค์€ ์„œ๋กœ orthogonalํ•˜๊ณ , ์•„์ด๊ฒ๋ฐธ๋ฅ˜๋Š” ๋ชจ๋‘ ์–‘์ˆ˜์ด๋‹ค.

Q4. ๊ฒฐ๊ตญ PCA๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

๋ถ„์‚ฐ์ด ํฐ ์ˆœ์„œ๋Œ€๋กœ kk ๊ฐœ์˜ ์ฃผ์„ฑ๋ถ„ ์ค‘์—์„œ ์ž„์˜๋กœ l(<k)l(<k) ๊ฐœ์˜ ์•„์ด๊ฒ๋ฒกํ„ฐ๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ์•„์ด๊ฒ๋ฒกํ„ฐ๋Š” ์ผ์ข…์˜ ํ”ผ์ฒ˜์— ๊ด€ํ•œ ๊ฐ€์ค‘์น˜๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

Resource

์ด ๊ธ€์€ ์•„๋ž˜ ์ž๋ฃŒ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

https://www.stat.cmu.edu/~cshalizi/350/lectures/10/lecture-10.pdf






๐ŸพJun Sok Huhh | ๐Ÿ lostineonomics.com


  1. ์‚ฌ์‹ค ์—ฌ๊ธฐ ์ ์€ 1๊ณ„ ์กฐ๊ฑด์€ ์—„๋ฐ€ํ•˜์ง€ ์•Š๋‹ค. ์ดํ•ด๋ฅผ ๋•๊ธฐ ์œ„ํ•ด์„œ ์—ฌ๋Ÿฌ๊ฐ€์ง€๋ฅผ ํ‰์ณค๋Š”๋ฐ, ์ตœ์ ํ™”์˜ ๊ฒฐ๊ณผ๋Š” ๋™์ผํ•˜๋‹ค. ๋ณด๋‹ค ์ƒ์„ธํ•œ ๋„์ถœ์€ ์—ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ•˜์‹œ๊ธฐ ๋ฐ”๋ž€๋‹ค. โ†ฉ๏ธŽ

  2. ํฅ๋ฏธ๋กœ์šด ์ผ์น˜๋ฅผ ํ™•์ธํ•˜์…จ๋Š”์ง€? ์ œ์•ฝ ํ•˜ ๊ทน๋Œ€ํ™”์—์„œ ๋ผ๊ทธ๋ž‘์ฅฌ ์Šน์ˆ˜์™€ ์•„์ด๊ฒ๋ฐธ๋ฅ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆ˜ํ•™ ๊ธฐํ˜ธ๊ฐ€ ๋ชจ๋‘ ฮป\lambda๋‹ค. ์•ฝ๊ฐ„ ์†Œ๋ฆ„ ๋‹๋Š” ๋Œ€๋ชฉ์ด๋‹ค. ์ผ์น˜๋Š” ์—ฌ๊ธฐ์„œ ๋๋‚˜์ง€ ์•Š๋Š”๋‹ค. ๋ผ๊ทธ๋ž‘์ฅฌ ์Šน์ˆ˜๋Š” ์ œ์•ฝ ํ•˜์˜ ๊ทน๋Œ€ํ™”์—์„œ ์ž ์žฌ ๊ฐ€๊ฒฉ(shadow price)๋กœ ๋ถˆ๋ฆฌ๊ธฐ๋„ ํ•œ๋‹ค. ์ด๋Š” ํ•ด๋‹น ์กฐ๊ฑด์ด ์ œ์•ฝํ•˜๋Š” ์ž์›์˜ ์ž ์žฌ์ ์ธ ๊ฐ€์น˜๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ด๋Š” ๋ถ„์‚ฐ์ด ํด์ˆ˜๋ก MSE๊ฐ€ ์ž‘๋‹ค๋Š” PCA์˜ ๋ชฉ์  ํ•จ์ˆ˜์˜ ํ•ด์„๊ณผ ์ผ์น˜ํ•œ๋‹ค. โ†ฉ๏ธŽ

  3. ํ•˜๋‚˜ ์ฃผ์˜ํ•  ์ ์ด ์žˆ๋‹ค. ์ด ๊ทธ๋ฆผ์€ ์ฐจ์› ํšŒ์ „์— ๊ด€ํ•œ ๊ฒƒ์ด์ง€ ์ฐจ์› ์ถ•์†Œ์— ๊ด€ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋‹ค. ์ฆ‰, ๋ณ€์ด๊ฐ€ ์ž˜ ๋“œ๋Ÿฌ๋‚˜๋„๋ก ์ถ•์„ ํšŒ์ „ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์˜ˆ์‹œ๋‹ค. ์ถ•์†Œ๋Š” ๋‹ค๋ฅธ ๋ฌธ์ œ์ธ๋ฐ, ์•„๋ž˜ ๋ณธ๋ฌธ์˜ ๋‚ด์šฉ์—์„œ ๋ณด๋“ฏ์ด ์ถ•์„ ๋Œ๋ ค ๋ณ€์ด๋ฅผ ์ƒ๋‹น ๋ถ€๋ถ„ ์„ค๋ช…ํ–ˆ๋‹ค๋ฉด ๋ณ€์ด์˜ ์„ค๋ช…๋ ฅ์ด ๋‚ฎ์€ ์ถ•๋“ค์„ ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด ์ฐจ์› ์ถ•์†Œ๋‹ค. โ†ฉ๏ธŽ

  4. ์ฆ๋ช…์€ ๋ชน์‹œ ๊ฐ„๋‹จํ•˜๋‹ค. wTฮฃww^T \Sigma w ๋ผ๊ณ  ํ•˜์ž.
    wTXTXw=(Xw)T(Xw)๋‹ท ํ”„๋กœ๋•ํŠธโ‰ฅ0 w^T X^T X w = \underset{\text{๋‹ท ํ”„๋กœ๋•ํŠธ}}{ (Xw)^T (Xw) } \geq 0 โ†ฉ๏ธŽ

  5. ์ฃผ์„ฑ๋ถ„์˜ ๊ฐฏ์ˆ˜๋ฅผ ์ทจํ•˜๋Š” ๋ฐฉ๋ฒ•์€ PCA์— ๊ด€ํ•œ ํŠœํ† ๋ฆฌ์–ผ์—์„œ ํ•ญ์ƒ ๋“ฑ์žฅํ•˜๋Š” ์ฃผ์ œ์ด๋‹ˆ ๊ตฌ๊ธ€๋ง์„ ํ•ด์„œ ํ™•์ธํ•˜์‹œ๋ฉด ๋˜๊ฒ ๋‹ค. โ†ฉ๏ธŽ