์ง๋ฌธ์ zzsza๋์ Datascience-Interview-Questions๋ฅผ ์ฐธ๊ณ ํ์์ต๋๋ค.
- ๊ณ ์ ๊ฐ(eigen value)์ ๊ณ ์ ๋ฒกํฐ(eigen vector)์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์. ๊ทธ๋ฆฌ๊ณ ์ ์ค์ํ ๊น์?
- ์ํ๋ง(Sampling)๊ณผ ๋ฆฌ์ํ๋ง(Resampling)์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์. ๋ฆฌ์ํ๋ง์ ๋ฌด์จ ์ฅ์ ์ด ์์๊น์?
- ํ๋ฅ ๋ชจํ๊ณผ ํ๋ฅ ๋ณ์๋ ๋ฌด์์ผ๊น์?
- ๋์ ๋ถํฌ ํจ์์ ํ๋ฅ ๋ฐ๋ ํจ์๋ ๋ฌด์์ผ๊น์? ์์๊ณผ ํจ๊ป ํํํด์ฃผ์ธ์.
- ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๋ฌด์์ผ๊น์?
- ๊ณต๋ถ์ฐ๊ณผ ์๊ด๊ณ์๋ ๋ฌด์์ผ๊น์? ์์๊ณผ ํจ๊ป ํํํด์ฃผ์ธ์.
- ์ ๋ขฐ ๊ตฌ๊ฐ์ ์ ์๋ ๋ฌด์์ธ๊ฐ์?
- p-value๋ฅผ ๋ชจ๋ฅด๋ ์ฌ๋์๊ฒ ์ค๋ช ํ๋ค๋ฉด ์ด๋ป๊ฒ ์ค๋ช ํ์ค ๊ฑด๊ฐ์?
- R square์ ์๋ฏธ๋ ๋ฌด์์ธ๊ฐ์?
- ํ๊ท (mean)๊ณผ ์ค์๊ฐ(median)์ค์ ์ด๋ค ์ผ์ด์ค์์ ๋ญ๋ฅผ ์จ์ผํ ๊น์?
- ์ค์ฌ๊ทนํ์ ๋ฆฌ๋ ์ ์ ์ฉํ๊ฑธ๊น์?
- ์ํธ๋กํผ(entropy)์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์. ๊ฐ๋ฅํ๋ฉด Information Gain๋์.
- ์ด๋จ ๋ ๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ธ ์ ์๊ณ , ์ด๋จ ๋ ๋น๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ธ ์ ์๋์?
- โlikelihoodโ์ โprobabilityโ์ ์ฐจ์ด๋ ๋ฌด์์ผ๊น์?
- ํต๊ณ์์ ์ฌ์ฉ๋๋ bootstrap์ ์๋ฏธ๋ ๋ฌด์์ธ๊ฐ์.
- ๋ชจ์๊ฐ ๋งค์ฐ ์ ์ (์์ญ๊ฐ ์ดํ) ์ผ์ด์ค์ ๊ฒฝ์ฐ ์ด๋ค ๋ฐฉ์์ผ๋ก ์์ธก ๋ชจ๋ธ์ ์๋ฆฝํ ์ ์์๊น์?
- ๋ฒ ์ด์ง์๊ณผ ํ๋ฆฌํํฐ์คํธ ๊ฐ์ ์ ์ฅ์ฐจ์ด๋ฅผ ์ค๋ช ํด์ฃผ์ค ์ ์๋์?
- ๊ฒ์ ๋ ฅ(statistical power)์ ๋ฌด์์ผ๊น์?
- missing value๊ฐ ์์ ๊ฒฝ์ฐ ์ฑ์์ผ ํ ๊น์? ๊ทธ ์ด์ ๋ ๋ฌด์์ธ๊ฐ์?
- ์์๋ผ์ด์ด์ ํ๋จํ๋ ๊ธฐ์ค์ ๋ฌด์์ธ๊ฐ์?
- ํ์ํ ํ๋ณธ์ ํฌ๊ธฐ๋ฅผ ์ด๋ป๊ฒ ๊ณ์ฐํฉ๋๊น?
- Bias๋ฅผ ํต์ ํ๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ ๋๊น?
- ๋ก๊ทธ ํจ์๋ ์ด๋ค ๊ฒฝ์ฐ ์ ์ฉํฉ๋๊น? ์ฌ๋ก๋ฅผ ๋ค์ด ์ค๋ช ํด์ฃผ์ธ์.
- ๋ฒ ๋ฅด๋์ด ๋ถํฌ / ์ดํญ ๋ถํฌ / ์นดํ ๊ณ ๋ฆฌ ๋ถํฌ / ๋คํญ ๋ถํฌ / ๊ฐ์ฐ์์ ์ ๊ท ๋ถํฌ / t ๋ถํฌ / ์นด์ด์ ๊ณฑ ๋ถํฌ / F ๋ถํฌ / ๋ฒ ํ ๋ถํฌ / ๊ฐ๋ง ๋ถํฌ์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
- ์ถ์ฅ์ ์ํด ๋นํ๊ธฐ๋ฅผ ํ๋ ค๊ณ ํฉ๋๋ค. ๋น์ ์ ์ฐ์ฐ์ ๊ฐ์ ธ๊ฐ์ผ ํ๋์ง ์๊ณ ์ถ์ด ์ถ์ฅ์ง์ ์ฌ๋ ์น๊ตฌ 3๋ช ์๊ฒ ๋ฌด์์๋ก ์ ํ๋ฅผ ํ๊ณ ๋น๊ฐ ์ค๋ ๊ฒฝ์ฐ๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์ง๋ฌธํ์ต๋๋ค. ๊ฐ ์น๊ตฌ๋ 2/3๋ก ์ง์ค์ ๋งํ๊ณ 1/3์ผ๋ก ๊ฑฐ์ง์ ๋งํฉ๋๋ค. 3๋ช ์ ์น๊ตฌ๊ฐ ๋ชจ๋ โ๊ทธ๋ ์ต๋๋ค. ๋น๊ฐ ๋ด๋ฆฌ๊ณ ์์ต๋๋คโ๋ผ๊ณ ๋งํ์ต๋๋ค. ์ค์ ๋ก ๋น๊ฐ ๋ด๋ฆด ํ๋ฅ ์ ์ผ๋ง์ ๋๊น?
๊ณ ์ ๊ฐ(eigen value)์ ๊ณ ์ ๋ฒกํฐ(eigen vector)์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์. ๊ทธ๋ฆฌ๊ณ ์ ์ค์ํ ๊น์?
์ ๋ฐฉํ๋ ฌ A (n x n) ๋ ์์์ ๋ฒกํฐ x (n x 1) ์ ๋ฐฉํฅ๊ณผ ํฌ๊ธฐ๋ฅผ ๋ณํ์ํฌ ์ ์๋ค.
์๋ง์ ๋ฒกํฐ x ์ค ์ด๋ค ๋ฒกํฐ๋ค์ A ์ ์ํด ์ ํ ๋ณํ๋์์ ๋์๋ ์๋ ๋ฒกํฐ์ ํํํ ๊ฒฝ์ฐ๊ฐ ์๋ค. ์ด๋ ๋ฏ Ax ๊ฐ ์๋ x ์ ์์ (๋๋ค) ๋ฅผ ๊ณฑํ ๊ฒ๊ณผ ๊ฐ์ ๋์ x ๋ฅผ ๊ณ ์ ๋ฒกํฐ, ๋๋ค๋ฅผ ๊ณ ์ ๊ฐ์ด๋ผ ํ๋ค.
๊ณต์
์๋์ฒ๋ผ x1 ์ A ์ ์ํด ๋ณํ๋์์์๋ x1 ๊ณผ ํํํ๋ค. ๋ฐ๋ผ์ x1 ์ ๊ณ ์ ๋ฒกํฐ์ด๋ค.
๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ๋ฅผ ํตํด A ๋ฅผ ๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ๋ค๋ก ๋ถํดํ๋ ๊ณ ์ ๊ฐ ๋ถํด (eigen decomposition), ์ ๋ฐฉํ๋ ฌ ๋ฟ๋ง ์๋ m x n ํ๋ ฌ๋ ๋ถํดํ ์ ์๋ ํน์ด๊ฐ ๋ถํด (SVD), ๋ฐ์ดํฐ๋ค์ ์ฐจ์ ์ถ์์ํฌ ๋ ๊ฐ์ฅ ์๋ ์๋ฏธ๋ฅผ ์ ๋ณด์กด์ํค๋ ์ฃผ์ฑ๋ถ ๋ถ์ (PCA) ๋ฑ์ ํ์ฉํ ์ ์์ผ๋ฏ๋ก ์ค์ํ๋ค.
- ๊ณ ์ ๊ฐ๊ณผ ๊ณ ์ ๋ฒกํฐ - ๋ฌ๋๊ฒ์ธ
- ๋จธ์ ๋ฌ๋ - 19. ๊ณ ์ ๊ฐ(eigenvalue), ๊ณ ์ ๋ฒกํฐ(eigenvector), ๊ณ ์ ๊ฐ ๋ถํด(eigen decomposition) - ๊ทํ์ด ์์ฌ
- [์ ํ๋์ํ #4] ํน์ด๊ฐ ๋ถํด(Singular Value Decomposition, SVD)์ ํ์ฉ - ๋คํฌ ํ๋ก๊ทธ๋๋จธ
- ์ฃผ์ฑ๋ถ ๋ถ์(PCA) - ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ
์ํ๋ง(Sampling)๊ณผ ๋ฆฌ์ํ๋ง(Resampling)์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์. ๋ฆฌ์ํ๋ง์ ๋ฌด์จ ์ฅ์ ์ด ์์๊น์?
์ํ๋ง์ด๋ ํ๋ณธ์ถ์ถ์ ์๋ฏธํ๋ ๊ฒ์ผ๋ก, ๋ชจ์ง๋จ ์ ์ฒด์ ๋ํ ์ถ์ ์น(estimate)๋ฅผ ์ป๊ธฐ ์ํด ์์์ sample์ ๋ฝ์๋ด๋ ๊ฒ์ด๋ค. ๋ชจ์ง๋จ ์ ์ฒด์ ๋ํ ์กฐ์ฌ๋ ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ sample์ ์ด์ฉํ์ฌ ๋ชจ์ง๋จ์ ๋ํ ์ถ๋ก (inference)์ ํ๊ฒ๋๋ ๊ฒ์ด๋ค. ํ์ง๋ง ํ๋ณธ์ ๋ชจ์ง๋จ์ ๋ฎ์ ๋ชจ์ง๋จ์ mirror image ๊ฐ์ ์กด์ฌ์ด์ง๋ง, ๋ชจ์ง๋จ ๊ทธ ์์ฒด์ผ์๋ ์๋ค. ๋ฐ๋ผ์ ํ๋ณธ์๋ ๋ฐ๋์ ๋ชจ์ง๋จ์ ์๋ ํจํด์์ ๋์น ๋ถ๋ถ, ์ฆ noise๊ฐ ์กด์ฌํ ์ ๋ฐ์ ์๋ค.
๋ฆฌ์ํ๋ง์ ๋ชจ์ง๋จ์ ๋ถํฌ ํํ๋ฅผ ์ ์ ์์ ๋ ์ฃผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฆ, ๋ชจ๋ถํฌ๋ฅผ ์ ์ ์์ผ๋ฏ๋ก ์ผ๋ฐ์ ์ธ ํต๊ณ์ ๊ณต์๋ค์ ์ฌ์ฉํ๊ธฐ ํ๋ค ๋, ํ์ฌ ๊ฐ๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ถํฌ์ ๋น์ทํ ๊ฒ์ผ๋ก ์ถ์ ๋๋ ๋ถํฌ๋ฅผ ๋ง๋ค์ด ๋ณด์๋ ๊ฒ์ด๋ค. ๋ฆฌ์ํ๋ง์ ๊ฐ์ง๊ณ ์๋ ์ํ์์ ๋ค์ ์ํ ๋ถ๋ถ์งํฉ์ ๋ฝ์์ ํต๊ณ๋์ ๋ณ๋์ฑ(variability of statistics)์ ํ์ธํ๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์๋ค. ์ฆ, ๊ฐ์ ์ํ์ ์ฌ๋ฌ ๋ฒ ์ฌ์ฉํด์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๋ฐฉ์์ด๋ค. ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ด๋ฉฐ ์ข ๋ฅ๋ก๋ K-fold ๊ต์ฐจ ๊ฒ์ฆ, ๋ถํธ์คํธ๋ํ์ด ์๋ค.
๋ฆฌ์ํ๋ง์ ํ๋ณธ์ ์ถ์ถํ๋ฉด์ ์๋ ๋ฐ์ดํฐ ์ ์ ๋ณต์ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ํตํด์ ๋ชจ์ง๋จ์ ๋ถํฌ์ ์ด๋ค ๊ฐ์ ๋ ํ์ ์์ด ํ๋ณธ๋ง์ผ๋ก ์ถ๋ก ์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์๋ค.
- (๋ฐ์ดํฐ๊ณผํ ์ธํฐ๋ทฐ ์ง๋ฌธ)(2) ์ํ๋ง๊ณผ ๋ฆฌ์ํ๋ง, 1ํธ - CHAOS & PATTERN : ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๋ธ๋ก๊ทธ
- ์ํ๋ง๊ณผ ๋ฆฌ์ํ๋ง์ ์ฐจ์ด๋ ๋ฌด์์ผ๊น? - ๊น๊ฐ๊ทค
- resampling์ ์ด์ฉํ ๋ฐฉ๋ฒ (bootstrapping) - ์งํํ์ - ์ด๋์๋ ์์๋์ง ์๊ธฐ
- ์ํ๋ง๊ณผ ๋ฆฌ์ํ๋ง - Wriggling
ํ๋ฅ ๋ณ์(Random Variable) ๋, ํ๋ณธ ๊ณต๊ฐ์ ๊ฐ ๋จ์ ์ฌ๊ฑด์ ์ค์ ๊ฐ์ ๋ถ์ฌํ๋ ํจ์์ด๋ค. ํ๋ฅ ๋ณ์๋ ์ด๋ ํ ํจ์๋ก ํด์ํ ์ ์์ผ๋ฏ๋ก ๋๋ฌธ์ X
๋ผ๊ณ ํ๊ธฐํ๋ค.
๋ฌด์์(Random) ์คํ์ ํ์ ๋, ํน์ ํ๋ฅ ๋ก ๋ฐ์ํ๋ ๊ฐ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์์น์ ๊ฐ์ผ๋ก ํํํ๋ ๋ณ์๋ผ๊ณ ํ ์ ์๋ค.
๋ํ ํ๋ฅ ๋ณ์์๋ ์ด์ฐํ๋ฅ ๋ณ์
, ์ฐ์ํ๋ฅ ๋ณ์
๋๊ฐ์ง ๊ฒฝ์ฐ๊ฐ ์๋ค. ์ด์ฐํ๋ฅ ๋ณ์
๋ ํ๋ฅ ๋ณ์ X๊ฐ ์ทจํ ์ ์๋ ๊ฐ์ด ์ ํํ๊ธฐ ๋๋ฌธ์ ์
์ ์๋ ํ๋ฅ ๋ณ์์ด๋ค. ๋ฐ๋ฉด์ ์ฐ์ํ๋ฅ ๋ณ์
๋ ์ด๋ ํ ๋ ์ ์ฌ์ด์ ๋ฐ๋์ ๋ค๋ฅธ ์๊ฐ ์กด์ฌํ๋, ์
์ ์๋ ๋ฒ์์ ํ๋ฅ ๋ณ์๋ฅผ ๊ฐ์ง๋ ๊ฒฝ์ฐ์ ์ฌ์ฉ๋๋ค.
์ฃผ์ฌ์ ๊ตด๋ฆฌ๊ธฐ ์์ ๋ฅผ ์๊ฐํด๋ณด์.
์ผ๋จ ์ฃผ์ฌ์๋ฅผ ๊ตด๋ฆฌ๋ ์ํฉ์ ์ด๋ค ์๊ฐ ๋์ฌ์ง ๋ชจ๋ฅด๋ฏ๋ก, ํ๋ฅ ์ํฉ์ด๋ค.
"์ฃผ์ฌ์๋ฅผ ๊ตด๋ ธ์ ๋ ๋์ค๋ ๊ฐ"์ ํ๋ฅ ๋ณ์ X๋ผ๊ณ ํ ์ ์๋ค.
1~6์ด ํ๋ณธ๊ณต๊ฐ์ด ๋๊ณ , ์
์ ์์ผ๋ฏ๋ก ์ด์ฐํ๋ฅ ๋ณ์๊ฐ ๋๋ค.
P(X=1)์ ๊ฐ์ ์์ผ๋ก ํํํ๊ณ , ์ด๋ "์ฃผ์ฌ์๋ฅผ ๊ตด๋ ธ์ ๋, 1์ด๋ผ๋ ๊ฐ์ด ๋์ฌ ํ๋ฅ "๋ก ํด์ํ ์ ์๋ค.
ํ๋ฅ ๋ชจํ(Probability Model) ์ด๋ ํ๋ฅ ๋ณ์๋ฅผ ์ด์ฉํ์ฌ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์ํ์ ์ผ๋ก ์ ์ํ ๋ชจํ์ด๋ค.
๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ฌ์ฌํ๊ธฐ ์ํด์ ์ฌ์ฉ๋๋ค.
๋ณดํต ํ๋ฅ ๋ถํฌ ํจ์(probability distribution function)
๋๋ ํ๋ฅ ๋ฐ๋ ํจ์(probability density function)
๋ฅผ ์ฃผ๋ก ์ฌ์ฉํ๋ฉฐ, ์ด๋ ํจ์์ ๊ณ์๋ฅผ ๋ถํฌ์ ๋ชจ์(parameter)๋ผ๊ณ ๋ถ๋ฅธ๋ค.
ํ๋ฅ ๋ถํฌ(Probability Distribution) ๋ ํ๋ณธ๊ณต๊ฐ์ ์ ์๋ ํ๋ฅ ์ ์ด์ฉํ์ฌ ํ๋ฅ ๋ณ์์ ๊ฐ ๋๋ ์์ญ์ ๋ํ ํ๋ฅ ์ ํํํ ๊ฒ์ด๋ค.
์๋ฅผ ๋ค์ด ๊ฐ์ฅ ๋๋ฆฌ ์ฐ์ด๋ ํ๋ฅ ๋ชจํ์ ํ๋์ธ ๊ฐ์ฐ์์ ์ ๊ท ๋ถํฌ(Gaussian normal distribution)
๋ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ ์ํ๋ค.
๋ค์๊ณผ ๊ฐ์ ํจ์๋ค์ด ํ๋ฅ ๋ชจํ์ ํฌํจ๋ ์ ์๋ค. (์์ธํ ๋ด์ฉ์ ํ๋ฅ ํต๊ณ ๊ธฐ์ด์ฉ์ด - EG ๊ณต๊ฐ ์ฐธ๊ณ )
- ํ๋ฅ ์ง๋ํจ์(PMF, Probability Mass Function) - ์ด์ฐํ
- ํ๋ฅ ๋ฐ๋ํจ์(PDF, Probability Density Function) - ์ฐ์ํ
- ๋์ ๋ถํฌํจ์(CDF, Cumulative Distribution Function)
โ๏ธ ์ถ๊ฐ์ ์ผ๋ก ํ๋ฅ ํต๊ณ์ ๊ธฐ์ด ์ฉ์ด๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. (์ฃผ์ฌ์ ๊ตด๋ฆฌ๊ธฐ ์์ ์ฌ์ฉ)
- ์คํ(Experiment)์ ํ๋์ ํ์๊ฐ ํ๋ ์ด์์ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ๊ฒ์ ๋ํ ๊ณผ์ ํน์ ์ ์ฐจ๋ฅผ ๋ํ๋ธ๋ค.
- ์์) ์ฃผ์ฌ์๋ฅผ ๋์ง๋ค.
- ๊ฒฐ๊ณผ(Outcome)๋ ์ด๋ค ์คํ์ ์ํด ๋ฐ์ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ์ด๋ค. ํน์ ์คํ์ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ๋ค์ ๊ฐ๊ฐ ์ ์ผ(unique)ํ๋ค. ํ๋ฒ์ ์คํ์ ์ํํ์ ๋, ๋จ ํ๋์ outcome๋ง์ ๋ํ๋ธ๋ค.
- ์์) ์ฃผ์ฌ์์ ๋ (ex. 3, 4, 6)
- ํ๋ณธ ๊ณต๊ฐ(Sample space)์ ํ๋ฅ ์คํ์์ ๋ฐ์ํ ์ ์๋ ๋ชจ๋ ๊ฒฐ๊ณผ๋ก ๊ตฌ์ฑ๋ ์งํฉ(set)์ด๋ค. ๋ฐ์ํ ์ ์๋ ๋ชจ๋ ๊ฒฐ๊ณผ์ ์งํฉ์ด๋ฏ๋ก, ์ค๋ณต๋ ์์๋ฅผ ๊ฐ์ง ์ ์๋ค.
- ์์) ๊ฐ๋ฅํ ์ฃผ์ฌ์์ ๋ชจ๋ ๋ ์งํฉ (ex. ฮฉ = {1, 2, 3, 4, 5, 6})
- ์ฌ๊ฑด(Event)์ ์ฐ๋ฆฌ๊ฐ ๊ด์ฌ์๋ Sample space์ ๋ถ๋ถ์งํฉ์ด๋ค.
- ์์) ์ฃผ์ฌ์ ๋์ด 3์ด ๋์จ๋ค, ์ง์/ํ์๊ฐ ๋์จ๋ค.
- ํ๋ฅ ๋ณ์์ ํ๋ฅ ๋ชจํ - ์จ๋์ ๋ฌด์์ ๋ฐ๋ผํ๊ธฐ
- ํ๋ฅ ๋ณ์์ ํ๋ฅ ํจ์ - ํ๋กํ์ ๋ฐ์ดํฐ ๋ ธํธ
- ํ๋ฅ ๋ณ์์ ๊ฐ๋ , ์๋ฏธ - ๋ก์ค์นด์ธ ์ AI ๋จธ์ ๋ฌ๋
- ํ๋ฅ ๋ชจํ์ด๋ - notebook.community
- ํ๋ฅ ํต๊ณ ๊ธฐ์ด์ฉ์ด - EG ๊ณต๊ฐ
- [ํต๊ณํ] 9. ํ๋ฅ ๋ณ์์ ํ๋ฅ ๋ถํฌ- ๋ฌ๋๋จธ์ ์ Train Data Set
๋์ ๋ถํฌ ํจ์์ ํ๋ฅ ๋ฐ๋ ํจ์๋ ๋ฌด์์ผ๊น์? ์์๊ณผ ํจ๊ป ํํํด์ฃผ์ธ์.
ํ๋ฅ ๋ณ์ ๊ฐ ์์์ ์ค์ ์งํฉ ์ ํฌํจ๋๋ ์ฌ๊ฑด์ ํ๋ฅ ์ด ๋ค์๊ณผ ๊ฐ์ด ์ด๋ค ์์ด ์๋ ํจ์ ์ ์ ๋ถ์ผ๋ก ์ฃผ์ด์ง๋ค๊ณ ํ์.
์ด ๋์ ๋ฅผ ์ฐ์ํ๋ฅ ๋ณ์๋ผ๊ณ ํ๋ฉฐ, ํจ์ ๋ฅผ ํ๋ฅ ๋ฐ๋ ํจ์(Probability Density Function, PDF)
๋ผ๊ณ ํ๋ค. ๋จ, ์ค์ ์งํฉ ๊ฐ ์ค์ ์ ์ฒด์ผ ๊ฒฝ์ฐ ์ค์ ์ ์ฒด์ ๋ํ ํ๋ฅ ๋ฐ๋ํจ์์ ์ ๋ถ์ 1์ ๋ง์กฑํด์ผ ํ๋ค.
๋์ ๋ถํฌ ํจ์(Cumulative Distribution Function, CDF)
๋ ํ๋ฅ ๋ณ์๊ฐ ํน์ ๊ฐ๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์ ํ๋ฅ ์ ๋ํ๋ด๋ ํจ์์ด๋ค. ํน์ ๊ฐ์ ๋ผ๊ณ ํ ๋, ๋์ ๋ถํฌ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
ํ๋ฅ ๋ฐ๋ ํจ์์ ๋์ ๋ถํฌ ํจ์๋ ๋ฏธ๋ถ๊ณผ ์ ๋ถ์ ๊ด๊ณ
๋ฅผ ๊ฐ๋๋ค. ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์์ ๋ฌดํ๋์์ ํน์ ๊ฐ ๊น์ง ์ ๋ถ์ ํ๋ฉด, ์ ๋ํ ๋์ ๋ถํฌ ํจ์๋ฅผ ์ป์ ์ ์๋ค. ๋ฐ๋๋ก ๋์ ๋ถํฌ ํจ์๋ฅผ ๋ฏธ๋ถํ๋ฉด ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ป์ ์ ์๋ค.
- ํ๋ฅ ๋ฐํต๊ณ ๊ฐ์๋ ธํธ - ํ์ํ ๊ต์๋
- ํ๋ฅ ๋ถํฌ ํจ์์ ํ๋ฅ ๋ฐ๋ ํจ์์ ์๋ฏธ - groovallstar.log
์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ฌ๊ฑด A ๊ฐ ์ผ์ด๋ฌ๋ค๋ ์ ์ ํ์ ์ฌ๊ฑด B ๊ฐ ์ผ์ด๋ ํ๋ฅ ์ด๋ค. ์ด๋ P(B|A) = P(BโฉA) / P(A) ๋ก ํํ ๊ฐ๋ฅํ๋ค. ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์๋ ์ด์ด์ง๋ฉฐ, ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ด์ฉํ ๊ฐ์ฅ ์ ๋ช ํ ๋ฌธ์ ๋ ๋ชฌํฐํ ๋ฌธ์ ๊ฐ ์๋ค.
๋ฒ ์ด์ฆ ์ ๋ฆฌ
๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ํตํด ๊ฐ๋ฅ๋์ Evidence๋ฅผ ๋ฐํ์ผ๋ก ์ฌ์ ํ๋ฅ ์ ์ฌํํ๋ฅ ๋ก ์ ๋ฐ์ดํธํ๋ค.
- : ์๋ก ๊ด์ฐฐ๋๋ ๋ฐ์ดํฐ
- : ๋ชจ๋ธ์์ ๊ณ์ฐํ๊ณ ์ถ์ดํ๋ ๋ชจ์ (๊ฐ์ค)
- ์ฌํํ๋ฅ : ๋ฐ์ดํฐ๋ฅผ ๊ด์ฐฐํ์ ๋, ์ด ๊ฐ์ค์ด ์ฑ๋ฆฝํ ํ๋ฅ (๋ฐ์ดํฐ ๊ด์ฐฐ ์ดํ ์ธก์ ํ๊ธฐ ๋๋ฌธ์ ์ฌํํ๋ฅ )
- ์ฌ์ ํ๋ฅ : ๊ฐ์ค์ ๋ํด ์ฌ์ ์ ์ธ์ด ํ๋ฅ (๋ฐ์ดํฐ ๊ด์ธก ์ดํ ์ฌํํ๋ฅ ์ด ์ฌ์ ํ๋ฅ ์ด ๋๋ค.)
- ๊ฐ๋ฅ๋ : ํ์ฌ ์ฃผ์ด์ง ๋ชจ์ (๊ฐ์ ) ์์ ์ด ๋ฐ์ดํฐ๊ฐ ๊ด์ฐฐ๋ ๊ฐ๋ฅ์ฑ
- Evidence : ๋ฐ์ดํฐ ์ ์ฒด์ ๋ถํฌ
๊ณต๋ถ์ฐ์ ํ๋ฅ ๋ณ์ X์ ํธ์ฐจ(ํ๊ท ์ผ๋ก๋ถํฐ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง)์ ํ๋ฅ ๋ณ์ Y์ ํธ์ฐจ๋ฅผ ๊ณฑํ ๊ฒ์ ํ๊ท ๊ฐ์ด๋ค.
๊ณต๋ถ์ฐ์ ๋ ๋ณ์ ๊ฐ์ ์์ ์๊ด๊ด๊ณ๊ฐ ์๋์ง, ์์ ์๊ด๊ด๊ณ๊ฐ ์๋์ง ์ ๋๋ฅผ ์๋ ค์ค๋ค. ํ์ง๋ง ์๊ด๊ด๊ณ๊ฐ ์ผ๋ง๋ ํฐ์ง๋ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ค.
๊ณต๋ถ์ฐ์ ๋ฌธ์ ๋ ํ๋ฅ ๋ณ์์ ๋จ์ ํฌ๊ธฐ์ ์ํฅ์ ๋ง์ด ๋ฐ๋๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ๋ณด์ํ ์ ์๋ ๊ฒ์ด ๋ฐ๋ก ์๊ด๊ณ์์ด๋ค.
์๊ด๊ณ์๋ ํ๋ฅ ๋ณ์์ ์ ๋์ ํฌ๊ธฐ์ ์ํฅ์ ๋ฐ์ง ์๋๋ก ๊ณต๋ถ์ฐ์ ๋จ์ํ์ํจ ๊ฒ์ด๋ค. ์ฆ, ๊ณต๋ถ์ฐ์ ๊ฐ ํ๋ฅ ๋ณ์์ ๋ถ์ฐ์ ๋๋ ์ฃผ์๋ค.
์๊ด๊ณ์๋ ์์ ์๊ด๊ด๊ณ๊ฐ ์๋์ง ์์ ์๊ด๊ด๊ณ๊ฐ ์๋์ง ์๋ ค์ค ๋ฟ๋ง ์๋๋ผ, ๊ทธ ์๊ด์ฑ์ด ์ผ๋ง๋ ํฐ์ง๋ ์๋ ค์ค๋ค. 1 ๋๋ -1์ ๊ฐ๊น์ธ์๋ก ์๊ด์ฑ์ด ํฐ ๊ฒ์ด๊ณ , 0์ ๊ฐ๊น์ธ์๋ก ์๊ด์ฑ์ด ์์ ๊ฒ์ด๋ค.
- ๊ณต๋ถ์ฐ๊ณผ ์๊ด๊ณ์์ ์ดํด.txt - bskyvision
- ๊ณต๋ถ์ฐ(Covariance)๊ณผ ์๊ด๊ณ์(Correlation) - Serious Archive
๊ตฌ๊ฐ ์ถ์ ์์ ๋ชจ์๊ฐ a ์์ b ์ฌ์ด์ ์์ ๊ฒ์ผ๋ก ์ถ์ (์ ๋ขฐ๊ตฌ๊ฐ)
ํ๊ณ ๊ทธ ํ๋ฅ (%, ์ ๋ขฐ์์ค)
์ ๊ตฌํ๋ค.
์ ๋ขฐ๊ตฌ๊ฐ(Confidence Interval) ์ ๋ชจ์ง๋จ์ ๋ชจ์(parameter)๊ฐ ์์นํด ์์ ๊ฒ์ผ๋ก ์ ๋ขฐํ ์ ์๋ ๊ตฌ๊ฐ์ด๋ค. ๋ชจ์๊ฐ ์ด๋ ๋ฒ์ ์์ ์๋์ง๋ฅผ ํ๋ฅ ์ ์ผ๋ก ๋ณด์ฌ์ฃผ๋ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ํ ์ ์๋ค. ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ตฌํ๋ ์ด์ ๋ ๋ชจ์์ ์ ๋ขฐ์ฑ์ ๊ฐ๋ ํ๊ธฐ ์ํจ์ด๋ค.
์ถ๊ฐ์ ์ผ๋ก, ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ํ ์ ํํ ํด์์ ๋ชจํ๊ท ์ ํฌํจํ ํ๋ฅ ์ด 95%๊ฐ ๋๋ ๊ตฌ๊ฐ
์ด ์๋, ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก 100๋ฒ ํ๋ณธ์ ์ถ์ถํ์ ๋, ํจ๊ป ๊ณ์ฐ๋๋ 100๊ฐ์ ์ ๋ขฐ๊ตฌ๊ฐ ์ค ๋ชจํ๊ท ์ ํฌํจํ ์ ๋ขฐ๊ตฌ๊ฐ๋ค์ ์ซ์๊ฐ 95๊ฐ์ ๋ ๋๋ค
๋ผ๊ณ ํด์ผํ๋ค. ์๋๋ฉด, ๋ชจํ๊ท ์ ์ด๋ฏธ ์ ํด์ ธ ์๋ ๊ฐ
์ด๋ฏ๋ก ์ ์์ ํด์์ ์ฌ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ ๋ขฐ์์ค์ ๋ฐฉ๋ฒ์ ์ ํ๋, ์ฐธ๊ฐ์ ๊ตฌํ๊ธฐ ์ํ ์์ ์ ๋ง์ด ๋ฐ๋ณตํ์ ๋, ์ฐธ๊ฐ์ด ํน์ ๋ฒ์์ ์๋ ๋น์จ์ด๋ค.
๋ชจ์(parameter) ๋ ๋ชจ์ง๋จ์ ํน์ฑ์ ๋ณด์ฌ์ฃผ๋ ๊ฐ์ด๋ค. ์๋ฅผ๋ค์ด, ํ๊ท , ๋ถ์ฐ ๋ฑ์ ๊ณ ์ ์ธ ๊ฐ์ด ์์ ์ ์๋ค.
- COMPUTATAIONAL PREDICTION - Minkoo Seo blog
- ์ ๋ขฐ๊ตฌ๊ฐ - ์ํค๋ฐฑ๊ณผ
- ์ ๋ขฐ๊ตฌ๊ฐ์ ์๋ฏธ - ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ
p-value
๋ฅผ ์๊ธฐ ์ํด์๋ ๋จผ์ 1์ข
์ค๋ฅ๋ฅผ ์์์ผ ํ๋ค. ์ฌ๊ธฐ์ 1์ข
์ค๋ฅ๋ "๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ธ๋ฐ ๊ธฐ๊ฐํ ๊ฒฝ์ฐ"์ ๋งํ๋ค. ๊ท๋ฌด๊ฐ์ค์ด๋ ๊ธฐ์กด์ ์ฃผ์ฅ์ ๋งํ๋ฉฐ, ์ด์ ๋ฐ๋๋ก ์๋ก์ด ์ฃผ์ฅ์ ๋๋ฆฝ๊ฐ์ค์ด๋ผ๊ณ ํ๋ค.
์๋ฅผ ๋ค์ด, ์ด๋ ์ ์ฝํ์ฌ์์ ์น๋ฃ์ฝ A๋ฅผ ๊ฐ๋ฐํ๋ค. ๊ธฐ์กด์๋ ์น๋ฃ์ฝ A๊ฐ ์์์ผ๋ฏ๋ก ๊ท๋ฌด๊ฐ์ค์ "์น๋ฃ์ฝ A๊ฐ ํจ๊ณผ๊ฐ ์๋ค"๋ผ๊ณ ์ค์ ํ๋ค. ๋ฐ๋๋ก ๋๋ฆฝ๊ฐ์ค์ "์น๋ฃ์ฝ A๋ ํจ๊ณผ๊ฐ ์๋ค"๋ก ์ค์ ํ๋ค. ํ์ฌ์์๋ ๊ฒ์ ์ ํ ๊ฒฐ๊ณผ, ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ณ ๋๋ฆฝ๊ฐ์ค์ ์ฑํํ๋ค. ์น๋ฃ์ฝ A๋ ํ๋งค๋์๊ณ ๋์ ๋งค์ถ์ ๊ธฐ๋กํ๋ค. ๊ทธ๋ฐ๋ฐ ์๊ณ ๋ณด๋ ์น๋ฃ์ฝ A๊ฐ ํจ๊ณผ๊ฐ ์๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ค. ์ฐธ์ธ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ธฐ์ ์ด๋ 1์ข ์ค๋ฅ๊ฐ ์ผ์ด๋ฌ๋ค๊ณ ๋ณผ ์ ์๋ค.
๋ค์ ๋์์์ p-value
๋ 1์ข
์ค๋ฅ๋ฅผ ๋ฒํ ํ๋ฅ ์ ๋งํ๋ค. ์๋ฅผ ๋ค์ด, p-value๊ฐ 5%๋ผ๋ฉด, 100๋ฒ ์ค 5๋ฒ 1์ข
์ค๋ฅ๊ฐ ๋ฐ์ํ๋ค๋ ๋ง์ด๋ค. ๊ฒ์ ์ ํ ๋๋ ์ ์ ์์ค ๋ฅผ ์ ํ๋๋ฐ, ์ด๊ฒ์ด 1์ข
์ค๋ฅ์ ์ํ์ ์ด ๋๋ค. ๊ทธ๋์ ์ ์ ์์ค๋ณด๋ค p-value๊ฐ ์๋ค๋ฉด ์คํ์ ์ค๋ฅ๊ฐ ์ํ์ ๋ณด๋ค ์์ผ๋ฏ๋ก ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ณ ๋๋ฆฝ๊ฐ์ค์ ์ฑํํ๋ค. ๋ง์ฝ ํฌ๋ค๋ฉด ์ํ์ ์ ๋์์ผ๋ฏ๋ก ๊ท๋ฌด๊ฐ์ค์ ์ฑํํ๋ค.
- p-value์ ์๋ฏธ - ๊ณต๋์ด์ ์ํ์ ๋ฆฌ๋ ธํธ
- p-value๋ ๋ฌด์์ธ๊ฐ - ์งํํ์ ์ด๋์๋ ์์๋์ง ์๊ธฐ
- ํต๊ณ, ๊ธฐ๋ณธ ๊ฐ๋ ์ ์ ๋ฆฌํด๋ณด์ - ์ด์งํ
- ์ ์์์ค(Significance Level)๊ณผ p๊ฐ(p-value) - ํต๊ณํ๊ณผ ์ฌ์์ ๊ณต๊ฐ
๊ฒฐ์ ๊ณ์ (R square) ๋ ์ ํ ํ๊ท ๋ชจ๋ธ์์ ๋ฐ์ดํฐ์ ๋ํด ํ๊ท์ ์ด ์ผ๋ง๋ ์ ์ค๋ช ํ๋์ง์ ๋ํ ์ค๋ช ๋ ฅ์ ์๋ฏธํ๋ค. ๊ฒฐ์ ๊ณ์๋ 0~1 ์ ๊ฐ์ ๊ฐ์ง ์ ์๊ณ , ๋ง์ฝ ๊ฐ์ด 1 ์ด๋ผ๋ฉด ํ๊ท์ ์ผ๋ก ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค ์ค๋ช ํ ์ ์๋ค๊ณ ์ดํดํ ์ ์๋ค.
์ฐธ๊ณ ๋ก ๊ฒฐ์ ๊ณ์๋ ๋ค์์ ์์ผ๋ก ๊ตฌํ ์ ์๋ค.
R^2 = SSE/SST = 1 - SSR/SST,
SSE = sum((์ถ์ ๊ฐ-๊ด์ธก๊ฐ ํ๊ท )^2),
SST = sum((๊ด์ธก๊ฐ-๊ด์ธก๊ฐ ํ๊ท )^2),
SSR = sum((๊ด์ธก๊ฐ-์ถ์ ๊ฐ)^2)
- ๊ด์ธก๊ฐ : ์ค์ ๋ฐ์ดํฐ์ ๊ฐ,
- ์ถ์ ๊ฐ : ํ๊ท ๋ชจ๋ธ์ ํตํด ๋์จ ๊ฐ.
ํ๊ท ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๊ฒฐ์ ๊ณ์ ์ธ์๋ MAE, MSE, RMSE ๊ฐ ์๋ค.
- ๊ฒฐ์ ๊ณ์์ ์๋ฏธ์ ๊ณ์ฐ ๋ฐฉ๋ฒ
- ํ๊ท๋ถ์์์ R์คํ์ด์ ์ ํํ ์๋ฏธ
- ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ
- ํ๊ท (mean): ๋ชจ๋ ๊ด์ธก๊ฐ์ ํฉ์ ์๋ฃ์ ๊ฐ์๋ก ๋๋ ๊ฒ
- ์ค์๊ฐ(median): ์ ์ฒด ๊ด์ธก๊ฐ์ ํฌ๊ธฐ ์์๋ก ๋ฐฐ์ดํ์ ๋ ๊ฐ์ด๋ฐ ์์นํ๋ ๊ฐ
ํ๊ท ์ ์ ์ฒด ๊ด์ธก๊ฐ์ด ๊ณจ๊ณ ๋ฃจ ๋ฐ์๋๋ฏ๋ก ๋ํ๊ฐ์ผ๋ก์ ๊ฐ์น๊ฐ ์๋ค. ํ๊ท ๊ทผ์ฒ์ ํ๋ณธ์ด ๋ชฐ๋ ค ์๋ ์ํฉ์์ ๋ํ๊ฐ์ผ๋ก ์ ์ฉํ์ง๋ง ๊ทน๋จ์ ์ธ ๊ฐ์ ์ํฅ์ ๋ง์ด ๋ฐ๋๋ค.
์ค์๊ฐ์์๋ ๊ด์ธก๊ฐ์ ํฌ๊ธฐ ์์๋ก ๋ฐฐ์ดํ ๋ ๊ด์ธก๊ฐ์ ์์น๊ฐ ์ค์ํ๊ณ , ๊ฐ์ด๋ฐ ์์นํ ๊ด์ธก๊ฐ ์ด์ธ์ ๊ด์ธก๊ฐ๋ค์ ํฌ๊ธฐ๋ ์ค์ํ์ง ์๋ค. ๋ฐ๋ผ์ ํ๊ท ๊ณผ๋ ๋ฌ๋ฆฌ ์ค์๊ฐ์ ๊ด์ธก๊ฐ๋ค์ ๋ณํ์ ๋ฏผ๊ฐํ์ง ์๊ณ ํนํ ์์ฃผ ํฐ ๊ด์ธก๊ฐ์ด๋ ์์ฃผ ์์ ๊ด์ธก๊ฐ(์ฆ, outlier)์ ์ํฅ์ ๋ฐ์ง ์๋๋ค. ์ค์๊ฐ์ด ์ ์ฉํ ๊ฒฝ์ฐ๋ ํ๋ณธ์ ํธ์ฐจ, ํน์ ์๊ณก์ด ์ฌํ๊ฒ ๋ํ๋๋ ๊ฒฝ์ฐ์ด๋ค.
- ํ๊ท (average, mean) vs. ์ค๊ฐ๊ฐ(median) | ํต๊ณ์์ ์ค๋ฅ๊ฐ๋ฅ์ฑ - ์ํผ์งฑ์งฑ
- [๊ธฐ์ดํต๊ณ] ํ๊ท ์ค์๊ฐ ์ต๋น๊ฐ ๋น๊ต (Mean VS Median VS Mode) - Peter Hwang
์ค์ฌ๊ทนํ์ ๋ฆฌ๋ ํ๋ณธ์ถ์ถ์ด ๋ฌด์ํ ๋ง์ด ์ํ๋๋ฉด(๋ณดํต 30ํ ์ด์์ ์๋ฏธ), ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ์ ์๋ ดํ๋ค๋ ๊ฒ์ด๋ค. ์ค์ฌ๊ทนํ์ ๋ฆฌ๊ฐ ์ ์ฉํ ์ด์ ๋ ๋ชจ์ง๋จ์ ํํ๊ฐ ์ด๋ป๋ ์ง ๊ฐ์ ์๊ด์์ด ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ธฐ ๋๋ฌธ์ด๋ค.
์ํธ๋กํผ(Entropy)์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์. ๊ฐ๋ฅํ๋ฉด ์ ๋ณด์ด๋(Information Gain)๋์.
์ํธ๋กํผ๋ entropy๋ก, ์ ๋ณด์ด๋์ information gain์ผ๋ก ๋ชจ๋ ์์ด๋ก ํ๊ธฐํฉ๋๋ค.
entropy
๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ํผ์ก๋๋ฅผ ์๋ฏธํ๋ฉฐ, entropy๋ ๋ค์๊ณผ ๊ฐ์ด ๋ฐ์ดํฐ๊ฐ ์ด๋ค ํด๋์ค์ ์ํ ํ๋ฅ ์ ๋ํ ๊ธฐ๋๊ฐ์ผ๋ก ํํํ ์ ์๋ค.
entropy๋ ๋ฐ์ดํฐ๊ฐ ์๋ก ๋ค๋ฅธ ํด๋์ค์ ์ํ๋ฉด ๋๊ณ , ๊ฐ์ ํด๋์ค์ ์ํ๋ฉด ๋ฎ๋ค. ๋ค์ ๋งํ๋ฉด ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ํน์ ํด๋์ค์ ์ํ ํ๋ฅ ์ด ๋๊ณ ๋๋จธ์ง ํด๋์ค์ ์ํ ํ๋ฅ ์ด ๋ฎ๋ค๋ฉด entropy๊ฐ ๋๊ณ , ๋ชจ๋ ๊ฐ๊ฐ์ ํด๋์ค์ ์ํ ํ๋ฅ ์ด ๋น์ทํ๋ค๋ฉด entropy๋ ๋ฎ๋ค.
information gain
์ ์ด๋ค ์์ฑ์ ์ ํํจ์ผ๋ก ์ธํด ๋ฐ์ดํฐ๊ฐ ์ ํํฐ๋ง๋๋์ง๋ฅผ ๋งํ๋ฉฐ, 1์์ ์ํธ๋กํผ๋ฅผ ๋บ ๊ฐ์ผ๋ก ํํ๋๋ค. ์์ฌ๊ฒฐ์ ํธ๋ฆฌ๋ ๊ฐ์ง๋ฅผ ์น ๋ ์ด ๊ฐ์ ์ฌ์ฉํ์ฌ ๊ฐ์ง๋ฅผ ์น๋ค. ์ด ๋ ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ๋ ์งํฉ์ผ๋ก ๋๋์์ ๋ ๋ ์งํฉ์ information gain์ด ํฌ๋๋ก, entropy๋ ์์์ง๋๋ก ๋ถํ ์ ํ๋ค.
- 10.1 ์ํธ๋กํผ - ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์ค์ฟจ
- [์ธ๊ณต์ง๋ฅ] ์ํธ๋กํผ(Entropy) ์ ์ ๋ณด์ด๋(Information Gain) ๊ณ์ฐ - ๊พธ์คํฌ
- ํ์ด์ฌ ๋จธ์ ๋ฌ๋ ์๋ฒฝ ๊ฐ์ด๋ - ๊ถ์ฒ ๋ฏผ
์ด๋จ ๋ ๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ธ ์ ์๊ณ , ์ด๋จ ๋ ๋น๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ธ ์ ์๋์?
ํ๋ณธ์ ํต๊ณ๋ (ํ๊ท , ํ์คํธ์ฐจ ๋ฑ) ์ ํตํด ๋ชจ์ง๋จ์ ๋ชจ์ (๋ชจํ๊ท , ๋ชจํ์คํธ์ฐจ ๋ฑ) ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ ํต๊ณ์ ์ถ๋ก ์ด๋ผ๊ณ ํ๋ค.
๋ชจ์ง๋จ์ด ์ด๋ค ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๋ ๊ฐ์ ํ์ ํต๊ณ์ ์ถ๋ก ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ชจ์์ ๋ฐฉ๋ฒ์ด๋ผ ํ๋๋ฐ, ํ๋ณธ์ ์๊ฐ 30๊ฐ ์ด์์ผ ๋ ์ค์ฌ๊ทนํ ์ ๋ฆฌ์ ์ํด ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ฏ๋ก ๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ๋ค.
๋ฐ๋๋ก, ๋ชจ์ง๋จ์ ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ง ์๋ ๋น๋ชจ์์ ๋ฐฉ๋ฒ์, ํ๋ณธ์ ์๊ฐ 30๊ฐ ๋ฏธ๋ง์ด๊ฑฐ๋ ์ ๊ท์ฑ ๊ฒ์ ์์ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด์ง ์๋๋ค๊ณ ์ฆ๋ช ๋๋ ๊ฒฝ์ฐ ๋น๋ชจ์์ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ๋ค.
- ํ๋ฅ (Probability): ์ด๋ค ์ํ(trial, experiment)์์ ํน์ ๊ฒฐ๊ณผ(sample)๊ฐ ๋์ฌ ๊ฐ๋ฅ์ฑ. ์ฆ, ์ํ ์ ๋ชจ๋ ๊ฒฝ์ฐ์ ์์ ๊ฐ๋ฅ์ฑ์ ์ ํด์ ธ ์์ผ๋ฉฐ ๊ทธ ์ดํฉ์ 1(100%)์ด๋ค.
- ๊ฐ๋ฅ๋(Likelihood): ์ด๋ค ์ํ(trial, experiment)์ ์ถฉ๋ถํ ์ํํ ๋ค ๊ทธ ๊ฒฐ๊ณผ(sample)๋ฅผ ํ ๋๋ก ๊ฒฝ์ฐ์ ์์ ๊ฐ๋ฅ์ฑ์ ๋์ถํ๋ ๊ฒ. ์๋ฌด๋ฆฌ ์ถฉ๋ถํ ์ํํด๋ ์ด๋๊น์ง๋ ์ถ๋ก (inference)์ด๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅ์ฑ์ ํฉ์ด 1์ด ๋์ง ์์์๋ ์๋ค.
PDF(probability density function)์์๋ ํ๋ฅ ๋ณ์๋ฅผ ๋ณ์๋ก ๋ณด๊ธฐ ๋๋ฌธ์ ์ดํฉ์ด 1์ด์ง๋ง, likelihood function์์๋ ๋ถํฌ์ ๋ชจ์๋ฅผ ๋ณ์๋ก ๋ณด๊ธฐ ๋๋ฌธ์ ์ดํฉ์ด 1์ด ๋์ง ์์์๋ ์๋ค.
๋ถํธ์คํธ๋ฉ(Bootstrap) ์ ๊ฐ์ค๊ฒ์ฆ์ ํ๊ฑฐ๋ metric์ ๊ณ์ฐํ๊ธฐ ์ ์ random sampling์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ชจ์์ ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๋, ํ์ฌ ๊ฐ์ง ํ๋ณธ์์ ์ถ๊ฐ์ ์ผ๋ก ํ๋ณธ์ ๋ณต์์ถ์ถํ๊ณ ๊ฐ ํ๋ณธ์ ๋ํ ํต๊ณ๋์ ๋ค์ ๊ณ์ฐํ๋ ๊ฒ์ด๋ค. ๋ถํธ์คํธ๋ฉ์ด ์ฌ๊ธฐ์ ํด๋นํ๋ฉฐ, ์ฌ๋ฌ๋ฒ์ ๋ฌด์์ ์ถ์ถ์ ํตํด, ํ๊ท ์ ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ตฌํ ์ ์๋ค. 200๊ฐ๋ก๋ง ํต๊ณ๋์ ๊ตฌํ๋ ๊ฒ์ด ์๋๋ผ 200๊ฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ณต์ ์ถ์ถํ์ฌ ์๋ก์ด ํต๊ณ๋์ ๊ตฌํ๋ ๊ฒ์ ์์๋ก ๋ค ์ ์๋ค.
(์ฐธ๊ณ ) ๋จธ์ ๋ฌ๋์์์ bootstrap์ ์๋์ ๊ฐ์ด ํด์๋ ์ ์๋ค.
- ๋๋ค ์ํ๋ง์ ํตํด train data๋ฅผ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ
- ์ฌ๋ฌ ๋ชจ๋ธ์ ํ์ต์์ผ, ์ถ๋ก (inference) ๊ฒฐ๊ณผ์ ํ๊ท ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ(์์๋ธ)
๋ณต์์ถ์ถ(Sampling with replacement)์ด๋ ํ๋ฅ ์ ๊ตฌํ ๋, ์ถ์ถํ๋ ๊ฒ์ ์๋๋๋ก ๋๋ ค๋๊ณ ๋ค์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ
- ๋ถํธ์คํธ๋ฉ์ ๋ํ์ฌ - Learning Carrot
- DATA - 12. ๋ถํธ์คํธ๋ฉ
- ๋ณต์์ถ์ถ - ์ฌ์ด์ธ์ค์ฌ
๋ชจ์๊ฐ ๋งค์ฐ ์ ์ (์์ญ๊ฐ ์ดํ) ์ผ์ด์ค์ ๊ฒฝ์ฐ ์ด๋ค ๋ฐฉ์์ผ๋ก ์์ธก ๋ชจ๋ธ์ ์๋ฆฝํ ์ ์์๊น์?
๋ชจ์๋ ๋ชจ์ง๋จ์ ์๊ฐ ์๋, ํ๊ท , ํ์คํธ์ฐจ ๋ฑ์ ๋ชจ์ง๋จ์ ํน์ง์ ๋งํฉ๋๋ค. ์ฌ๊ธฐ์๋ ๋ชจ์ง๋จ์ ์๋ก ์๋ชป ์ฐ์ธ ๊ฒ์ผ๋ก ๋ณด์ด๋ฉฐ, ๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฒฝ์ฐ๋ผ ๊ฐ์ ํ๊ณ ๋ต๋ณ์ ์์ฑํ์์ต๋๋ค.
ํ๋ณธ์ด ๋งค์ฐ ์์ ๊ฒฝ์ฐ ํ๋ณธํ๊ท ์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ ์ ์์ผ๋ฏ๋ก ๋น๋ชจ์์ ๋ฐฉ๋ฒ์ ์ฑํํ์ฌ ์์ธก ๋ชจ๋ธ์ ์๋ฆฝํ ์ ์๋ค. ํ์ง๋ง ์ค์ฌ๊ทนํ์ ๋ฆฌ์ ์ํด ํ๋ณธ์ ํฌ๊ธฐ๊ฐ 30๋ณด๋ค ํด ๊ฒฝ์ฐ ํ๋ณธํ๊ท ์ด ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ ์ ์์ผ๋ฏ๋ก, ์ด ๊ฒฝ์ฐ์๋ ๋ชจ์์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
- ๋ชจ์, ํฐ ์์ ๋ฒ์น, ๊ทธ๋ฆฌ๊ณ ์ค์ฌ๊ทนํ์ ๋ฆฌ - Kyoyoung Chu
- ํผ๋์์ ๋ชจ์ ์ฉ์ด ์ง๋ฌธ์? - ์ธํ๋ฐ, cco
- [ํต๊ณ์ด๋ก ] ๋ชจ์์ ๋ฐฉ๋ฒ vs ๋น๋ชจ์์ ๋ฐฉ๋ฒ
๋ฒ ์ด์ง์์ ์ฌ๊ฑด์ ํ๋ฅ ์ ๋ฐ๋ผ๋ณผ ๋, ์ฌ์ ํ๋ฅ ์ ๋ฏธ๋ฆฌ ์ผ๋ํด๋๊ณ ์ฌ๊ฑด์ ๋ฐ์์ ๋ฐ๋ผ ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ก ์ฌํ ํ๋ฅ ์ ๊ตฌํด ๋ค์ ์ฌ์ ํ๋ฅ ์ ์ ๋ฐ์ดํธ์ํจ๋ค. ์ฆ, ๋ฒ ์ด์ง์์ ๊ณผ๊ฑฐ์ ์ฌ๊ฑด์ด ํ์ฌ ์ฌ๊ฑด์ ์ํฅ์ ๋ผ์น๋ค๋ ์ ์ฅ์ ๊ฐ์ง๊ณ ์๋ค.
๋ฐ๋ฉด, ํ๋ฆฌํํฐ์คํธ๋ ํ๋ฅ ์ ๋ฌดํ๋ฒ ์คํํ ๊ฒฐ๊ณผ, ๊ฐ๊ด์ ์ผ๋ก ๋ฐ์ํ๋ ํ์์ ๋น๋์๋ก ๋ฐ๋ผ๋ณธ๋ค. ์ฆ, ํ๋ฆฌํํฐ์คํธ๋ ํ์ฌ์ ๊ฐ๊ด์ ์ธ ํ๋ฅ ์ ์ํด์๋ง ์ฌ๊ฑด์ด ๋ฐ์ํ๋ค๋ ์ ์ฅ์ ๊ฐ์ง๊ณ ์๋ค.
๊ท๋ฌด๊ฐ์ค H0 ์ฐธ | ๊ท๋ฌด๊ฐ์ค H0 ๊ฑฐ์ง | |
---|---|---|
๊ท๋ฌด๊ฐ์ค H0 ์ฑํ | ์ณ์ ๊ฒฐ์ (1-ฮฑ) | ์ 2์ข ์ค๋ฅ(ฮฒ) |
๊ท๋ฌด๊ฐ์ค H0 ๊ธฐ๊ฐ | ์ 1์ข ์ค๋ฅ(ฮฑ) | ์ณ์ ๊ฒฐ์ (1-ฮฒ), ๊ฒ์ ๋ ฅ |
๊ฒ์ ๋ ฅ์ ๋๋ฆฝ๊ฐ์ค H1์ด ์ฐธ์ธ ๊ฒฝ์ฐ ๊ท๋ฌด๊ฐ์ค H0๋ฅผ ๊ธฐ๊ฐ(๋๋ฆฝ๊ฐ์ค H1์ ์ฑํ)ํ ํ๋ฅ ์ด๋ค.
- ๊ฒ์ ๋ ฅ(power)์ ์๋ฏธ ๋ฐ ์์ - Curycu's Box
- ํต๊ณ์ ๊ฒ์ : ๊ฒ์ ๋ ฅ(power)๊ณผ Type 1, 2 Error(1, 2 ์ข ์ค๋ฅ) - ์ฝ๋ฉํ๊ณ ,
missing value๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์๋ ํฌ๊ฒ 4๊ฐ์ง๊ฐ ์๋ค.
- ๊ทธ๋๋ก ๋๋๊ธฐ: ๋๋ฝ๋ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ๋๋๋ ๋ฐฉ๋ฒ์ด๋ค.
- ์ญ์ ํ๊ธฐ: ๋๋ฝ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ค์ํ ์ ๋ณด๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ์์ ์ํ์ด ์๋ค.
- ํน์ ๊ฐ์ผ๋ก ์ฑ์ฐ๊ธฐ: 0, ๋น๋ฒํ ๊ฐ, ์ง์ ํ ์์๊ฐ์ผ๋ก ์ฑ์ฐ๊ธฐ
- ์์ธกํ์ฌ ์ฑ์ฐ๊ธฐ: K-means, ํ๊ท ๊ฐ, ์ค์๊ฐ์ผ๋ก ๋์ฒดํ๋ ๊ฒ
1๋ฒ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ, ๋ฐ์ดํฐ๊ฐ ๋๋ฝ๋ ์ฑ๋ก ๋๋๋ค๊ณ ๊ฐ์ ํ์.
์ผ๋ถ xgboost๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฐ์ธก๊ฐ์ ๊ณ ๋ คํ์ฌ ์ ํ์ตํ๋ค.
๊ทธ๋ฌ๋ ๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํ๋ ๋ก์ง์ด ์๋ ์๊ณ ๋ฆฌ์ฆ(ex. sklearn์ LinearRegression)์ ๋๋ฝ๋ ๋ฐ์ดํฐ ๋๋ฌธ์ ์๋ง์ด ๋ ์ ์๋ค.
๋ฐ๋ผ์ ๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํด์ฃผ์ด์ผํ๋ค.
2๋ฒ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ, ๋๋ฝ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๋ค๊ณ ํด๋ณด์. ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ๊ฐ์ฅ ์ฌ์ด ๋ฐฉ๋ฒ์ด๋ค. ๊ทธ๋ฌ๋ ๋ง์ฝ 100๋ช ์ค ํ๋ช ์ ํน์ง(feature)์ด ๋๋ฝ๋ ์ํ์ด๋ฏ๋ก, ํด๋น ํน์ง์ ์ ๋ถ ์ญ์ ํ๋ค๋ฉด ์ค์ํ ํน์ฑ์ ์์ด๋ฒ๋ฆฌ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๊ฒ ๋๋ค.
3๋ฒ, 4๋ฒ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฒฐ์ธก์น๋ฅผ ์ฑ์ด๋ค๊ณ ํด๋ณด์. ๊ฒฐ์ธก์น๋ฅผ ์ฑ์์ผ๋ก์, ์ค์ํ ์ ๋ณด๋ฅผ ์์ง์๊ณ ํน์ฑ์ ์ ์งํ ์ ์๋ค. ๊ทธ๋ฌ๋ ๋ง์ฝ 100๋ช ์ค 99๋ช ์ ํน์ง์ด ๋๋ฝ๋ ์ํ๋ผ๊ณ ํ๋ค๋ฉด, ํด๋น ํน์ง์ ์ด๋ ํ ๊ฐ์ผ๋ก ์ฑ์ฐ๋ ํ์๊ฐ ๋ฌด์๋ฏธํ ๊ฒ์ด๋ค.
๋ฐ๋ผ์ ๊ฒฐ์ธก์น ์ํ๋ ๋น์จ, ์ด๋ค ๋ชจ๋ธ์ ์ฌ์ฉํ ๊ฒ์ธ์ง
์ ๋ฐ๋ผ์ ๊ฒฐ์ธก์น ๋์ ๋ฐฉ๋ฒ์ด ๋ฌ๋ผ์ง ์ ์๋ค.
์ด์์น(outlier)
๋ ์ ์ฒด ๋ฐ์ดํฐ์ ํจํด์์ ๋ฒ์ด๋ ์ด์ํ ๊ฐ์ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๋งํ๋ค. ์ด์์น๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋ฏ๋ก ์ด๋ฅผ ํ์งํ๋ ๊ฒ์ ์ ๋ง ์ค์ํ๋ค.
์ด์์น๋ฅผ ํ์งํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ก IQR(Inter Quantile Range) ๊ธฐ๋ฒ์ด ์๋ค. IQR ๊ธฐ๋ฒ์ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ์ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์์ผ๋ก ์ ๋ ฌํ๊ณ 25%, 50%, 75%, 100%๋ก 4๋ฑ๋ถ์ ํ๋ค. ์ด 75% ์ง์ ๊ณผ 25% ์ง์ ์ ๊ฐ์ ์ฐจ์ด๋ฅผ IQR์ด๋ผ๊ณ ํ๋ค. ์ด IQR์ 1.5๋ฅผ ๊ณฑํ ๊ฐ์ 75% ์ง์ ์ ๊ฐ์ ๋ํ์ฌ ์ต๋๊ฐ์, 25% ์ง์ ์ ๊ฐ์์ ๋นผ์ ์ต์๊ฐ์ ๊ณ์ฐํ๋ค. ์ด ๋ ์ต์๊ฐ๋ณด๋ค ์๊ฑฐ๋ ์ต๋๊ฐ๋ณด๋ค ํฐ ๊ฐ์ ์ด์์น๋ผ๊ณ ํ๋จํ๋ค.
๋ ๋ค๋ฅธ ํ์ง ๋ฐฉ๋ฒ์ผ๋ก๋ Z-score๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์์ด ์๋ค. Z-score๋ ๋ฐ์ดํฐ๊ฐ ํ๊ท ์์ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง๋ฅผ ๋ํ๋ด๋ ์งํ๋ก, ์๊ณ๊ฐ์ ์ค์ ํ์ฌ Z-score์ด ์ด ๊ฐ๋ณด๋ค ํฌ๋ค๋ฉด ์ด์์น๋ก ํ๋จํ๋ค. ํ์ง๋ง Z-score ๋ฐฉ์์ ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ๊ฐ ๊ฐ์ฐ์์ ๋ถํฌ๊ฐ ์๋ ๊ฒฝ์ฐ ๋ณ๋์ ๋ณํ์ด ํ์ํ๋ค.
- A Brief Overview of Outlier Detection Techniques - Towards Data Science
- IQR ๋ฐฉ์์ ์ด์ฉํ ์ด์์น ๋ฐ์ดํฐ(Outlier) ์ ๊ฑฐ - Hwi's ML doc
- [๋ฐ์ดํฐ์ ์ฒ๋ฆฌ] Outlier(์ด์์น/์ด์๊ฐ/ํน์ด๊ฐ/ํน์ด์น ๋ฑ) ํ์ง ๋ฐฉ๋ฒ(detection method) : 2. Z-score ๋ฐฉ์ with - Clary K
๋จผ์ ๋ชจ์ง๋จ์ ํฌ๊ธฐ : N ์ ๊ตฌํ๊ณ , ์ ๋ขฐ์์ค : z ์ ์ค์ฐจ๋ฒ์ : e ๋ฅผ ์ผ๋ง๋ก ํ ์ง ์ ์ ํ์ฌ ํ๋ณธ์ ํฌ๊ธฐ๋ฅผ ๊ตฌํ ์ ์๋ค.
์ฐธ๊ณ ๋ก ์ ๋ขฐ์์ค์ ํ๋ณธ์ถ์ถ์ ๋ฐ๋ณตํ์ ๋ ์ผ๋ง๋ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ขฐํ ์ ์๋์ง์ ๋ํ ์ ๋๋ก 95% ๋ฅผ ์ฃผ๋ก ์ฌ์ฉํ๋ค.
์ค์ฐจ๋ฒ์๋ ์์ ์๋ก ๋ชจ์ง๋จ์ ํน์ฑ์ ๋ํ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง๋ง ๋ชจ์ง๋จ์ ๋ํ ์ถ๋ก ์ด ํ๋ฆด ๊ฐ๋ฅ์ฑ๋ ๋์์ง๋ฏ๋ก 10% ๋ฅผ ๋์ง ์๊ฒ ํ๋ค.
- ํ์ํ ์ค๋ฌธ ์๋ต์์(ํ๋ณธํฌ๊ธฐ) ๊ณ์ฐํ๊ธฐ - LearnX
- ํ๋ณธํฌ๊ธฐ์ ๊ฒฐ์ - Data Scream
Bias๋ ๋ฐ์ดํฐ ๋ด์ ์๋ ๋ชจ๋ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ์ง ์์์ผ๋ก ์ธํด, ์ง์์ ์ผ๋ก ์๋ชป๋ ๊ฒ๋ค์ ํ์ตํ๋ ๊ฒฝํฅ์ ์๋ฏธํ๋ค. ์ด๋ underfitting๊ณผ ๊ด๊ณ๋์ด ์๋ค.
๋ฐ๋๋ก Variance๋ ๋ฐ์ดํฐ ๋ด์ ์๋ ์๋ฌ๋ ๋ ธ์ด์ฆ๊น์ง ์ ์ก์๋ด๋ highly flexible models์ ๋ฐ์ดํฐ๋ฅผ fitting ์ํด์ผ๋ก์จ, ์ค์ ํ์๊ณผ ๊ด๊ณ ์๋ randomํ ๊ฒ๋ค๊น์ง ํ์ตํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฝํฅ์ ์๋ฏธํ๋ค. ์ด๋ overfitting๊ณผ ๊ด๊ณ๋์ด ์๋ค.
ํธํฅ(Bias)๊ณผ ๋ถ์ฐ(Variance)์ ํ ์ชฝ์ด ์ฆ๊ฐํ๋ฉด ๋ค๋ฅธ ํ ์ชฝ์ด ๊ฐ์ํ๊ณ , ํ์ชฝ์ด ๊ฐ์ํ๋ฉด ๋ค๋ฅธ ํ์ชฝ์ด ์ฆ๊ฐํ๋ tradeoff ๊ด๊ณ๋ฅผ ๊ฐ์ง๋ค.
Bias๋ฅผ ํต์ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก๋
- (neuron์ด๋ ๊ณ์ธต์ ๊ฐฏ์ ๊ฐ์) ๋ชจ๋ธ์ ํฌ๊ธฐ ์ฆ๊ฐ
- ์ค๋ฅํ๊ฐ์ ์ป์ ์ง์์ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ ฅ ํน์ฑ ์์
- ์ ๊ทํ๋ฅผ ์ค์ด๊ฑฐ๋ ์ ๊ฑฐ
- ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์์
- ํ์ต ๋ฐ์ดํฐ ์ถ๊ฐ
๋ฑ์ ๋ฐฉ๋ฒ์ด ์๋ค.
- ์ฝ๊ฒ ์ดํดํด๋ณด๋ bias-variance tradeoff - ๊ฑด๋นต์ ๋ธ๋ก๊ทธ
- Bias and Variance (ํธํฅ๊ณผ ๋ถ์ฐ) - ํ ํ์ด์ง ๋จธ์ ๋ฌ๋
- [MLY] avoidable bias๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ๋ค - ์๊ฐ๋ง์ ์์ฌ๋จ
์๋์ ๊ฐ์ ๊ฒฝ์ฐ์ ๋ก๊ทธํจ์๊ฐ ์ ์ฉํ๋ค.
- ๋จ์ ์๊ฐ ๋๋ฌด ํฐ ๊ฐ๋ค์ ๋ฐ๋ก ํ๊ท๋ถ์ ํ ๊ฒฝ์ฐ, ๊ฒฐ๊ณผ๋ฅผ ์๊ณกํ ์ฐ๋ ค๊ฐ ์์ผ๋ฏ๋ก ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
์๋ฅผ๋ค์ด, ๋์ด์ ์ฌ์ฐ๋ณด์ ์ก์ ๊ด๊ณ๋ฅผ ํ๊ท๋ถ์์ผ๋ก ํผ๋ค๊ณ ํ์ ๋, ์ฌ์ฐ๋ณด์ ์ก์ ์ซ์๊ฐ ๊ต์ฅํ ํด ์ ์๋ค. ์ฌ์ฐ๋ณด์ ์ก์ ๋ก๊ทธ๋ฅผ ์ทจํ ๊ฒฝ์ฐ, ๋ฐ์ดํฐ์ ์๋์ ์ฒจ๋๋ฅผ ์ค์ผ ์ ์์ด ์ ๊ท์ฑ์ด ๋์์ง๋ ํจ๊ณผ๋ฅผ ์ป๋๋ค.
- ๋น์ ํ๊ด๊ณ์ ๋ฐ์ดํฐ๋ฅผ ์ ํ์ผ๋ก ๋ง๋ค๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
์๋ฅผ๋ค์ด, ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋๋ ์ ๊ณฑ ํ์์ ๊ทธ๋ํ์ ์์ฐ๋ก๊ทธ๋ฅผ ์ทจํ๋ฉด ๊ทธ ๊ด๊ณ๊ฐ ์ง์ (์ ํ)์ด ๋๋ค.
(์ฃผ์) log ํจ์๋ 0~1 ์ฌ์ด์์๋ ์์๊ฐ์ ๊ฐ์ง๋ฏ๋ก, log(1+x)์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ์ฒ๋ฆฌํด์ฃผ์ด์ผํ๋ค.
- ์ถ๊ฐ๋ด์ฉ) ์๋(skewness)์ ์ฒจ๋(Kurtosis)
- ์๋๋ ๋ฐ์ดํฐ๊ฐ ํ์ชฝ์ผ๋ก ์น์ฐ์น ์ ๋์ด๋ค.
- ์ฒจ๋๋ ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋พฐ์กฑํ์ง๋ฅผ ๋ํ๋ด๋ ์ ๋์ด๋ค.
๋ฒ ๋ฅด๋์ด ๋ถํฌ / ์ดํญ ๋ถํฌ / ์นดํ ๊ณ ๋ฆฌ ๋ถํฌ / ๋คํญ ๋ถํฌ / ๊ฐ์ฐ์์ ์ ๊ท ๋ถํฌ / t ๋ถํฌ / ์นด์ด์ ๊ณฑ ๋ถํฌ / F ๋ถํฌ / ๋ฒ ํ ๋ถํฌ / ๊ฐ๋ง ๋ถํฌ์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
(์ถํ ์์ )