Skip to content

Latest commit

ย 

History

History
666 lines (419 loc) ยท 41.9 KB

1-statistics-math.md

File metadata and controls

666 lines (419 loc) ยท 41.9 KB

๐Ÿ“ˆ Statistics/Math ๐Ÿ“ˆ

์งˆ๋ฌธ์€ zzsza๋‹˜์˜ Datascience-Interview-Questions๋ฅผ ์ฐธ๊ณ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.


Table of Contents


#1

๊ณ ์œ ๊ฐ’(eigen value)์™€ ๊ณ ์œ ๋ฒกํ„ฐ(eigen vector)์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”. ๊ทธ๋ฆฌ๊ณ  ์™œ ์ค‘์š”ํ• ๊นŒ์š”?

์ •๋ฐฉํ–‰๋ ฌ A (n x n) ๋Š” ์ž„์˜์˜ ๋ฒกํ„ฐ x (n x 1) ์˜ ๋ฐฉํ–ฅ๊ณผ ํฌ๊ธฐ๋ฅผ ๋ณ€ํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

์ˆ˜๋งŽ์€ ๋ฒกํ„ฐ x ์ค‘ ์–ด๋–ค ๋ฒกํ„ฐ๋“ค์€ A ์— ์˜ํ•ด ์„ ํ˜• ๋ณ€ํ™˜๋˜์—ˆ์„ ๋•Œ์—๋„ ์›๋ž˜ ๋ฒกํ„ฐ์™€ ํ‰ํ–‰ํ•œ ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค. ์ด๋ ‡๋“ฏ Ax ๊ฐ€ ์›๋ž˜ x ์— ์ƒ์ˆ˜ (๋žŒ๋‹ค) ๋ฅผ ๊ณฑํ•œ ๊ฒƒ๊ณผ ๊ฐ™์„ ๋•Œ์˜ x ๋ฅผ ๊ณ ์œ  ๋ฒกํ„ฐ, ๋žŒ๋‹ค๋ฅผ ๊ณ ์œ ๊ฐ’์ด๋ผ ํ•œ๋‹ค.

๊ณต์‹


์•„๋ž˜์ฒ˜๋Ÿผ x1 ์€ A ์— ์˜ํ•ด ๋ณ€ํ™˜๋˜์—ˆ์Œ์—๋„ x1 ๊ณผ ํ‰ํ–‰ํ•˜๋‹ค. ๋”ฐ๋ผ์„œ x1 ์€ ๊ณ ์œ ๋ฒกํ„ฐ์ด๋‹ค.


๊ณ ์œ ๊ฐ’๊ณผ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ํ†ตํ•ด A ๋ฅผ ๊ณ ์œ ๊ฐ’๊ณผ ๊ณ ์œ ๋ฒกํ„ฐ๋“ค๋กœ ๋ถ„ํ•ดํ•˜๋Š” ๊ณ ์œ ๊ฐ’ ๋ถ„ํ•ด (eigen decomposition), ์ •๋ฐฉํ–‰๋ ฌ ๋ฟ๋งŒ ์•„๋‹Œ m x n ํ–‰๋ ฌ๋„ ๋ถ„ํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํŠน์ด๊ฐ’ ๋ถ„ํ•ด (SVD), ๋ฐ์ดํ„ฐ๋“ค์„ ์ฐจ์› ์ถ•์†Œ์‹œํ‚ฌ ๋•Œ ๊ฐ€์žฅ ์›๋ž˜ ์˜๋ฏธ๋ฅผ ์ž˜ ๋ณด์กด์‹œํ‚ค๋Š” ์ฃผ์„ฑ๋ถ„ ๋ถ„์„ (PCA) ๋“ฑ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ค‘์š”ํ•˜๋‹ค.

References


#2

์ƒ˜ํ”Œ๋ง(Sampling)๊ณผ ๋ฆฌ์ƒ˜ํ”Œ๋ง(Resampling)์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”. ๋ฆฌ์ƒ˜ํ”Œ๋ง์€ ๋ฌด์Šจ ์žฅ์ ์ด ์žˆ์„๊นŒ์š”?

์ƒ˜ํ”Œ๋ง์ด๋ž€ ํ‘œ๋ณธ์ถ”์ถœ์„ ์˜๋ฏธํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ๋ชจ์ง‘๋‹จ ์ „์ฒด์— ๋Œ€ํ•œ ์ถ”์ •์น˜(estimate)๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ์ž„์˜์˜ sample์„ ๋ฝ‘์•„๋‚ด๋Š” ๊ฒƒ์ด๋‹ค. ๋ชจ์ง‘๋‹จ ์ „์ฒด์— ๋Œ€ํ•œ ์กฐ์‚ฌ๋Š” ๋ถˆ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์— sample์„ ์ด์šฉํ•˜์—ฌ ๋ชจ์ง‘๋‹จ์— ๋Œ€ํ•œ ์ถ”๋ก (inference)์„ ํ•˜๊ฒŒ๋˜๋Š” ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ ํ‘œ๋ณธ์€ ๋ชจ์ง‘๋‹จ์„ ๋‹ฎ์€ ๋ชจ์ง‘๋‹จ์˜ mirror image ๊ฐ™์€ ์กด์žฌ์ด์ง€๋งŒ, ๋ชจ์ง‘๋‹จ ๊ทธ ์ž์ฒด์ผ์ˆ˜๋Š” ์—†๋‹ค. ๋”ฐ๋ผ์„œ ํ‘œ๋ณธ์—๋Š” ๋ฐ˜๋“œ์‹œ ๋ชจ์ง‘๋‹จ์˜ ์›๋ž˜ ํŒจํ„ด์—์„œ ๋†“์นœ ๋ถ€๋ถ„, ์ฆ‰ noise๊ฐ€ ์กด์žฌํ•  ์ˆ˜ ๋ฐ–์— ์—†๋‹ค.

๋ฆฌ์ƒ˜ํ”Œ๋ง์€ ๋ชจ์ง‘๋‹จ์˜ ๋ถ„ํฌ ํ˜•ํƒœ๋ฅผ ์•Œ ์ˆ˜ ์—†์„ ๋•Œ ์ฃผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์ฆ‰, ๋ชจ๋ถ„ํฌ๋ฅผ ์•Œ ์ˆ˜ ์—†์œผ๋ฏ€๋กœ ์ผ๋ฐ˜์ ์ธ ํ†ต๊ณ„์  ๊ณต์‹๋“ค์„ ์‚ฌ์šฉํ•˜๊ธฐ ํž˜๋“ค ๋•Œ, ํ˜„์žฌ ๊ฐ–๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ชจ๋ถ„ํฌ์™€ ๋น„์Šทํ•  ๊ฒƒ์œผ๋กœ ์ถ”์ •๋˜๋Š” ๋ถ„ํฌ๋ฅผ ๋งŒ๋“ค์–ด ๋ณด์ž๋Š” ๊ฒƒ์ด๋‹ค. ๋ฆฌ์ƒ˜ํ”Œ๋ง์€ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ์ƒ˜ํ”Œ์—์„œ ๋‹ค์‹œ ์ƒ˜ํ”Œ ๋ถ€๋ถ„์ง‘ํ•ฉ์„ ๋ฝ‘์•„์„œ ํ†ต๊ณ„๋Ÿ‰์˜ ๋ณ€๋™์„ฑ(variability of statistics)์„ ํ™•์ธํ•˜๋Š” ๊ฒƒ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, ๊ฐ™์€ ์ƒ˜ํ”Œ์„ ์—ฌ๋Ÿฌ ๋ฒˆ ์‚ฌ์šฉํ•ด์„œ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•์ด๋ฉฐ ์ข…๋ฅ˜๋กœ๋Š” K-fold ๊ต์ฐจ ๊ฒ€์ฆ, ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘์ด ์žˆ๋‹ค.

๋ฆฌ์ƒ˜ํ”Œ๋ง์€ ํ‘œ๋ณธ์„ ์ถ”์ถœํ•˜๋ฉด์„œ ์›๋ž˜ ๋ฐ์ดํ„ฐ ์…‹์„ ๋ณต์›ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ํ†ตํ•ด์„œ ๋ชจ์ง‘๋‹จ์˜ ๋ถ„ํฌ์— ์–ด๋–ค ๊ฐ€์ •๋„ ํ•„์š” ์—†์ด ํ‘œ๋ณธ๋งŒ์œผ๋กœ ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค.

References


#3

ํ™•๋ฅ  ๋ชจํ˜•๊ณผ ํ™•๋ฅ  ๋ณ€์ˆ˜๋Š” ๋ฌด์—‡์ผ๊นŒ์š”?

ํ™•๋ฅ ๋ณ€์ˆ˜(Random Variable) ๋ž€, ํ‘œ๋ณธ ๊ณต๊ฐ„์˜ ๊ฐ ๋‹จ์œ„ ์‚ฌ๊ฑด์— ์‹ค์ˆ˜ ๊ฐ’์„ ๋ถ€์—ฌํ•˜๋Š” ํ•จ์ˆ˜์ด๋‹ค. ํ™•๋ฅ ๋ณ€์ˆ˜๋Š” ์–ด๋– ํ•œ ํ•จ์ˆ˜๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๋Œ€๋ฌธ์ž X๋ผ๊ณ  ํ‘œ๊ธฐํ•œ๋‹ค. ๋ฌด์ž‘์œ„(Random) ์‹คํ—˜์„ ํ–ˆ์„ ๋•Œ, ํŠน์ • ํ™•๋ฅ ๋กœ ๋ฐœ์ƒํ•˜๋Š” ๊ฐ๊ฐ์˜ ๊ฒฐ๊ณผ๋ฅผ ์ˆ˜์น˜์  ๊ฐ’์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ณ€์ˆ˜๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ ํ™•๋ฅ  ๋ณ€์ˆ˜์—๋Š” ์ด์‚ฐํ™•๋ฅ ๋ณ€์ˆ˜, ์—ฐ์†ํ™•๋ฅ ๋ณ€์ˆ˜ ๋‘๊ฐ€์ง€ ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค. ์ด์‚ฐํ™•๋ฅ ๋ณ€์ˆ˜๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜ X๊ฐ€ ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ’์ด ์œ ํ•œํ•˜๊ธฐ ๋–„๋ฌธ์— ์…€ ์ˆ˜ ์žˆ๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜์ด๋‹ค. ๋ฐ˜๋ฉด์— ์—ฐ์†ํ™•๋ฅ ๋ณ€์ˆ˜๋Š” ์–ด๋– ํ•œ ๋‘ ์ˆ˜ ์‚ฌ์ด์— ๋ฐ˜๋“œ์‹œ ๋‹ค๋ฅธ ์ˆ˜๊ฐ€ ์กด์žฌํ•˜๋Š”, ์…€ ์ˆ˜ ์—†๋Š” ๋ฒ”์œ„์˜ ํ™•๋ฅ ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง€๋Š” ๊ฒฝ์šฐ์— ์‚ฌ์šฉ๋œ๋‹ค.

์ฃผ์‚ฌ์œ„ ๊ตด๋ฆฌ๊ธฐ ์˜ˆ์ œ๋ฅผ ์ƒ๊ฐํ•ด๋ณด์ž.

์ผ๋‹จ ์ฃผ์‚ฌ์œ„๋ฅผ ๊ตด๋ฆฌ๋Š” ์ƒํ™ฉ์€ ์–ด๋–ค ์ˆ˜๊ฐ€ ๋‚˜์˜ฌ์ง€ ๋ชจ๋ฅด๋ฏ€๋กœ, ํ™•๋ฅ ์ƒํ™ฉ์ด๋‹ค.
"์ฃผ์‚ฌ์œ„๋ฅผ ๊ตด๋ ธ์„ ๋•Œ ๋‚˜์˜ค๋Š” ๊ฐ’"์„ ํ™•๋ฅ ๋ณ€์ˆ˜ X๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.
1~6์ด ํ‘œ๋ณธ๊ณต๊ฐ„์ด ๋˜๊ณ , ์…€ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ด์‚ฐํ™•๋ฅ ๋ณ€์ˆ˜๊ฐ€ ๋œ๋‹ค.
P(X=1)์™€ ๊ฐ™์€ ์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ , ์ด๋Š” "์ฃผ์‚ฌ์œ„๋ฅผ ๊ตด๋ ธ์„ ๋•Œ, 1์ด๋ผ๋Š” ๊ฐ’์ด ๋‚˜์˜ฌ ํ™•๋ฅ "๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ™•๋ฅ ๋ชจํ˜•(Probability Model) ์ด๋ž€ ํ™•๋ฅ ๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •์˜ํ•œ ๋ชจํ˜•์ด๋‹ค. ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๋ฌ˜์‚ฌํ•˜๊ธฐ ์œ„ํ•ด์„œ ์‚ฌ์šฉ๋œ๋‹ค. ๋ณดํ†ต ํ™•๋ฅ  ๋ถ„ํฌ ํ•จ์ˆ˜(probability distribution function) ๋˜๋Š” ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜(probability density function)๋ฅผ ์ฃผ๋กœ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด๋•Œ ํ•จ์ˆ˜์˜ ๊ณ„์ˆ˜๋ฅผ ๋ถ„ํฌ์˜ ๋ชจ์ˆ˜(parameter)๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ํ™•๋ฅ ๋ถ„ํฌ(Probability Distribution) ๋ž€ ํ‘œ๋ณธ๊ณต๊ฐ„์— ์ •์˜๋œ ํ™•๋ฅ ์„ ์ด์šฉํ•˜์—ฌ ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ๊ฐ’ ๋˜๋Š” ์˜์—ญ์— ๋Œ€ํ•œ ํ™•๋ฅ ์„ ํ‘œํ˜„ํ•œ ๊ฒƒ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฐ€์žฅ ๋„๋ฆฌ ์“ฐ์ด๋Š” ํ™•๋ฅ  ๋ชจํ˜•์˜ ํ•˜๋‚˜์ธ ๊ฐ€์šฐ์‹œ์•ˆ ์ •๊ทœ ๋ถ„ํฌ(Gaussian normal distribution)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆ˜์‹์œผ๋กœ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•œ๋‹ค.

๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•จ์ˆ˜๋“ค์ด ํ™•๋ฅ ๋ชจํ˜•์— ํฌํ•จ๋  ์ˆ˜ ์žˆ๋‹ค. (์ž์„ธํ•œ ๋‚ด์šฉ์€ ํ™•๋ฅ ํ†ต๊ณ„ ๊ธฐ์ดˆ์šฉ์–ด - EG ๊ณต๊ฐ„ ์ฐธ๊ณ )

  • ํ™•๋ฅ ์งˆ๋Ÿ‰ํ•จ์ˆ˜(PMF, Probability Mass Function) - ์ด์‚ฐํ˜•
  • ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜(PDF, Probability Density Function) - ์—ฐ์†ํ˜•
  • ๋ˆ„์ ๋ถ„ํฌํ•จ์ˆ˜(CDF, Cumulative Distribution Function)

โœ”๏ธŽ ์ถ”๊ฐ€์ ์œผ๋กœ ํ™•๋ฅ  ํ†ต๊ณ„์˜ ๊ธฐ์ดˆ ์šฉ์–ด๋ฅผ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. (์ฃผ์‚ฌ์œ„ ๊ตด๋ฆฌ๊ธฐ ์˜ˆ์ œ ์‚ฌ์šฉ)

- ์‹คํ—˜(Experiment)์€ ํ•˜๋‚˜์˜ ํ–‰์œ„๊ฐ€ ํ•˜๋‚˜ ์ด์ƒ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•˜๋Š” ๊ฒƒ์— ๋Œ€ํ•œ ๊ณผ์ • ํ˜น์€ ์ ˆ์ฐจ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.
  - ์˜ˆ์‹œ) ์ฃผ์‚ฌ์œ„๋ฅผ ๋˜์ง„๋‹ค.
- ๊ฒฐ๊ณผ(Outcome)๋Š” ์–ด๋–ค ์‹คํ—˜์— ์˜ํ•ด ๋ฐœ์ƒ ๊ฐ€๋Šฅํ•œ ๊ฒฐ๊ณผ์ด๋‹ค. ํŠน์ • ์‹คํ—˜์˜ ๊ฐ€๋Šฅํ•œ ๊ฒฐ๊ณผ๋“ค์€ ๊ฐ๊ฐ ์œ ์ผ(unique)ํ•˜๋‹ค. ํ•œ๋ฒˆ์˜ ์‹คํ—˜์„ ์‹œํ–‰ํ–ˆ์„ ๋•Œ, ๋‹จ ํ•˜๋‚˜์˜ outcome๋งŒ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.
  - ์˜ˆ์‹œ) ์ฃผ์‚ฌ์œ„์˜ ๋ˆˆ (ex. 3, 4, 6)
- ํ‘œ๋ณธ ๊ณต๊ฐ„(Sample space)์€ ํ™•๋ฅ  ์‹คํ—˜์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๊ฒฐ๊ณผ๋กœ ๊ตฌ์„ฑ๋œ ์ง‘ํ•ฉ(set)์ด๋‹ค. ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๊ฒฐ๊ณผ์˜ ์ง‘ํ•ฉ์ด๋ฏ€๋กœ, ์ค‘๋ณต๋œ ์›์†Œ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค.
  - ์˜ˆ์‹œ) ๊ฐ€๋Šฅํ•œ ์ฃผ์‚ฌ์œ„์˜ ๋ชจ๋“  ๋ˆˆ ์ง‘ํ•ฉ (ex. ฮฉ = {1, 2, 3, 4, 5, 6})
- ์‚ฌ๊ฑด(Event)์€ ์šฐ๋ฆฌ๊ฐ€ ๊ด€์‹ฌ์žˆ๋Š” Sample space์˜ ๋ถ€๋ถ„์ง‘ํ•ฉ์ด๋‹ค.
  - ์˜ˆ์‹œ) ์ฃผ์‚ฌ์œ„ ๋ˆˆ์ด 3์ด ๋‚˜์˜จ๋‹ค, ์ง์ˆ˜/ํ™€์ˆ˜๊ฐ€ ๋‚˜์˜จ๋‹ค.

References


#4

๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜์™€ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋Š” ๋ฌด์—‡์ผ๊นŒ์š”? ์ˆ˜์‹๊ณผ ํ•จ๊ป˜ ํ‘œํ˜„ํ•ด์ฃผ์„ธ์š”.

ํ™•๋ฅ  ๋ณ€์ˆ˜ ๊ฐ€ ์ž„์˜์˜ ์‹ค์ˆ˜ ์ง‘ํ•ฉ ์— ํฌํ•จ๋˜๋Š” ์‚ฌ๊ฑด์˜ ํ™•๋ฅ ์ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์–ด๋–ค ์Œ์ด ์•„๋‹Œ ํ•จ์ˆ˜ ์˜ ์ ๋ถ„์œผ๋กœ ์ฃผ์–ด์ง„๋‹ค๊ณ  ํ•˜์ž.


์ด ๋•Œ์˜ ๋ฅผ ์—ฐ์†ํ™•๋ฅ ๋ณ€์ˆ˜๋ผ๊ณ  ํ•˜๋ฉฐ, ํ•จ์ˆ˜ ๋ฅผ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜(Probability Density Function, PDF)๋ผ๊ณ  ํ•œ๋‹ค. ๋‹จ, ์‹ค์ˆ˜ ์ง‘ํ•ฉ ๊ฐ€ ์‹ค์ˆ˜ ์ „์ฒด์ผ ๊ฒฝ์šฐ ์‹ค์ˆ˜ ์ „์ฒด์— ๋Œ€ํ•œ ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜์˜ ์ ๋ถ„์€ 1์„ ๋งŒ์กฑํ•ด์•ผ ํ•œ๋‹ค.


๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜(Cumulative Distribution Function, CDF)๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜๊ฐ€ ํŠน์ • ๊ฐ’๋ณด๋‹ค ์ž‘๊ฑฐ๋‚˜ ๊ฐ™์„ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜์ด๋‹ค. ํŠน์ • ๊ฐ’์„ ๋ผ๊ณ  ํ•  ๋•Œ, ๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.


ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜์™€ ๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜๋Š” ๋ฏธ๋ถ„๊ณผ ์ ๋ถ„์˜ ๊ด€๊ณ„๋ฅผ ๊ฐ–๋Š”๋‹ค. ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋ฅผ ์Œ์˜ ๋ฌดํ•œ๋Œ€์—์„œ ํŠน์ •๊ฐ’ ๊นŒ์ง€ ์ ๋ถ„์„ ํ•˜๋ฉด, ์— ๋Œ€ํ•œ ๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ ๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜๋ฅผ ๋ฏธ๋ถ„ํ•˜๋ฉด ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

References


#5

์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์€ ๋ฌด์—‡์ผ๊นŒ์š”?

์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์€ ์‚ฌ๊ฑด A ๊ฐ€ ์ผ์–ด๋‚ฌ๋‹ค๋Š” ์ „์ œ ํ•˜์— ์‚ฌ๊ฑด B ๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ ์ด๋‹ค. ์ด๋Š” P(B|A) = P(BโˆฉA) / P(A) ๋กœ ํ‘œํ˜„ ๊ฐ€๋Šฅํ•˜๋‹ค. ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์€ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์™€๋„ ์ด์–ด์ง€๋ฉฐ, ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ์ด์šฉํ•œ ๊ฐ€์žฅ ์œ ๋ช…ํ•œ ๋ฌธ์ œ๋Š” ๋ชฌํ‹ฐํ™€ ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค.

๋ฒ ์ด์ฆˆ ์ •๋ฆฌ

๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋ฅผ ํ†ตํ•ด ๊ฐ€๋Šฅ๋„์™€ Evidence๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์‚ฌ์ „ํ™•๋ฅ ์„ ์‚ฌํ›„ํ™•๋ฅ ๋กœ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.


  • : ์ƒˆ๋กœ ๊ด€์ฐฐ๋˜๋Š” ๋ฐ์ดํ„ฐ
  • : ๋ชจ๋ธ์—์„œ ๊ณ„์‚ฐํ•˜๊ณ  ์‹ถ์–ดํ•˜๋Š” ๋ชจ์ˆ˜ (๊ฐ€์„ค)
  • ์‚ฌํ›„ํ™•๋ฅ  : ๋ฐ์ดํ„ฐ๋ฅผ ๊ด€์ฐฐํ–ˆ์„ ๋•Œ, ์ด ๊ฐ€์„ค์ด ์„ฑ๋ฆฝํ•  ํ™•๋ฅ  (๋ฐ์ดํ„ฐ ๊ด€์ฐฐ ์ดํ›„ ์ธก์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌํ›„ํ™•๋ฅ )
  • ์‚ฌ์ „ํ™•๋ฅ  : ๊ฐ€์„ค์— ๋Œ€ํ•ด ์‚ฌ์ „์— ์„ธ์šด ํ™•๋ฅ  (๋ฐ์ดํ„ฐ ๊ด€์ธก ์ดํ›„ ์‚ฌํ›„ํ™•๋ฅ ์ด ์‚ฌ์ „ํ™•๋ฅ ์ด ๋œ๋‹ค.)
  • ๊ฐ€๋Šฅ๋„ : ํ˜„์žฌ ์ฃผ์–ด์ง„ ๋ชจ์ˆ˜ (๊ฐ€์ •) ์—์„œ ์ด ๋ฐ์ดํ„ฐ๊ฐ€ ๊ด€์ฐฐ๋  ๊ฐ€๋Šฅ์„ฑ
  • Evidence : ๋ฐ์ดํ„ฐ ์ „์ฒด์˜ ๋ถ„ํฌ

References


#6

๊ณต๋ถ„์‚ฐ๊ณผ ์ƒ๊ด€๊ณ„์ˆ˜๋Š” ๋ฌด์—‡์ผ๊นŒ์š”? ์ˆ˜์‹๊ณผ ํ•จ๊ป˜ ํ‘œํ˜„ํ•ด์ฃผ์„ธ์š”.

๊ณต๋ถ„์‚ฐ์€ ํ™•๋ฅ ๋ณ€์ˆ˜ X์˜ ํŽธ์ฐจ(ํ‰๊ท ์œผ๋กœ๋ถ€ํ„ฐ ์–ผ๋งˆ๋‚˜ ๋–จ์–ด์ ธ ์žˆ๋Š”์ง€)์™€ ํ™•๋ฅ ๋ณ€์ˆ˜ Y์˜ ํŽธ์ฐจ๋ฅผ ๊ณฑํ•œ ๊ฒƒ์˜ ํ‰๊ท ๊ฐ’์ด๋‹ค.


๊ณต๋ถ„์‚ฐ์€ ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์— ์–‘์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๋Š”์ง€, ์Œ์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๋Š”์ง€ ์ •๋„๋ฅผ ์•Œ๋ ค์ค€๋‹ค. ํ•˜์ง€๋งŒ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์–ผ๋งˆ๋‚˜ ํฐ์ง€๋Š” ์ œ๋Œ€๋กœ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค.

๊ณต๋ถ„์‚ฐ์˜ ๋ฌธ์ œ๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ๋‹จ์œ„ ํฌ๊ธฐ์— ์˜ํ–ฅ์„ ๋งŽ์ด ๋ฐ›๋Š”๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด ๋ฐ”๋กœ ์ƒ๊ด€๊ณ„์ˆ˜์ด๋‹ค.

์ƒ๊ด€๊ณ„์ˆ˜๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ์ ˆ๋Œ€์  ํฌ๊ธฐ์— ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š๋„๋ก ๊ณต๋ถ„์‚ฐ์„ ๋‹จ์œ„ํ™”์‹œํ‚จ ๊ฒƒ์ด๋‹ค. ์ฆ‰, ๊ณต๋ถ„์‚ฐ์— ๊ฐ ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ๋ถ„์‚ฐ์„ ๋‚˜๋ˆ ์ฃผ์—ˆ๋‹ค.


์ƒ๊ด€๊ณ„์ˆ˜๋Š” ์–‘์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๋Š”์ง€ ์Œ์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๋Š”์ง€ ์•Œ๋ ค์ค„ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๊ทธ ์ƒ๊ด€์„ฑ์ด ์–ผ๋งˆ๋‚˜ ํฐ์ง€๋„ ์•Œ๋ ค์ค€๋‹ค. 1 ๋˜๋Š” -1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ƒ๊ด€์„ฑ์ด ํฐ ๊ฒƒ์ด๊ณ , 0์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ƒ๊ด€์„ฑ์ด ์ž‘์€ ๊ฒƒ์ด๋‹ค.

References


#7

์‹ ๋ขฐ ๊ตฌ๊ฐ„์˜ ์ •์˜๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

๊ตฌ๊ฐ„ ์ถ”์ •์—์„œ ๋ชจ์ˆ˜๊ฐ€ a ์—์„œ b ์‚ฌ์ด์— ์žˆ์„ ๊ฒƒ์œผ๋กœ ์ถ”์ •(์‹ ๋ขฐ๊ตฌ๊ฐ„)ํ•˜๊ณ  ๊ทธ ํ™•๋ฅ (%, ์‹ ๋ขฐ์ˆ˜์ค€)์„ ๊ตฌํ•œ๋‹ค.


์‹ ๋ขฐ๊ตฌ๊ฐ„(Confidence Interval) ์€ ๋ชจ์ง‘๋‹จ์˜ ๋ชจ์ˆ˜(parameter)๊ฐ€ ์œ„์น˜ํ•ด ์žˆ์„ ๊ฒƒ์œผ๋กœ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ๊ฐ„์ด๋‹ค. ๋ชจ์ˆ˜๊ฐ€ ์–ด๋Š ๋ฒ”์œ„ ์•ˆ์— ์žˆ๋Š”์ง€๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ๋Š” ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์‹ ๋ขฐ๊ตฌ๊ฐ„์„ ๊ตฌํ•˜๋Š” ์ด์œ ๋Š” ๋ชจ์ˆ˜์˜ ์‹ ๋ขฐ์„ฑ์„ ๊ฐ€๋Š ํ•˜๊ธฐ ์œ„ํ•จ์ด๋‹ค.

์ถ”๊ฐ€์ ์œผ๋กœ, ์‹ ๋ขฐ๊ตฌ๊ฐ„์— ๋Œ€ํ•œ ์ •ํ™•ํ•œ ํ•ด์„์€ ๋ชจํ‰๊ท ์„ ํฌํ•จํ•  ํ™•๋ฅ ์ด 95%๊ฐ€ ๋˜๋Š” ๊ตฌ๊ฐ„์ด ์•„๋‹Œ, ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ 100๋ฒˆ ํ‘œ๋ณธ์„ ์ถ”์ถœํ–ˆ์„ ๋•Œ, ํ•จ๊ป˜ ๊ณ„์‚ฐ๋˜๋Š” 100๊ฐœ์˜ ์‹ ๋ขฐ๊ตฌ๊ฐ„ ์ค‘ ๋ชจํ‰๊ท ์„ ํฌํ•จํ•œ ์‹ ๋ขฐ๊ตฌ๊ฐ„๋“ค์˜ ์ˆซ์ž๊ฐ€ 95๊ฐœ์ •๋„ ๋œ๋‹ค๋ผ๊ณ  ํ•ด์•ผํ•œ๋‹ค. ์™œ๋ƒ๋ฉด, ๋ชจํ‰๊ท ์€ ์ด๋ฏธ ์ •ํ•ด์ ธ ์žˆ๋Š” ๊ฐ’์ด๋ฏ€๋กœ ์ „์ž์˜ ํ•ด์„์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์‹ ๋ขฐ์ˆ˜์ค€์€ ๋ฐฉ๋ฒ•์˜ ์ •ํ™•๋„, ์ฐธ๊ฐ’์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•œ ์ž‘์—…์„ ๋งŽ์ด ๋ฐ˜๋ณตํ–ˆ์„ ๋•Œ, ์ฐธ๊ฐ’์ด ํŠน์ • ๋ฒ”์œ„์— ์žˆ๋Š” ๋น„์œจ์ด๋‹ค.

๋ชจ์ˆ˜(parameter) ๋Š” ๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฐ’์ด๋‹ค. ์˜ˆ๋ฅผ๋“ค์–ด, ํ‰๊ท , ๋ถ„์‚ฐ ๋“ฑ์˜ ๊ณ ์ •์ธ ๊ฐ’์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค.

References


#8

p-value๋ฅผ ๋ชจ๋ฅด๋Š” ์‚ฌ๋žŒ์—๊ฒŒ ์„ค๋ช…ํ•œ๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ์„ค๋ช…ํ•˜์‹ค ๊ฑด๊ฐ€์š”?

p-value๋ฅผ ์•Œ๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋จผ์ € 1์ข… ์˜ค๋ฅ˜๋ฅผ ์•Œ์•„์•ผ ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ 1์ข… ์˜ค๋ฅ˜๋ž€ "๊ท€๋ฌด๊ฐ€์„ค์ด ์ฐธ์ธ๋ฐ ๊ธฐ๊ฐํ•œ ๊ฒฝ์šฐ"์„ ๋งํ•œ๋‹ค. ๊ท€๋ฌด๊ฐ€์„ค์ด๋ž€ ๊ธฐ์กด์˜ ์ฃผ์žฅ์„ ๋งํ•˜๋ฉฐ, ์ด์™€ ๋ฐ˜๋Œ€๋กœ ์ƒˆ๋กœ์šด ์ฃผ์žฅ์„ ๋Œ€๋ฆฝ๊ฐ€์„ค์ด๋ผ๊ณ  ํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ์–ด๋Š ์ œ์•ฝํšŒ์‚ฌ์—์„œ ์น˜๋ฃŒ์•ฝ A๋ฅผ ๊ฐœ๋ฐœํ–ˆ๋‹ค. ๊ธฐ์กด์—๋Š” ์น˜๋ฃŒ์•ฝ A๊ฐ€ ์—†์—ˆ์œผ๋ฏ€๋กœ ๊ท€๋ฌด๊ฐ€์„ค์€ "์น˜๋ฃŒ์•ฝ A๊ฐ€ ํšจ๊ณผ๊ฐ€ ์—†๋‹ค"๋ผ๊ณ  ์„ค์ •ํ•œ๋‹ค. ๋ฐ˜๋Œ€๋กœ ๋Œ€๋ฆฝ๊ฐ€์„ค์€ "์น˜๋ฃŒ์•ฝ A๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ๋‹ค"๋กœ ์„ค์ •ํ•œ๋‹ค. ํšŒ์‚ฌ์—์„œ๋Š” ๊ฒ€์ •์„ ํ•œ ๊ฒฐ๊ณผ, ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•˜๊ณ  ๋Œ€๋ฆฝ๊ฐ€์„ค์„ ์ฑ„ํƒํ–ˆ๋‹ค. ์น˜๋ฃŒ์•ฝ A๋Š” ํŒ๋งค๋˜์—ˆ๊ณ  ๋†’์€ ๋งค์ถœ์„ ๊ธฐ๋กํ–ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์•Œ๊ณ ๋ณด๋‹ˆ ์น˜๋ฃŒ์•ฝ A๊ฐ€ ํšจ๊ณผ๊ฐ€ ์—†๋‹ค๋Š” ๊ฒƒ์ด ๋ฐํ˜€์กŒ๋‹ค. ์ฐธ์ธ ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ–ˆ๊ธฐ์— ์ด๋Š” 1์ข… ์˜ค๋ฅ˜๊ฐ€ ์ผ์–ด๋‚ฌ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

๋‹ค์‹œ ๋Œ์•„์™€์„œ p-value๋Š” 1์ข… ์˜ค๋ฅ˜๋ฅผ ๋ฒ”ํ•  ํ™•๋ฅ ์„ ๋งํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, p-value๊ฐ€ 5%๋ผ๋ฉด, 100๋ฒˆ ์ค‘ 5๋ฒˆ 1์ข… ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค๋Š” ๋ง์ด๋‹ค. ๊ฒ€์ •์„ ํ•  ๋•Œ๋Š” ์œ ์˜ ์ˆ˜์ค€ ๋ฅผ ์ •ํ•˜๋Š”๋ฐ, ์ด๊ฒƒ์ด 1์ข… ์˜ค๋ฅ˜์˜ ์ƒํ•œ์„ ์ด ๋œ๋‹ค. ๊ทธ๋ž˜์„œ ์œ ์˜ ์ˆ˜์ค€๋ณด๋‹ค p-value๊ฐ€ ์ž‘๋‹ค๋ฉด ์‹คํ—˜์˜ ์˜ค๋ฅ˜๊ฐ€ ์ƒํ•œ์„ ๋ณด๋‹ค ์ž‘์œผ๋ฏ€๋กœ ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•˜๊ณ  ๋Œ€๋ฆฝ๊ฐ€์„ค์„ ์ฑ„ํƒํ•œ๋‹ค. ๋งŒ์•ฝ ํฌ๋‹ค๋ฉด ์ƒํ•œ์„ ์„ ๋„˜์—ˆ์œผ๋ฏ€๋กœ ๊ท€๋ฌด๊ฐ€์„ค์„ ์ฑ„ํƒํ•œ๋‹ค.

References


#9

R square์˜ ์˜๋ฏธ๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

๊ฒฐ์ •๊ณ„์ˆ˜ (R square) ๋Š” ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ์—์„œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ํšŒ๊ท€์„ ์ด ์–ผ๋งˆ๋‚˜ ์ž˜ ์„ค๋ช…ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์„ค๋ช…๋ ฅ์„ ์˜๋ฏธํ•œ๋‹ค. ๊ฒฐ์ •๊ณ„์ˆ˜๋Š” 0~1 ์˜ ๊ฐ’์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๊ณ , ๋งŒ์•ฝ ๊ฐ’์ด 1 ์ด๋ผ๋ฉด ํšŒ๊ท€์„ ์œผ๋กœ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

์ฐธ๊ณ ๋กœ ๊ฒฐ์ •๊ณ„์ˆ˜๋Š” ๋‹ค์Œ์˜ ์‹์œผ๋กœ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

R^2 = SSE/SST = 1 - SSR/SST,

SSE = sum((์ถ”์ •๊ฐ’-๊ด€์ธก๊ฐ’ ํ‰๊ท )^2),
SST = sum((๊ด€์ธก๊ฐ’-๊ด€์ธก๊ฐ’ ํ‰๊ท )^2),
SSR = sum((๊ด€์ธก๊ฐ’-์ถ”์ •๊ฐ’)^2)

  • ๊ด€์ธก๊ฐ’ : ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ๊ฐ’,
  • ์ถ”์ •๊ฐ’ : ํšŒ๊ท€ ๋ชจ๋ธ์„ ํ†ตํ•ด ๋‚˜์˜จ ๊ฐ’.

ํšŒ๊ท€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๊ฒฐ์ •๊ณ„์ˆ˜ ์™ธ์—๋„ MAE, MSE, RMSE ๊ฐ€ ์žˆ๋‹ค.

References


#10

ํ‰๊ท (mean)๊ณผ ์ค‘์•™๊ฐ’(median)์ค‘์— ์–ด๋–ค ์ผ€์ด์Šค์—์„œ ๋ญ๋ฅผ ์จ์•ผํ• ๊นŒ์š”?

  • ํ‰๊ท (mean): ๋ชจ๋“  ๊ด€์ธก๊ฐ’์˜ ํ•ฉ์„ ์ž๋ฃŒ์˜ ๊ฐœ์ˆ˜๋กœ ๋‚˜๋ˆˆ ๊ฒƒ
  • ์ค‘์•™๊ฐ’(median): ์ „์ฒด ๊ด€์ธก๊ฐ’์„ ํฌ๊ธฐ ์ˆœ์„œ๋กœ ๋ฐฐ์—ดํ–ˆ์„ ๋•Œ ๊ฐ€์šด๋ฐ ์œ„์น˜ํ•˜๋Š” ๊ฐ’

ํ‰๊ท ์€ ์ „์ฒด ๊ด€์ธก๊ฐ’์ด ๊ณจ๊ณ ๋ฃจ ๋ฐ˜์˜๋˜๋ฏ€๋กœ ๋Œ€ํ‘œ๊ฐ’์œผ๋กœ์„œ ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค. ํ‰๊ท  ๊ทผ์ฒ˜์— ํ‘œ๋ณธ์ด ๋ชฐ๋ ค ์žˆ๋Š” ์ƒํ™ฉ์—์„œ ๋Œ€ํ‘œ๊ฐ’์œผ๋กœ ์œ ์šฉํ•˜์ง€๋งŒ ๊ทน๋‹จ์ ์ธ ๊ฐ’์— ์˜ํ–ฅ์„ ๋งŽ์ด ๋ฐ›๋Š”๋‹ค.

์ค‘์•™๊ฐ’์—์„œ๋Š” ๊ด€์ธก๊ฐ’์„ ํฌ๊ธฐ ์ˆœ์„œ๋กœ ๋ฐฐ์—ดํ•  ๋•Œ ๊ด€์ธก๊ฐ’์˜ ์œ„์น˜๊ฐ€ ์ค‘์š”ํ•˜๊ณ , ๊ฐ€์šด๋ฐ ์œ„์น˜ํ•œ ๊ด€์ธก๊ฐ’ ์ด์™ธ์˜ ๊ด€์ธก๊ฐ’๋“ค์˜ ํฌ๊ธฐ๋Š” ์ค‘์š”ํ•˜์ง€ ์•Š๋‹ค. ๋”ฐ๋ผ์„œ ํ‰๊ท ๊ณผ๋Š” ๋‹ฌ๋ฆฌ ์ค‘์•™๊ฐ’์€ ๊ด€์ธก๊ฐ’๋“ค์˜ ๋ณ€ํ™”์— ๋ฏผ๊ฐํ•˜์ง€ ์•Š๊ณ  ํŠนํžˆ ์•„์ฃผ ํฐ ๊ด€์ธก๊ฐ’์ด๋‚˜ ์•„์ฃผ ์ž‘์€ ๊ด€์ธก๊ฐ’(์ฆ‰, outlier)์— ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š๋Š”๋‹ค. ์ค‘์•™๊ฐ’์ด ์œ ์šฉํ•œ ๊ฒฝ์šฐ๋Š” ํ‘œ๋ณธ์˜ ํŽธ์ฐจ, ํ˜น์€ ์™œ๊ณก์ด ์‹ฌํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒฝ์šฐ์ด๋‹ค.

References


#11

์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ๋Š” ์™œ ์œ ์šฉํ•œ๊ฑธ๊นŒ์š”?

์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ๋ž€ ํ‘œ๋ณธ์ถ”์ถœ์ด ๋ฌด์ˆ˜ํžˆ ๋งŽ์ด ์ˆ˜ํ–‰๋˜๋ฉด(๋ณดํ†ต 30ํšŒ ์ด์ƒ์„ ์˜๋ฏธ), ํ‘œ๋ณธ ํ‰๊ท ์˜ ๋ถ„ํฌ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ์— ์ˆ˜๋ ดํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ๊ฐ€ ์œ ์šฉํ•œ ์ด์œ ๋Š” ๋ชจ์ง‘๋‹จ์˜ ํ˜•ํƒœ๊ฐ€ ์–ด๋–ป๋“ ์ง€ ๊ฐ„์— ์ƒ๊ด€์—†์ด ํ‘œ๋ณธ ํ‰๊ท ์˜ ๋ถ„ํฌ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

References


#12

์—”ํŠธ๋กœํ”ผ(Entropy)์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”. ๊ฐ€๋Šฅํ•˜๋ฉด ์ •๋ณด์ด๋“(Information Gain)๋„์š”.

์—”ํŠธ๋กœํ”ผ๋Š” entropy๋กœ, ์ •๋ณด์ด๋“์€ information gain์œผ๋กœ ๋ชจ๋‘ ์˜์–ด๋กœ ํ‘œ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

entropy๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์˜ ํ˜ผ์žก๋„๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ, entropy๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ์— ๋Œ€ํ•œ ๊ธฐ๋Œ“๊ฐ’์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.


entropy๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅธ ํด๋ž˜์Šค์— ์†ํ•˜๋ฉด ๋†’๊ณ , ๊ฐ™์€ ํด๋ž˜์Šค์— ์†ํ•˜๋ฉด ๋‚ฎ๋‹ค. ๋‹ค์‹œ ๋งํ•˜๋ฉด ๊ฐ๊ฐ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํŠน์ • ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ์ด ๋†’๊ณ  ๋‚˜๋จธ์ง€ ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ์ด ๋‚ฎ๋‹ค๋ฉด entropy๊ฐ€ ๋†’๊ณ , ๋ชจ๋“  ๊ฐ๊ฐ์˜ ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ์ด ๋น„์Šทํ•˜๋‹ค๋ฉด entropy๋Š” ๋‚ฎ๋‹ค.

information gain์€ ์–ด๋–ค ์†์„ฑ์„ ์„ ํƒํ•จ์œผ๋กœ ์ธํ•ด ๋ฐ์ดํ„ฐ๊ฐ€ ์ž˜ ํ•„ํ„ฐ๋ง๋˜๋Š”์ง€๋ฅผ ๋งํ•˜๋ฉฐ, 1์—์„œ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๋บ€ ๊ฐ’์œผ๋กœ ํ‘œํ˜„๋œ๋‹ค. ์˜์‚ฌ๊ฒฐ์ •ํŠธ๋ฆฌ๋Š” ๊ฐ€์ง€๋ฅผ ์น  ๋•Œ ์ด ๊ฐ’์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์ง€๋ฅผ ์นœ๋‹ค. ์ด ๋•Œ ์–ด๋–ค ๋ฐ์ดํ„ฐ๋ฅผ ๋‘ ์ง‘ํ•ฉ์œผ๋กœ ๋‚˜๋ˆ„์—ˆ์„ ๋•Œ ๋‘ ์ง‘ํ•ฉ์˜ information gain์ด ํฌ๋„๋ก, entropy๋Š” ์ž‘์•„์ง€๋„๋ก ๋ถ„ํ• ์„ ํ•œ๋‹ค.

References


#13

์–ด๋–จ ๋•Œ ๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•๋ก ์„ ์“ธ ์ˆ˜ ์žˆ๊ณ , ์–ด๋–จ ๋•Œ ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•๋ก ์„ ์“ธ ์ˆ˜ ์žˆ๋‚˜์š”?

ํ‘œ๋ณธ์˜ ํ†ต๊ณ„๋Ÿ‰ (ํ‰๊ท , ํ‘œ์ค€ํŽธ์ฐจ ๋“ฑ) ์„ ํ†ตํ•ด ๋ชจ์ง‘๋‹จ์˜ ๋ชจ์ˆ˜ (๋ชจํ‰๊ท , ๋ชจํ‘œ์ค€ํŽธ์ฐจ ๋“ฑ) ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ†ต๊ณ„์  ์ถ”๋ก ์ด๋ผ๊ณ  ํ•œ๋‹ค.

๋ชจ์ง‘๋‹จ์ด ์–ด๋–ค ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๋Š” ๊ฐ€์ • ํ•˜์— ํ†ต๊ณ„์  ์ถ”๋ก ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•์ด๋ผ ํ•˜๋Š”๋ฐ, ํ‘œ๋ณธ์˜ ์ˆ˜๊ฐ€ 30๊ฐœ ์ด์ƒ์ผ ๋•Œ ์ค‘์‹ฌ๊ทนํ•œ ์ •๋ฆฌ์— ์˜ํ•ด ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋ฏ€๋กœ ๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•๋ก ์„ ์‚ฌ์šฉํ•œ๋‹ค.

๋ฐ˜๋Œ€๋กœ, ๋ชจ์ง‘๋‹จ์˜ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•˜์ง€ ์•Š๋Š” ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•์€, ํ‘œ๋ณธ์˜ ์ˆ˜๊ฐ€ 30๊ฐœ ๋ฏธ๋งŒ์ด๊ฑฐ๋‚˜ ์ •๊ทœ์„ฑ ๊ฒ€์ •์—์„œ ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด์ง€ ์•Š๋Š”๋‹ค๊ณ  ์ฆ๋ช…๋˜๋Š” ๊ฒฝ์šฐ ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•๋ก ์„ ์‚ฌ์šฉํ•œ๋‹ค.

References


#14

โ€œlikelihoodโ€์™€ โ€œprobabilityโ€์˜ ์ฐจ์ด๋Š” ๋ฌด์—‡์ผ๊นŒ์š”?

  • ํ™•๋ฅ (Probability): ์–ด๋–ค ์‹œํ–‰(trial, experiment)์—์„œ ํŠน์ • ๊ฒฐ๊ณผ(sample)๊ฐ€ ๋‚˜์˜ฌ ๊ฐ€๋Šฅ์„ฑ. ์ฆ‰, ์‹œํ–‰ ์ „ ๋ชจ๋“  ๊ฒฝ์šฐ์˜ ์ˆ˜์˜ ๊ฐ€๋Šฅ์„ฑ์€ ์ •ํ•ด์ ธ ์žˆ์œผ๋ฉฐ ๊ทธ ์ดํ•ฉ์€ 1(100%)์ด๋‹ค.
  • ๊ฐ€๋Šฅ๋„(Likelihood): ์–ด๋–ค ์‹œํ–‰(trial, experiment)์„ ์ถฉ๋ถ„ํžˆ ์ˆ˜ํ–‰ํ•œ ๋’ค ๊ทธ ๊ฒฐ๊ณผ(sample)๋ฅผ ํ† ๋Œ€๋กœ ๊ฒฝ์šฐ์˜ ์ˆ˜์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋„์ถœํ•˜๋Š” ๊ฒƒ. ์•„๋ฌด๋ฆฌ ์ถฉ๋ถ„ํžˆ ์ˆ˜ํ–‰ํ•ด๋„ ์–ด๋””๊นŒ์ง€๋‚˜ ์ถ”๋ก (inference)์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€๋Šฅ์„ฑ์˜ ํ•ฉ์ด 1์ด ๋˜์ง€ ์•Š์„์ˆ˜๋„ ์žˆ๋‹ค.

PDF(probability density function)์—์„œ๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜๋ฅผ ๋ณ€์ˆ˜๋กœ ๋ณด๊ธฐ ๋•Œ๋ฌธ์— ์ดํ•ฉ์ด 1์ด์ง€๋งŒ, likelihood function์—์„œ๋Š” ๋ถ„ํฌ์˜ ๋ชจ์ˆ˜๋ฅผ ๋ณ€์ˆ˜๋กœ ๋ณด๊ธฐ ๋•Œ๋ฌธ์— ์ดํ•ฉ์ด 1์ด ๋˜์ง€ ์•Š์„์ˆ˜๋„ ์žˆ๋‹ค.

References


#15

ํ†ต๊ณ„์—์„œ ์‚ฌ์šฉ๋˜๋Š” bootstrap์˜ ์˜๋ฏธ๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”.

๋ถ€ํŠธ์ŠคํŠธ๋žฉ(Bootstrap) ์€ ๊ฐ€์„ค๊ฒ€์ฆ์„ ํ•˜๊ฑฐ๋‚˜ metric์„ ๊ณ„์‚ฐํ•˜๊ธฐ ์ „์— random sampling์„ ์ ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋ชจ์ˆ˜์˜ ๋ถ„ํฌ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋Š”, ํ˜„์žฌ ๊ฐ€์ง„ ํ‘œ๋ณธ์—์„œ ์ถ”๊ฐ€์ ์œผ๋กœ ํ‘œ๋ณธ์„ ๋ณต์›์ถ”์ถœํ•˜๊ณ  ๊ฐ ํ‘œ๋ณธ์— ๋Œ€ํ•œ ํ†ต๊ณ„๋Ÿ‰์„ ๋‹ค์‹œ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋ถ€ํŠธ์ŠคํŠธ๋žฉ์ด ์—ฌ๊ธฐ์— ํ•ด๋‹นํ•˜๋ฉฐ, ์—ฌ๋Ÿฌ๋ฒˆ์˜ ๋ฌด์ž‘์œ„ ์ถ”์ถœ์„ ํ†ตํ•ด, ํ‰๊ท ์˜ ์‹ ๋ขฐ๊ตฌ๊ฐ„์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. 200๊ฐœ๋กœ๋งŒ ํ†ต๊ณ„๋Ÿ‰์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ 200๊ฐœ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๋ณต์› ์ถ”์ถœํ•˜์—ฌ ์ƒˆ๋กœ์šด ํ†ต๊ณ„๋Ÿ‰์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์„ ์˜ˆ์‹œ๋กœ ๋“ค ์ˆ˜ ์žˆ๋‹ค.

(์ฐธ๊ณ ) ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ์˜ bootstrap์€ ์•„๋ž˜์™€ ๊ฐ™์ด ํ•ด์„๋  ์ˆ˜ ์žˆ๋‹ค.

  • ๋žœ๋ค ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•ด train data๋ฅผ ๋Š˜๋ฆฌ๋Š” ๋ฐฉ๋ฒ•
  • ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ, ์ถ”๋ก (inference) ๊ฒฐ๊ณผ์˜ ํ‰๊ท ์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•(์•™์ƒ๋ธ”)

๋ณต์›์ถ”์ถœ(Sampling with replacement)์ด๋ž€ ํ™•๋ฅ ์„ ๊ตฌํ•  ๋•Œ, ์ถ”์ถœํ–ˆ๋˜ ๊ฒƒ์„ ์›๋ž˜๋Œ€๋กœ ๋Œ๋ ค๋†“๊ณ  ๋‹ค์‹œ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•

References


#16

๋ชจ์ˆ˜๊ฐ€ ๋งค์šฐ ์ ์€ (์ˆ˜์‹ญ๊ฐœ ์ดํ•˜) ์ผ€์ด์Šค์˜ ๊ฒฝ์šฐ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์˜ˆ์ธก ๋ชจ๋ธ์„ ์ˆ˜๋ฆฝํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”?

๋ชจ์ˆ˜๋Š” ๋ชจ์ง‘๋‹จ์˜ ์ˆ˜๊ฐ€ ์•„๋‹Œ, ํ‰๊ท , ํ‘œ์ค€ํŽธ์ฐจ ๋“ฑ์˜ ๋ชจ์ง‘๋‹จ์˜ ํŠน์ง•์„ ๋งํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ๋ชจ์ง‘๋‹จ์˜ ์ˆ˜๋กœ ์ž˜๋ชป ์“ฐ์ธ ๊ฒƒ์œผ๋กœ ๋ณด์ด๋ฉฐ, ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ๊ฒฝ์šฐ๋ผ ๊ฐ€์ •ํ•˜๊ณ  ๋‹ต๋ณ€์„ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.

ํ‘œ๋ณธ์ด ๋งค์šฐ ์ž‘์€ ๊ฒฝ์šฐ ํ‘œ๋ณธํ‰๊ท ์˜ ๋ถ„ํฌ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•  ์ˆ˜ ์—†์œผ๋ฏ€๋กœ ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•์„ ์ฑ„ํƒํ•˜์—ฌ ์˜ˆ์ธก ๋ชจ๋ธ์„ ์ˆ˜๋ฆฝํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ์— ์˜ํ•ด ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๊ฐ€ 30๋ณด๋‹ค ํด ๊ฒฝ์šฐ ํ‘œ๋ณธํ‰๊ท ์ด ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์ด ๊ฒฝ์šฐ์—๋Š” ๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค.

References


#17

๋ฒ ์ด์ง€์•ˆ๊ณผ ํ”„๋ฆฌํ€€ํ‹ฐ์ŠคํŠธ ๊ฐ„์˜ ์ž…์žฅ์ฐจ์ด๋ฅผ ์„ค๋ช…ํ•ด์ฃผ์‹ค ์ˆ˜ ์žˆ๋‚˜์š”?

๋ฒ ์ด์ง€์•ˆ์€ ์‚ฌ๊ฑด์˜ ํ™•๋ฅ ์„ ๋ฐ”๋ผ๋ณผ ๋•Œ, ์‚ฌ์ „ ํ™•๋ฅ ์„ ๋ฏธ๋ฆฌ ์—ผ๋‘ํ•ด๋‘๊ณ  ์‚ฌ๊ฑด์˜ ๋ฐœ์ƒ์— ๋”ฐ๋ผ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋กœ ์‚ฌํ›„ ํ™•๋ฅ ์„ ๊ตฌํ•ด ๋‹ค์‹œ ์‚ฌ์ „ ํ™•๋ฅ ์„ ์—…๋ฐ์ดํŠธ์‹œํ‚จ๋‹ค. ์ฆ‰, ๋ฒ ์ด์ง€์•ˆ์€ ๊ณผ๊ฑฐ์˜ ์‚ฌ๊ฑด์ด ํ˜„์žฌ ์‚ฌ๊ฑด์— ์˜ํ–ฅ์„ ๋ผ์นœ๋‹ค๋Š” ์ž…์žฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

๋ฐ˜๋ฉด, ํ”„๋ฆฌํ€€ํ‹ฐ์ŠคํŠธ๋Š” ํ™•๋ฅ ์„ ๋ฌดํ•œ๋ฒˆ ์‹คํ—˜ํ•œ ๊ฒฐ๊ณผ, ๊ฐ๊ด€์ ์œผ๋กœ ๋ฐœ์ƒํ•˜๋Š” ํ˜„์ƒ์˜ ๋นˆ๋„์ˆ˜๋กœ ๋ฐ”๋ผ๋ณธ๋‹ค. ์ฆ‰, ํ”„๋ฆฌํ€€ํ‹ฐ์ŠคํŠธ๋Š” ํ˜„์žฌ์˜ ๊ฐ๊ด€์ ์ธ ํ™•๋ฅ ์— ์˜ํ•ด์„œ๋งŒ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•œ๋‹ค๋Š” ์ž…์žฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

References


#18

๊ฒ€์ •๋ ฅ(statistical power)์€ ๋ฌด์—‡์ผ๊นŒ์š”?

๊ท€๋ฌด๊ฐ€์„ค H0 ์ฐธ ๊ท€๋ฌด๊ฐ€์„ค H0 ๊ฑฐ์ง“
๊ท€๋ฌด๊ฐ€์„ค H0 ์ฑ„ํƒ ์˜ณ์€ ๊ฒฐ์ •(1-ฮฑ) ์ œ 2์ข… ์˜ค๋ฅ˜(ฮฒ)
๊ท€๋ฌด๊ฐ€์„ค H0 ๊ธฐ๊ฐ ์ œ 1์ข… ์˜ค๋ฅ˜(ฮฑ) ์˜ณ์€ ๊ฒฐ์ •(1-ฮฒ), ๊ฒ€์ •๋ ฅ

๊ฒ€์ •๋ ฅ์€ ๋Œ€๋ฆฝ๊ฐ€์„ค H1์ด ์ฐธ์ธ ๊ฒฝ์šฐ ๊ท€๋ฌด๊ฐ€์„ค H0๋ฅผ ๊ธฐ๊ฐ(๋Œ€๋ฆฝ๊ฐ€์„ค H1์„ ์ฑ„ํƒ)ํ•  ํ™•๋ฅ ์ด๋‹ค.


References


#19

missing value๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ ์ฑ„์›Œ์•ผ ํ• ๊นŒ์š”? ๊ทธ ์ด์œ ๋Š” ๋ฌด์—‡์ธ๊ฐ€์š”?

missing value๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์—๋Š” ํฌ๊ฒŒ 4๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค.

  1. ๊ทธ๋Œ€๋กœ ๋†”๋‘๊ธฐ: ๋ˆ„๋ฝ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ๋†”๋‘๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
  2. ์‚ญ์ œํ•˜๊ธฐ: ๋ˆ„๋ฝ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์žƒ์„ ์œ„ํ—˜์ด ์žˆ๋‹ค.
  3. ํŠน์ • ๊ฐ’์œผ๋กœ ์ฑ„์šฐ๊ธฐ: 0, ๋นˆ๋ฒˆํ•œ ๊ฐ’, ์ง€์ •ํ•œ ์ƒ์ˆ˜๊ฐ’์œผ๋กœ ์ฑ„์šฐ๊ธฐ
  4. ์˜ˆ์ธกํ•˜์—ฌ ์ฑ„์šฐ๊ธฐ: K-means, ํ‰๊ท ๊ฐ’, ์ค‘์•™๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๊ฒƒ

1๋ฒˆ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ, ๋ฐ์ดํ„ฐ๊ฐ€ ๋ˆ„๋ฝ๋œ ์ฑ„๋กœ ๋†”๋‘”๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž. ์ผ๋ถ€ xgboost๊ฐ™์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ฒฐ์ธก๊ฐ’์„ ๊ณ ๋ คํ•˜์—ฌ ์ž˜ ํ•™์Šตํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ฒฐ์ธก์น˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋กœ์ง์ด ์—†๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜(ex. sklearn์˜ LinearRegression)์€ ๋ˆ„๋ฝ๋œ ๋ฐ์ดํ„ฐ ๋•Œ๋ฌธ์— ์—‰๋ง์ด ๋  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๊ฒฐ์ธก์น˜๋ฅผ ์ฒ˜๋ฆฌํ•ด์ฃผ์–ด์•ผํ•œ๋‹ค.

2๋ฒˆ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ, ๋ˆ„๋ฝ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ฑฐํ•œ๋‹ค๊ณ  ํ•ด๋ณด์ž. ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๊ฐ€์žฅ ์‰ฌ์šด ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋งŒ์•ฝ 100๋ช… ์ค‘ ํ•œ๋ช…์˜ ํŠน์ง•(feature)์ด ๋ˆ„๋ฝ๋œ ์ƒํƒœ์ด๋ฏ€๋กœ, ํ•ด๋‹น ํŠน์ง•์„ ์ „๋ถ€ ์‚ญ์ œํ•œ๋‹ค๋ฉด ์ค‘์š”ํ•œ ํŠน์„ฑ์„ ์žƒ์–ด๋ฒ„๋ฆฌ๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ดˆ๋ž˜ํ•˜๊ฒŒ ๋œ๋‹ค.

3๋ฒˆ, 4๋ฒˆ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฐ์ธก์น˜๋ฅผ ์ฑ„์šด๋‹ค๊ณ  ํ•ด๋ณด์ž. ๊ฒฐ์ธก์น˜๋ฅผ ์ฑ„์›€์œผ๋กœ์„œ, ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์žƒ์ง€์•Š๊ณ  ํŠน์„ฑ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋งŒ์•ฝ 100๋ช… ์ค‘ 99๋ช…์˜ ํŠน์ง•์ด ๋ˆ„๋ฝ๋œ ์ƒํƒœ๋ผ๊ณ  ํ•œ๋‹ค๋ฉด, ํ•ด๋‹น ํŠน์ง•์„ ์–ด๋– ํ•œ ๊ฐ’์œผ๋กœ ์ฑ„์šฐ๋Š” ํ–‰์œ„๊ฐ€ ๋ฌด์˜๋ฏธํ•  ๊ฒƒ์ด๋‹ค.

๋”ฐ๋ผ์„œ ๊ฒฐ์ธก์น˜ ์ƒํƒœ๋‚˜ ๋น„์œจ, ์–ด๋–ค ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ๊ฒƒ์ธ์ง€์— ๋”ฐ๋ผ์„œ ๊ฒฐ์ธก์น˜ ๋Œ€์‘ ๋ฐฉ๋ฒ•์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค.

References


#20

์•„์›ƒ๋ผ์ด์–ด์˜ ํŒ๋‹จํ•˜๋Š” ๊ธฐ์ค€์€ ๋ฌด์—‡์ธ๊ฐ€์š”?

์ด์ƒ์น˜(outlier)๋Š” ์ „์ฒด ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์—์„œ ๋ฒ—์–ด๋‚œ ์ด์ƒํ•œ ๊ฐ’์„ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ๋งํ•œ๋‹ค. ์ด์ƒ์น˜๋Š” ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋ฏ€๋กœ ์ด๋ฅผ ํƒ์ง€ํ•˜๋Š” ๊ฒƒ์€ ์ •๋ง ์ค‘์š”ํ•˜๋‹ค.

์ด์ƒ์น˜๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ IQR(Inter Quantile Range) ๊ธฐ๋ฒ•์ด ์žˆ๋‹ค. IQR ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์šฐ์„  ๋ฐ์ดํ„ฐ๋ฅผ ์˜ค๋ฆ„์ฐจ์ˆœ์œผ๋กœ ์ •๋ ฌํ•˜๊ณ  25%, 50%, 75%, 100%๋กœ 4๋“ฑ๋ถ„์„ ํ•œ๋‹ค. ์ด 75% ์ง€์ ๊ณผ 25% ์ง€์ ์˜ ๊ฐ’์˜ ์ฐจ์ด๋ฅผ IQR์ด๋ผ๊ณ  ํ•œ๋‹ค. ์ด IQR์— 1.5๋ฅผ ๊ณฑํ•œ ๊ฐ’์„ 75% ์ง€์ ์˜ ๊ฐ’์— ๋”ํ•˜์—ฌ ์ตœ๋Œ€๊ฐ’์„, 25% ์ง€์ ์˜ ๊ฐ’์—์„œ ๋นผ์„œ ์ตœ์†Œ๊ฐ’์„ ๊ณ„์‚ฐํ•œ๋‹ค. ์ด ๋•Œ ์ตœ์†Œ๊ฐ’๋ณด๋‹ค ์ž‘๊ฑฐ๋‚˜ ์ตœ๋Œ€๊ฐ’๋ณด๋‹ค ํฐ ๊ฐ’์„ ์ด์ƒ์น˜๋ผ๊ณ  ํŒ๋‹จํ•œ๋‹ค.

๋˜ ๋‹ค๋ฅธ ํƒ์ง€ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” Z-score๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์ด ์žˆ๋‹ค. Z-score๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ํ‰๊ท ์—์„œ ์–ผ๋งˆ๋‚˜ ๋–จ์–ด์ ธ ์žˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ๋กœ, ์ž„๊ณ„๊ฐ’์„ ์„ค์ •ํ•˜์—ฌ Z-score์ด ์ด ๊ฐ’๋ณด๋‹ค ํฌ๋‹ค๋ฉด ์ด์ƒ์น˜๋กœ ํŒ๋‹จํ•œ๋‹ค. ํ•˜์ง€๋งŒ Z-score ๋ฐฉ์‹์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๊ฐ€ ์•„๋‹ ๊ฒฝ์šฐ ๋ณ„๋„์˜ ๋ณ€ํ™˜์ด ํ•„์š”ํ•˜๋‹ค.

References


#21

ํ•„์š”ํ•œ ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๋ฅผ ์–ด๋–ป๊ฒŒ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๊นŒ?

๋จผ์ € ๋ชจ์ง‘๋‹จ์˜ ํฌ๊ธฐ : N ์„ ๊ตฌํ•˜๊ณ , ์‹ ๋ขฐ์ˆ˜์ค€ : z ์™€ ์˜ค์ฐจ๋ฒ”์œ„ : e ๋ฅผ ์–ผ๋งˆ๋กœ ํ• ์ง€ ์„ ์ •ํ•˜์—ฌ ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.


์ฐธ๊ณ ๋กœ ์‹ ๋ขฐ์ˆ˜์ค€์€ ํ‘œ๋ณธ์ถ”์ถœ์„ ๋ฐ˜๋ณตํ–ˆ์„ ๋•Œ ์–ผ๋งˆ๋‚˜ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋„๋กœ 95% ๋ฅผ ์ฃผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

์˜ค์ฐจ๋ฒ”์œ„๋Š” ์ž‘์„ ์ˆ˜๋ก ๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ์— ๋Œ€ํ•œ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ ๋ชจ์ง‘๋‹จ์— ๋Œ€ํ•œ ์ถ”๋ก ์ด ํ‹€๋ฆด ๊ฐ€๋Šฅ์„ฑ๋„ ๋†’์•„์ง€๋ฏ€๋กœ 10% ๋ฅผ ๋„˜์ง€ ์•Š๊ฒŒ ํ•œ๋‹ค.

References


#22

Bias๋ฅผ ํ†ต์ œํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?


Bias๋Š” ๋ฐ์ดํ„ฐ ๋‚ด์— ์žˆ๋Š” ๋ชจ๋“  ์ •๋ณด๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š์Œ์œผ๋กœ ์ธํ•ด, ์ง€์†์ ์œผ๋กœ ์ž˜๋ชป๋œ ๊ฒƒ๋“ค์„ ํ•™์Šตํ•˜๋Š” ๊ฒฝํ–ฅ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๋Š” underfitting๊ณผ ๊ด€๊ณ„๋˜์–ด ์žˆ๋‹ค.

๋ฐ˜๋Œ€๋กœ Variance๋Š” ๋ฐ์ดํ„ฐ ๋‚ด์— ์žˆ๋Š” ์—๋Ÿฌ๋‚˜ ๋…ธ์ด์ฆˆ๊นŒ์ง€ ์ž˜ ์žก์•„๋‚ด๋Š” highly flexible models์— ๋ฐ์ดํ„ฐ๋ฅผ fitting ์‹œํ‚ด์œผ๋กœ์จ, ์‹ค์ œ ํ˜„์ƒ๊ณผ ๊ด€๊ณ„ ์—†๋Š” randomํ•œ ๊ฒƒ๋“ค๊นŒ์ง€ ํ•™์Šตํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ฒฝํ–ฅ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๋Š” overfitting๊ณผ ๊ด€๊ณ„๋˜์–ด ์žˆ๋‹ค.


ํŽธํ–ฅ(Bias)๊ณผ ๋ถ„์‚ฐ(Variance)์€ ํ•œ ์ชฝ์ด ์ฆ๊ฐ€ํ•˜๋ฉด ๋‹ค๋ฅธ ํ•œ ์ชฝ์ด ๊ฐ์†Œํ•˜๊ณ , ํ•œ์ชฝ์ด ๊ฐ์†Œํ•˜๋ฉด ๋‹ค๋ฅธ ํ•œ์ชฝ์ด ์ฆ๊ฐ€ํ•˜๋Š” tradeoff ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง„๋‹ค.


Bias๋ฅผ ํ†ต์ œํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š”

  • (neuron์ด๋‚˜ ๊ณ„์ธต์˜ ๊ฐฏ์ˆ˜ ๊ฐ™์€) ๋ชจ๋ธ์˜ ํฌ๊ธฐ ์ฆ๊ฐ€
  • ์˜ค๋ฅ˜ํ‰๊ฐ€์‹œ ์–ป์€ ์ง€์‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž…๋ ฅ ํŠน์„ฑ ์ˆ˜์ •
  • ์ •๊ทœํ™”๋ฅผ ์ค„์ด๊ฑฐ๋‚˜ ์ œ๊ฑฐ
  • ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ˆ˜์ •
  • ํ•™์Šต ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€

๋“ฑ์˜ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.

References


#23

๋กœ๊ทธ ํ•จ์ˆ˜๋Š” ์–ด๋–ค ๊ฒฝ์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๊นŒ? ์‚ฌ๋ก€๋ฅผ ๋“ค์–ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

์•„๋ž˜์™€ ๊ฐ™์€ ๊ฒฝ์šฐ์— ๋กœ๊ทธํ•จ์ˆ˜๊ฐ€ ์œ ์šฉํ•˜๋‹ค.

  1. ๋‹จ์œ„ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ํฐ ๊ฐ’๋“ค์„ ๋ฐ”๋กœ ํšŒ๊ท€๋ถ„์„ ํ•  ๊ฒฝ์šฐ, ๊ฒฐ๊ณผ๋ฅผ ์™œ๊ณกํ•  ์šฐ๋ ค๊ฐ€ ์žˆ์œผ๋ฏ€๋กœ ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋œ๋‹ค.
    ์˜ˆ๋ฅผ๋“ค์–ด, ๋‚˜์ด์™€ ์žฌ์‚ฐ๋ณด์œ ์•ก์˜ ๊ด€๊ณ„๋ฅผ ํšŒ๊ท€๋ถ„์„์œผ๋กœ ํ‘ผ๋‹ค๊ณ  ํ–ˆ์„ ๋•Œ, ์žฌ์‚ฐ๋ณด์œ ์•ก์˜ ์ˆซ์ž๊ฐ€ ๊ต‰์žฅํžˆ ํด ์ˆ˜ ์žˆ๋‹ค.
    ์žฌ์‚ฐ๋ณด์œ ์•ก์— ๋กœ๊ทธ๋ฅผ ์ทจํ•  ๊ฒฝ์šฐ, ๋ฐ์ดํ„ฐ์˜ ์™œ๋„์™€ ์ฒจ๋„๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ์–ด ์ •๊ทœ์„ฑ์ด ๋†’์•„์ง€๋Š” ํšจ๊ณผ๋ฅผ ์–ป๋Š”๋‹ค.
    
  2. ๋น„์„ ํ˜•๊ด€๊ณ„์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํ˜•์œผ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋œ๋‹ค.
    ์˜ˆ๋ฅผ๋“ค์–ด, ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋Š˜์–ด๋‚˜๋Š” ์ œ๊ณฑ ํ˜•์‹์˜ ๊ทธ๋ž˜ํ”„์— ์ž์—ฐ๋กœ๊ทธ๋ฅผ ์ทจํ•˜๋ฉด ๊ทธ ๊ด€๊ณ„๊ฐ€ ์ง์„ (์„ ํ˜•)์ด ๋œ๋‹ค.
    

(์ฃผ์˜) log ํ•จ์ˆ˜๋Š” 0~1 ์‚ฌ์ด์—์„œ๋Š” ์Œ์ˆ˜๊ฐ’์„ ๊ฐ€์ง€๋ฏ€๋กœ, log(1+x)์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ ์ฒ˜๋ฆฌํ•ด์ฃผ์–ด์•ผํ•œ๋‹ค.

  • ์ถ”๊ฐ€๋‚ด์šฉ) ์™œ๋„(skewness)์™€ ์ฒจ๋„(Kurtosis)
    • ์™œ๋„๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ํ•œ์ชฝ์œผ๋กœ ์น˜์šฐ์นœ ์ •๋„์ด๋‹ค.
    • ์ฒจ๋„๋Š” ๋ถ„ํฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋พฐ์กฑํ•œ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ •๋„์ด๋‹ค.

References


#24

๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ / ์ดํ•ญ ๋ถ„ํฌ / ์นดํ…Œ๊ณ ๋ฆฌ ๋ถ„ํฌ / ๋‹คํ•ญ ๋ถ„ํฌ / ๊ฐ€์šฐ์‹œ์•ˆ ์ •๊ทœ ๋ถ„ํฌ / t ๋ถ„ํฌ / ์นด์ด์ œ๊ณฑ ๋ถ„ํฌ / F ๋ถ„ํฌ / ๋ฒ ํƒ€ ๋ถ„ํฌ / ๊ฐ๋งˆ ๋ถ„ํฌ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

(์ถ”ํ›„ ์ˆ˜์ •)


#25

์ถœ์žฅ์„ ์œ„ํ•ด ๋น„ํ–‰๊ธฐ๋ฅผ ํƒ€๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋‹น์‹ ์€ ์šฐ์‚ฐ์„ ๊ฐ€์ ธ๊ฐ€์•ผ ํ•˜๋Š”์ง€ ์•Œ๊ณ  ์‹ถ์–ด ์ถœ์žฅ์ง€์— ์‚ฌ๋Š” ์นœ๊ตฌ 3๋ช…์—๊ฒŒ ๋ฌด์ž‘์œ„๋กœ ์ „ํ™”๋ฅผ ํ•˜๊ณ  ๋น„๊ฐ€ ์˜ค๋Š” ๊ฒฝ์šฐ๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์งˆ๋ฌธํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์นœ๊ตฌ๋Š” 2/3๋กœ ์ง„์‹ค์„ ๋งํ•˜๊ณ  1/3์œผ๋กœ ๊ฑฐ์ง“์„ ๋งํ•ฉ๋‹ˆ๋‹ค. 3๋ช…์˜ ์นœ๊ตฌ๊ฐ€ ๋ชจ๋‘ โ€œ๊ทธ๋ ‡์Šต๋‹ˆ๋‹ค. ๋น„๊ฐ€ ๋‚ด๋ฆฌ๊ณ  ์žˆ์Šต๋‹ˆ๋‹คโ€๋ผ๊ณ  ๋งํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋น„๊ฐ€ ๋‚ด๋ฆด ํ™•๋ฅ ์€ ์–ผ๋งˆ์ž…๋‹ˆ๊นŒ?

References