๊ฐ๋ ์์ฝ ์ ๋ฆฌ๋ณธ
์ค๊ธฐ ๊ณต๋ถํ๊ธฐ์ ๊ฐ๋ ์ ๋ฆฌํ ๊ฒธ ์ํ ๋ณด๊ธฐ์ ์ ์๊ธฐํ๋ ๊ฐ๋ ์์ฃผ๋ก ๊ฐ๋จ ์ ๋ฆฌ๊ธ์ ๋จ๊น๋๋ค.
์ฐธ๊ณ ๋ก ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ(๋น ๋ถ๊ธฐ) ํ๊ธฐ๋ ๋ด์ฉ์ด ๋ฐฉ๋ํ๋ค๋ณด๋ ํด๋น ๊ธ๋ง์ผ๋ก๋ ๋ถ์กฑํ ์ ์์ผ๋ ์ฐธ๊ณ ๋ง ํ์๊ณ ๋ค๋ฅธ ์ ๋ฆฌ๊ธ๋ ํจ๊ป ์ฐธ๊ณ ํ์๊ธธ ๋ฐ๋๋๋ค.
1๊ณผ๋ชฉ์์ 4๊ณผ๋ชฉ๊น์ง ๊ตฌ๋ถํ๋ ๊ฒ์ด ํฌ๊ฒ ์๋ฏธ๊ฐ ์์ด ๋๋ ์ ์์ฑํ์ง์๊ฒ ์ต๋๋ค.
ํฉ๊ฒฉ ํ๊ธฐ๊ธ์ ์ฐธ๊ณ ํ ๊ณต๋ถ ์๋ฃ๊ฐ ์ ๋ฆฌ๋์ด์์ต๋๋ค!
์ ํ ๋ฐ์ดํฐ
ํ๊ณผ ์ด, ๋ฐ์ดํฐ ์์ฑ, ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค, ์คํ๋ ๋ ์ํธ ๋ฑ
๋ฐ์ ํ ๋ฐ์ดํฐ
์คํค๋ง, ๋ฉํ๋ฐ์ดํฐ, ์ผ๊ด์ฑ์ด ์์, XML, HTML, ์น๋ก๊ทธ ๋ฑ
๋น์ ํ ๋ฐ์ดํฐ
์คํค๋ง X, ์ ์ฌ์ ๊ฐ์น๊ฐ ๋๋ค, SNS, ํ ์คํธ, ์ด๋ฏธ์ง, ์์ ๋ฑ
DW ๋ฐ์ดํฐ์จ์ดํ์ฐ์ค
์ฌ์ฉ์ ์์ฌ๊ฒฐ์ ์ ๋์์ ์ฃผ๋ ๋ฐ์ดํฐ ๋ฒ ์ด์ค
๋นํ๋ฐ์ฑ, ์๊ณ์ด์ฑ, ์ฃผ์ ์นํฅ์ฑ, ํตํฉ์ฑ
DM ๋ฐ์ดํฐ๋งํธ
์๊ท๋ชจ์ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค
๋ฐ์ดํฐ ๋ ์ดํฌ
๊ฐ๊ณตํ์ง ์์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅ, ์์คํ ์ด๋ ์ ์ฅ์๋ฅผ ๋งํจ
ETL ๋ฐ์ดํฐ ์ ์ฅ ๊ธฐ์
๋ฐ์ดํฐ ์ ์ฅ์(DW, DM)๋ก ์ด๋์ํค๋ ์ ์ฅ๊ธฐ์
์์ : ์ถ์ถ -> ๋ณํ -> ์ ์ฌ
๋น ๋ฐ์ดํฐ ๋ณํ
์ฌํ์ฒ๋ฆฌ, ์ ์์กฐ์ฌ, ์, ์๊ด๊ด๊ณ
์๊ธฐ์์ธ ๋ฐ ํต์ ๋ฐฉ์ : ๋ฐ์ดํฐ ์ค์ฉ(๋ถ์ ์๊ณ ๋ฆฌ์ฆ ํ์ฉ), ์ฌ์ํ ์นจํด(์ฑ ์์ ), ์ฑ ์์์น ํผ์(๊ฐํ)
๊ฐํธ๋์ ๋น์ฆ๋์ค ๋ถ์
๋ฌ์ฌ, ์ง๋จ, ์์ธก, ์ฒ๋ฐฉ
1) ๋ฌ์ฌ ๋ถ์ : ๊ฐ์ฅ ๊ธฐ๋ณธ
2) ์ง๋จ๋ถ์ : ๋ฌ์ฌ ๋ถ์์์ ์์๋ธ ๊ฒ์ ํตํด ์์ธ ์ดํด
3) ์์ธก ๋ถ์ : ๋ฏธ๋ ์์ธก
4) ์ฒ๋ฐฉ๋ถ์ : ์์ธก์ ๋ฐํ์ผ๋ก ์ต์ ํ
๋ง์ด๋ฐ์ดํฐ
๊ฐ์ธ์ด ๋ฐ์ดํฐ์ ์ฃผ๊ถ์ ๊ฐ์ง
๋ถ์ ์ฑ์๋
๋์ ๋จ๊ณ -> ํ์ฉ -> ํ์ฐ -> ์ต์ ํ
๋ถ์ ์ ๋ฌด ์ฃผ์ฒด์ ๋ฐ๋ฅธ 3๊ฐ์ง ์กฐ์ง๊ตฌ์กฐ
1) ์ง์ค ๊ตฌ์กฐ : ์ฐ์ ์์๋ฅผ ์ ํด ๊ฐ ๋ถ์๋ณ ์งํ, ์ด์ํ ๊ฐ๋ฅ์ฑ์ด ์กด์ฌ
2) ๊ธฐ๋ฅ ๊ตฌ์กฐ : ์ ์ฌ์ ํต์ฌ๋ถ์์ด ์ด๋ ค์ธ ์ ์์
3) ๋ถ์ฐ๊ตฌ์กฐ : ์ ์ํ๋ฉฐ ๋ถ์ ์์ค ์ํฅ ํ์คํ๊ฐ ๊ฐ๋ฅ
๋ฐ์ดํฐ ๊ฑฐ๋ฒ๋์ค
์ ์ฑ ๊ณผ ํ๋ก์ธ์ค๋ฅผ ๋ค๋ฃธ, ๊ท์ ๊ฐ์กฐ๋ชจ๋ธ
์ฒด๊ณ ์์ : ๋ฐ์ดํฐ ํ์คํ, ๋ฐ์ดํฐ ๊ด๋ฆฌ์ฒด๊ณ, ๋ฐ์ดํฐ ์ ์ฅ์ ๊ด๋ฆฌ, ํ์คํ ํ๋
ํ๋ก์์ฝ์์คํ
๋ค์ํ ์๋ธํ๋ก์ ํธ์ ๋ชจ์
์์ง, ์ ์ฅ, ์ฒ๋ฆฌ, ๋ถ์, ์ค์๊ฐ SQL ์ง์๋ก ๊ตฌ๋ถ๋จ
1) ์ฝ๋๋ค์ดํฐ
Zookeeper : ๋ถ์ฐํ๊ฒฝ
2) ๋ฆฌ์์ค ๊ด๋ฆฌ
YARN : ํด๋ฌ์คํฐ ์์, ์ค์ผ์ค๋ง
3) ๋ฐ์ดํฐ ์ ์ฅ
HBase : HDFS ๊ธฐ๋ฐ
Kudu : ๋ฐ์ดํฐ ์ฝ๊ธฐ ๊ณ ์ํ
4) ๋ฐ์ดํฐ ์์ง
Chukwa : ๋ก๊ทธ ์์ง๊ธฐ, ์ค์๊ฐ
Flume : ์์ ์ , ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ
Kafka : ๋ถ์ฐ ๋ฉ์ธ์ง ์์คํ
Scribe : ๋ค์ ์๋ฒ, ์ค์๊ฐ
5) ๋ฐ์ดํฐ ์ฒ๋ฆฌ
Pig : ํผ๊ทธ ๋ผํด์ธ์ด ์ ๊ณต, SQL๊ณผ ์ ์ฌ
Spark : ์ธ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ
Hive: ํ๋ก๊ธฐ๋ฐ, Hive SQL ์ฟผ๋ฆฌ ์ธ์ด
Mahout : ๋จธ์ ๋ฌ๋ ๋ด๋น
Impala : ์์ฒด ๋ถ์
Presto : ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ
Tajo : ๊ตญ๋ด, ์์ฒด ๋ถ์ฐ ์ฒ๋ฆฌ ์์ง
6) ์ํฌํ๋ก์ฐ ๊ด๋ฆฌ
Oozie : ํ๋ก ์์
Airflow : ์์ด๋น์๋น
Azkaban : ๋งํฌ๋์ธ
Nifi : ๋ฐ์ดํฐ ํ๋ฆ
๊ธฐ๊ณ ํ์ต(๋จธ์ ๋ฌ๋)
์ง๋ ํ์ต : ์ ๋ต ๋ ์ด๋ธ ์กด์ฌ, ์์ธก
๋น์ง๋ ํ์ต : ์ ๋ต ๋ ์ด๋ธ์ด ์์, ํ์ ์ค๋ช , ํจํด ๋์ถ
์ค์ง๋ ํ์ต : ์ง๋ํ์ต + ๋น์ง๋ ํ์ต
๊ฐํ ํ์ต : ๋ณด์์ ์ต๋๋กํ๋ ํ๋ ์ ํ
๊ฐ๋ช ์ ๋ณด
๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํด ํน์ ๊ฐ์ธ์ ์๋ณํ ์ ์์
์ต๋ช ์ ๋ณด
๋ฐ์ดํฐ๋ฅผ ๋ง์๋๋ก ์ฌ์ฉ ๊ฐ๋ฅ, ๊ฐ์ธ์ ์๋ณํ ์ ์์
ํ๋ผ์ด๋ฒ์ ๋ชจ๋ธ
k- ์ต๋ช ์ฑ, l- ๋ค์์ฑ, t- ๊ทผ์ ์ฑ, m- ์ ์ผ์ฑ
๋ถ์ ๋ฐฉ๋ฒ๋ก ๋ถ์ ์ ์ฐจ
๋ถ์ ๊ธฐํ -> ๋ฐ์ดํฐ ์ค๋น -> ๋ฐ์ดํฐ ๋ถ์ -> ๊ตฌํ
๋ถ์ ๊ณผ์
์๊ธ์ฑ ๊ธฐ๋ฐ : 3 -> 4 -> 2
๋์ด๋ ๊ธฐ๋ฐ : 3 -> 1 -> 2
๋ถ์ ๋ฌธ์ ์ ์
1) ์ํฅ์ ์ ๊ทผ ๋ฐฉ์ : ๋ฌธ์ ์ ์ X, ๋ฌธ์ ๋ฅผ ์ง์์ ์ผ๋ก ๊ฐ์
ํ๋ก์ธ์ค ๋ถ๋ฅ -> ํ๋ฆ ๋ถ์ -> ๋ถ์ ์๊ฑด ์๋ณ -> ์ ์
2) ํํฅ์ ์ ๊ทผ ๋ฐฉ์ : ๋ถ์ ๊ณผ์ O
๋ฌธ์ ํ์ -> ์ ์ -> ํด๊ฒฐ๋ฐฉ์ ํ์ -> ํ๋น์ฑ ๊ฒํ
๋ถ์ ๋ฌธ์ ํด๊ฒฐ ๋ฐฉ์
1) ์ํฅ์ : ๋ฐ๊ฒฌ -> ํต์ฐฐ
2) ํํฅ์ : ์ต์ ํ -> ์๋ฃจ์
๋ถ์์ ๋์ (WHAT) | |||
๋ถ์์ ๋ฐฉ๋ฒ (HOW) |
Known | Unknown | |
Known | ์ต์ ํ Optimization |
ํต์ฐฐ Insight |
|
Unknown | ์๋ฃจ์
Solution |
๋ฐ๊ฒฌ Discovery |
KDD
ํจํด, ์ง์์ ์ฐพ๊ธฐ ์ํด ์ ๋ฆฌ๋ ๋ฐ์ดํฐ ๋ง์ด๋ ํ๋ก์ธ์ค
์ ํ -> ์ ์ฒ๋ฆฌ -> ๋ณํ -> ๋ฐ์ดํฐ ๋ง์ด๋ -> ํด์
1) Phase 2) Task 3) Step
๊ฐ ๊ณ์ธต์ ์์ธํ ์ค๋ช ์ ์๋ต
CRISP - DM
๊ฐ ๋จ๊ณ๊ฐ ํผ๋๋ฐฑ์ ํตํด ์์ฑ๋๋ฅผ ๋์
์ ๋ฌด ์ดํด -> ๋ฐ์ดํฐ ์ดํด -> ๋ฐ์ดํฐ ์ค๋น - > ๋ชจ๋ธ๋ง -> ํ๊ฐ -> ์ ๊ฐ
1) ๋จ๊ณ 2) ์ผ๋ฐํ ํ ์คํฌ 3) ์ธ๋ถํ ํ ์คํฌ 4) ํ๋ก์ธ์ค ์คํ
SEMMA
๊ธฐ์ , ํต๊ณ ์ค์ฌ์ ๋ฐฉ๋ฒ๋ก
์ถ์ถ -> ํ์ -> ์์ -> ๋ชจ๋ธ๋ง -> ํ๊ฐ
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ
๋ฐ์ดํฐ ์ ์ , ํตํฉ, ์ถ์, ๋ณํ (์ญ์ ๋ ์์
๋ฐ์ดํฐ ๋ถ์ ์ ์ฐจ
๋ฌธ์ ์ธ์ -> ์ฐ๊ตฌ์กฐ์ฌ -> ๋ชจํํ -> ์๋ฃ ์์ง -> ์๋ฃ ๋ถ์ -> ๊ฒฐ๊ณผ ๊ณต์
์ ํ๋์ ์ ๋ฐ๋
์ ํ๋ (Accuracy), ํธํฅ (Bias)์ด ์ข์ผ๋ฉด ์ค์ ๋ต๊ณผ ์ ์ฌํ ๊ฒ์ ์๋ฏธ
์ ๋ฐ๋ (Precision), ๋ถ์ฐ(Variance)์ด ์ข์ผ๋ฉด ์ ์ถํ ๊ฐ์ด ์๋ก ํฐ ์ฐจ์ด๊ฐ ์์์ ์๋ฏธ
๋์ Trade off ๊ด๊ณ(์์ถฉ ๊ด๊ณ)์ด๋ค.
๋ฐ์ดํฐ ์์ง ๊ธฐ์
FTP : ํ์ผ ์ก์์ ํ๋กํ ์ฝ
Open API : ์ค์๊ฐ ๋ฐ์ดํฐ ์์
RSS : ์น์ฌ์ดํธ์ ๊ธ ๊ณต์ , XML ๊ธฐ๋ฐ (ex. ๋ธ๋ก๊ทธ, ๋ด์ค)
Streaming : ๋คํธ์ํฌ๋ฅผ ํตํด ๋ฏธ๋์ด ๋ฐ์ดํฐ ์ค์๊ฐ ์์ง
๋น์๋ณํ ๊ธฐ์
๊ฐ๋ช ์ฒ๋ฆฌ, ์ด๊ณ ์ฒ๋ฆฌ, ๋ฐ์ดํฐ ์ญ์ , ๋ฒ์ฃผํ, ๋ง์คํน
์ฐจ๋ฑ ์ ๋ณด ๋ณดํธ
๋ ธ์ด์ฆ์ถ๊ฐ, ๋ณดํธ์ ๋ถ์์ ๋ชจ๋ ์งํ ๊ฐ๋ฅ
์ฌํ ์๋ฃ
์์ฌ๋ฃ๊ฐ ์๊ณ , ํต๊ณ์ ์ผ๋ก ์์ฑํ ์๋ฃ
๋ฐ์ดํฐ ํ์ง ๊ธฐ์ค
์์ ์ฑ, ์ผ๊ด์ฑ, ์ ์ฉ์ฑ, ์ ์์ฑ, ์ ํ์ฑ, ํ๋น์ฑ
์ ์ฅ ๋ฐฉ์
GFS(๊ตฌ๊ธ ํ์ผ ์์คํ ) : ๋๊ท๋ชจ ํด๋ฌ์คํฐ ์๋น์ค ํ๋ซํผ, client, master, chunk server
HDFS(ํ๋ก ํ์ผ ์์คํ ) : GFS์ ์ฝ๋ ์ ์ฌ, ๋์ฉ๋ ํ์ผ์ ๋ถ์ฐ ์๋ฒ์ ์ ์ฅ
NoSQL : ๋น ๋ฐ์ดํฐ ์ ์ฅ ๊ธฐ์ , Mango DB, Cassandra
* ์ ํ ๋ฐ์ดํฐ : DB, ๋ฐ์ ํ ๋ฐ์ดํฐ : NoSQL, ๋น์ ํ ๋ฐ์ดํฐ : ๋ถ์ฐ ํ์ผ ์์คํ
ROI
ํฌ์ ๋น์ฉ ์์
Volume (ํฌ๊ธฐ), Variety(ํํ), Velocity(์๋) => ๊ฐํธ๋์ 3V
+ Value(๊ฐ์น) => 4V
+ Veracity(์ง์ค์ฑ) => 5V
+ Validity(์ ํ์ฑ), Volatility(ํ๋ฐ์ฑ) => 7V
ํ๊ฐ ์งํ
์ ํ๋ (Accuracy) : ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ด ์ ํํ ๋น์จ
์ ๋ฐ๋ (Precision) : ๊ธ์ ์ผ๋ก ์์ธกํ ๊ฐ ์ค ์ค์ ๊ธ์ ๊ฐ์ธ ๋น์จ
ํน์ด๋(Specificity) : ์ค์ ๋ถ์ ๊ฐ ์ค ๋ถ์ ์ผ๋ก ์์ธกํ ๋น์จ
๋ฏผ๊ฐ๋(Sensitivity)= ์ฌํ์จ(Recall) = ์ฐธ ๊ธ์ ๋ฅ (TP Rate) : ์ค์ ๊ธ์ ๊ฐ ์ค ๊ธ์ ์ผ๋ก ์์ธกํ ๋น์จ
F1 - Score : ์ ๋ฐ๋ + ๋ฏผ๊ฐ๋(=์ฌํ์จ)์ ์กฐํ ํ๊ท , ๊ฐ์ 0~1 ๋ฒ์
* ๊ฐ ๋น์จ์ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ๊ผญ ๊ณต๋ถํ๋ ๊ฒ์ด ์ข์.
ROC ๊ณก์
๊ฐ๋ก์ถ : FP Rate, ์ธ๋ก์ถ : TP Rate, ์ผ์ชฝ ๊ผญ๋๊ธฐ์ ๊ฐ๊น์ธ ์๋ก ๋ถ๋ฅ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ํ๋จ
AUC(์ง๋จ ์ ํ๋) : ๊ฐ์ 0.5~1 ๋ฒ์, 0.5๋ ๋๋ค, 1์ ์ข์ ๋ชจํ์ ์๋ฏธ
๊ฒฝ์ฌ ํ๊ฐ๋ฒ
๊ธฐ์ธ๊ธฐ๋ฅผ ๋ฎ์ ์ชฝ์ผ๋ก ์ด๋ํ๋ฉฐ ์ต์ ์ ๋งค๊ฐ๋ณ์๋ฅผ ํ์
* ๋งค๊ฐ๋ณ์ ์ต์ ํ : ๊ฐ์ค์น, ํธํฅ์ ์ฐพ์
๋ชจ๋ฉํ : ๊ธฐ์ธ๊ธฐ, AdaGrad : ํ์ต๋ฅ
๋ฏธ๋๋ฐฐ์น : ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋๋ ์์ ๋จ์
๊ณผ๋ ์ ํฉ
ํ๋ จ ๋ฐ์ดํฐ์ ์ต์ ํ ๋์ด์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ธกํ์ง ๋ชปํ๋ ํ์
๊ณผ๋ ์ ํฉ ๋ฐฉ์ง ๋ฐฉ๋ฒ
1) ์ ๊ทํ : ํจ๋ํฐ ์ ์ฉ, ๋ ธ์ด์ฆ๋ฅผ ์ฐพ์ ์ค์ด๋ ๊ฒ์ด ๋ชฉ์
- ๋ฆฟ๋ฆฌ(L2) : ์ ๊ณฑํฉ, ๋์ ์๊ด๊ด๊ณ
- ๋ผ์(L1) : ์ ๋๊ฐ, ๋ณ์ ์ ํ
- ๋๋กญ์์
2) ๋ฐ์ดํฐ ๋ถํ
- ํ์ต(Traning) ๋ฐ์ดํฐ
- ํ๊ฐ(Validation) ๋ฐ์ดํฐ
-๊ฒ์ฆ(Test) ๋ฐ์ดํฐ
3) k-fold ๋ถํ
๋ฌด์์๋ก k๊ฐ์ ๋ฐ์ดํฐ๋ก ๋ถํ
(k-1) ํ์ต๋ฐ์ดํฐ, 1๊ฐ๋ ๊ฒ์ฆ ๋ฐ์ดํฐ๋ก ์ฌ์ฉ
์์๋ธ ๊ธฐ๋ฒ
๋ถ์ ๋ชจํ์ ์ตํฉ, ๋์ผํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ฌ๋ฌ ๋ชจ๋ธ์ ํ์ต
1) ๋ณดํ (Voting) : ์ฌ๋ฌ๊ฐ์ ๋ถ์ ๋ชจํ ๊ฒฐ๊ณผ ์ข ํฉ (Hard : ๋ค์๊ฒฐ, Soft : ํ๊ท )
2) ๋ฐฐ๊น (Bagging) : ์ํ ๋ณต์ ์ถ์ถ ๋ฐฉ์ (ex. RandomForest : ์์ฌ๊ฒฐ์ ๋๋ฌด ๊ธฐ๋ฐ, ํฌํ, ๋ค์๊ฒฐ ๋ฐฉ์)
3) ๋ถ์คํ (Boosting) : ์ฝํ ๋ถ์ ๋ชจํ ์ฌ๋ฌ๊ฐ๋ฅผ ์ฐ๊ฒฐํ์ฌ ๊ฐํ ๋ถ์ ๋ชจํ์ ๋ง๋ฌ, ํด์์ด ์ฌ์ฐ๋ ์๋๊ฐ ๋๋ฆผ, ์ค๋ฒํผํ ๊ฐ๋ฅ์ฑ ์กด์ฌ
4) ์คํํน(Stacking) : ๊ฐ๋ณ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์์ธกํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์์ธก
๋น์ฆ๋์ค ๊ธฐ์ฌ๋ ํ๊ฐ ์งํ
ํ๊ฐ์งํ : ์ต์ข ๋ชจํ์ด ์ค์ ์ ๋ฌด์์ ์ ์ฉ๋๋ฉด ์ด๋ค ๊ฐ์ ํจ๊ณผ๊ฐ ์๋์ง๋ฅผ ํ๊ฐ
์์ : ํฌ์๋๋น ํจ๊ณผ, ์ ํ์ฌ ๊ฐ์น, ๋ด๋ถ ์์ต๋ฅ , ์ด ์์ ๋น์ฉ, ํฌ์ ํ์ ๊ธฐ๊ฐ
๋ฐ์ดํฐ ์๊ฐํ
๋ชฉ์ : ๋ฐ์ดํฐ ๋ถ์, ์์ฌ์ํต(์ ๋ณด ์ ๋ฌ, ์ค๋)
1) ์๊ฐ ์๊ฐํ : ์๊ฐ์ ๋ฐ๋ฅธ ๋ฐ์ดํฐ ๋ณํ / ํธ๋ ๋
๋ง๋๊ทธ๋ํ, ์ ์ฐจํธ, ์์ญ์ฐจํธ
2) ๊ณต๊ฐ ์๊ฐํ : ํ๊ท๋ถ์ ๋ชจ๋ธ์ ํ์ฉ ๋ถ๊ฐ, ์.๊ฒฝ๋ ์ฌ์ฉ
์นดํ ๊ทธ๋จ(์๊ณก), ์ฝ๋ ธํ๋ ์ค(=๋จ๊ณ๊ตฌ๋ถ๋, ์์), ๋ฒ๋ธ๋งต
3) ๋น๊ต ์๊ฐํ : 2์ฐจ์ ๋ฐ์ดํฐ ํจ๊ณผ์ ํํ, ์ฐจ์ด์ , ์ ์ฌ์ฑ
ํํธ๋งต, ์คํ์ฐจํธ, ํํ์ขํ๊ทธ๋ํ(๊ฒฝํฅ์ฑ ํ์ ), ์ฒด๋ฅด๋ ธํ ํ์ด์ค
4) ๋ถํฌ ์๊ฐํ : ๋ฐ์ดํฐ ์ต๋๊ฐ, ์ต์๊ฐ, ์ ์ฒด ๋ถํฌ ํํ
ํ์ด์ฐจํธ, ๋๋ ์ฐจํธ, ํธ๋ฆฌ๋งต(๊ณ์ธต์ )
5) ๊ด๊ณ ์๊ฐํ : ๋ค๋ณ๋ ๋ฐ์ดํฐ ์ฌ์ด์ ์กด์ฌํ๋ ๋ณ์ ๊ฐ ์ฐ๊ด์ฑ / ๋ถํฌ / ํจํด
์ฐ์ ๋, ๋ฒ๋ธ์ฐจํธ, ํ์คํ ๊ทธ๋จ
6) ์๊ณต๊ฐ ์๊ฐํ : ์ง๋๋ฐ์ดํฐ, ๊ฒฉ์ ๋ฐ์ดํฐ, ํจ๋๋ฐ์ดํฐ(๋ณต์์ ์๊ฐ์ ๊ฑธ์ณ์ ์ถ์ ํด ์ป๋ ๋ฐ์ดํฐ)
์นดํ ๊ทธ๋จ, ์ฝ๋ ธํ๋ ์ค, ๋ฒ๋ธํ๋กฏ
7) ์ธํฌ๊ทธ๋ํฝ : ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ํฝ์ผ๋ก ์ดํดํ๊ธฐ ์ฝ๊ฒ ํํํ๋ ์๊ฐํ ๋ฐฉ๋ฒ(๊ทธ๋ํฝ + ํ ์คํธ)
์๋์ ๊ฒ์๊ธ์ ๋ฐ์ดํฐ ์๊ฐํ ์์์ ํจ๊ป ์ ์ค๋ช ๋์ด์๋ค.
์๊ฐํ ์ ์ฐจ
๊ตฌ์กฐํ -> ์๊ฐํ -> ์๊ฐํํ
๋ถ์ ๋ชจํ ๋ฆฌ๋ชจ๋ธ๋ง
๋น ๋ฐ์ดํฐ ๋ชจํ์ ์ง์์ ์ธ ์ฑ๊ณผ ๋ชจ๋ํฐ๋ง์ผ๋ก ํธ์ฐจ๊ฐ ์ง์์ ์ผ๋ก ํ๋ฝํ๋ฉด ๊ธฐ์กด ๋ชจํ์ ๊ฐ์กฐ ์์ ์ ํ๋ ๊ฒ
๋ถ๊ธฐ, ๋ฐ๊ธฐ, ์ฐ ๋จ์๊ฐ ๋ฐ๋์งํ๋ค. ์ ๊ธฐ์ ์ผ๋ก ์ฌํ๊ฐ ํ ํ์ํ๋ฉด ๋ชจํ์ ์ฌ์กฐ์ ํ๋ค.
๋ฅ๋ฌ๋
1) CNN(ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง) : ์ด๋ฏธ์ง ์ฒ๋ฆฌ, ์์ฐ์ด ์ฒ๋ฆฌ
2)RNN(์ํ ์ ๊ฒฝ๋ง) : ๋ฌธ์ฅ, ์๊ณ์ด ๋ฐ์ดํฐ, ๋ฐ์ดํฐ๊ฐ ์ํํ๋ฉฐ ๊ณผ๊ฑฐ์ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ๋ ๋์์ ์ต์ ๋ฐ์ดํฐ ๊ฐฑ์
3) ํ ์คํธ ๋ง์ด๋ : ํน์ ๋จ์ด์ ์ถํ ๋น๋, ๋จ์ด ๊ฐ ์ฐ๊ด์ฑ ํ์
* ์คํธ๋ผ์ด๋ : ํํฐ์ ์ด๋๋
์ด๋งค๊ฐ๋ณ์(ํ์ดํผํ๋ผ๋ฏธํฐ)
ํ์ต๋ฅ , ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๊น์ด, ์ ๊ฒฝ๋ง์ ์๋์ธต ๊ฐ์, ์ํฌํธ๋ฒกํฐ ๋จธ์ ์ ์ฝ์คํธ ๊ฐ, KNN์ K์ ๊ฐ์ ๋ฑ
๋ฐ์ดํฐ์ ๋นํด ๋๋ฌด ๊ฐ๋จํ๋ฉด ๊ณผ์ ์ ํฉ, ๋๋ฌด ๋ณต์กํ๋ฉด ๊ณผ๋ ์ ํฉ์ด ๋ฐ์ํ๋ค.
๋ถ์ ๊ธฐ๋ฒ ์ ์
์ข ์ ๋ณ์ | |||
๋ ๋ฆฝ ๋ณ์ | ์ฐ์ํ | ์ด์ฐํ / ๋ฒ์ฃผํ | |
์ฐ์ํ | ํ๊ท๋ถ์ k - ์ต๊ทผ์ ์ด์๊ธฐ๋ฒ ์ธ๊ณต์ ๊ฒฝ๋ง |
๋ก์ง์คํฑ ํ๊ท๋ถ์ k - ์ต๊ทผ์ ์ด์๊ธฐ๋ฒ ํ๋ณ ๋ถ์ |
|
์ด์ฐํ / ๋ฒ์ฃผํ | ํ๊ท๋ถ์ ์์ฌ๊ฒฐ์ ๋๋ฌด ์ธ๊ณต์ ๊ฒฝ๋ง |
๋ก์ง์คํฑ ํ๊ท๋ถ์ ์์ฌ๊ฒฐ์ ๋๋ฌด ์ธ๊ณต์ ๊ฒฝ๋ง |
๊ตฐ์ง ๋ถ์
์ ์ฌ์ฑ์ ๊ธฐ์ด, ์ง๋จ์ ํน์ฑ ๋ถ์
1) ๊ณ์ธต์ ๊ตฐ์ง : ๋ณํฉ ๋ฐฉ๋ฒ, ๋ถ๋ฆฌ ๋ฐฉ๋ฒ, ๊ฑฐ๋ฆฌ์ธก์ ๋ฐฉ๋ฒ(์ต๋จ ์ฐ๊ฒฐ๋ฒ, ์ต์ฅ ์ฐ๊ฒฐ๋ฒ, ์ค์ฌ ์ฐ๊ฒฐ๋ฒ, ํ๊ท ์ฐ๊ฒฐ๋ฒ, ์๋ ์ฐ๊ฒฐ๋ฒ)
2) ๋น๊ณ์ธต์ ๊ตฐ์ง(k-ํ๊ท ๊ตฐ์ง ์๊ณ ๋ฆฌ์ฆ)
- k๊ฐ ์ ์ ๊ธฐ๋ฒ
1. ์ค๋ฃจ์ฃ ๊ธฐ๋ฒ : ๊ฐ ๊ตฐ์ง ๊ฐ ๊ฑฐ๋ฆฌ, 1์ ๊ฐ๊น์ธ ์๋ก ๋ฉ์ด์ ์ต์ ํ๊ฐ ์ ๋ ๊ฒ
2. ์๋ณด์ฐ : ๊ธฐ์ธ๊ธฐ๊ฐ ์๋งํ ๋ถ๋ถ์ ํด๋นํ๋ ํด๋ฌ์คํฐ ์ ํ
3. ๋ด๋๋ก๊ทธ๋จ : ๊ณ์ธก์ ๊ตฐ์ง๋ถ์์ ๋ด๋๋ก๊ทธ๋จ ์๊ฐํ ์ด์ฉ
์๊ณ์ด ๋ถ์
์๊ฐ์ ์ํฅ ๋ฐ์, ์ด๋ก ์ ์ผ๋ก ๊ฒฐ์ธก๊ฐ์ด ์์
์ด๋ํ๊ท ๋ชจํ(MA), ์๊ธฐํ๊ท๋ชจํ(AR)
๋น์ ์์ฑ์ ํ์ธํ๋ ๋ฐฉ๋ฒ
1) ์๊ธฐ์๊ดํจ์(ACF) : ์ ํ ๊ด๊ณ ํจ์
2) ๋ถ๋ถ์๊ธฐ์๊ดํจ์(PACF) : ๋ ์์ ์ฌ์ด์ ์ํฅ ์ฃผ๋ ๋ค๋ฅธ ์์ธ ์ ์ธํ ACF, P+1 ์์ฐจ ์ดํ ๊ธ๊ฒฉํ ๊ฐ์ํจ
* AR ์ค์ฐจํญ = ๋ฐฑ์ ์ก์
๋ฐฑ์ ์ก์ ์ ์ ์กฐ๊ฑด : ์๋ก ๋ ๋ฆฝ, ํ๊ท 0, ๋ถ์ฐ์ด ์ผ์ ํ ๊ฐ
'๐.์๊ฒฉ์ฆ > ๐.๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[์ค๊ธฐ] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ฌ ์์ ํ 3 ์ ๋ฆฌ (Python) (0) | 2023.12.04 |
---|---|
[์ค๊ธฐ] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ฌ ์์ ํ 2 ์ ๋ฆฌ (Python) (0) | 2023.12.03 |
[์ค๊ธฐ] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ฌ ์์ ํ 1 ์ ๋ฆฌ (Python) (0) | 2023.12.01 |
๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ ์ค๊ธฐ ์์ ์ ๋ฆฌ๋ณธ (0) | 2023.11.29 |
๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ 7ํ ํ๊ธฐ ํฉ๊ฒฉ ํ๊ธฐ (๊ต์ฌ X) (2) | 2023.10.15 |