๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ—‚.์ž๊ฒฉ์ฆ/๐Ÿ“.๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ

๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ ์ž„์‹œ ์ •๋ฆฌ๋ณธ

by ๐Ÿ’พ๊ณ ๊ตฌ๋งˆ๋ง›ํƒ•๋จน๊ณ ์‹ถ๋‹ค 2023. 11. 29.
728x90

๐Ÿ“ ์‹ค๊ธฐ ์ค€๋น„ ์ฐธ๊ณ  ์ž๋ฃŒ : 

ํŒ๋‹ค์Šค ๊ธฐ์ดˆ : https://wikidocs.net/book/4639

๋น…๋ฐ์ดํ„ฐ๋ถ„์„๊ธฐ์‚ฌ ์‹ค๊ธฐ ์ฒดํ—˜ํ™˜๊ฒฝ : https://dataq.goorm.io/exam/3/์ฒดํ—˜ํ•˜๊ธฐ/quiz/1

Big Data Certification KR : https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr

ํ‡ด๊ทผํ›„๋”ด์ง“ : https://www.youtube.com/watch?v=iOskHbBeV9o&list=PLSlDi2AkDv82Qv7B3WiWypQSFmOCb-G_-

๊ฐ•๋‹ค๋ฆฐ DARIN : https://www.youtube.com/watch?v=iopLP4wBYw8

 

๐Ÿ“ ์ž‘์—…ํ˜• 2

1๋‹จ๊ณ„ : ๋ฐ์ดํ„ฐ ํŒŒ์•…ํ•˜๊ธฐ, ๋ฐ์ดํ„ฐ ํ•™์Šต ๋ชจ๋ธ ์„ ์ •(๋ถ„๋ฅ˜, ํšŒ๊ท€)
2๋‹จ๊ณ„ : ๋ถˆํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ, ๊ฒฐ์ธก์น˜, object, describe ๋“ฑ ํ•ด๋‹น ๋ฐ์ดํ„ฐ ์ •๋ฆฌ
3๋‹จ๊ณ„ : ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌํ•˜๊ธฐ
4๋‹จ๊ณ„ : ๋ฐ์ดํ„ฐ ๋ถ„๋ฆฌํ•˜๊ธฐ, ๋ชจ๋ธ ํ•™์Šต ์ „ ์ตœ์ ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ ํ…Œ์ŠคํŠธ ํ•  ์ˆ˜ ์žˆ์Œ
5๋‹จ๊ณ„ : ๋ฐ์ดํ„ฐ ํ•™์Šต 
6๋‹จ๊ณ„ : ์ œ์ถœ ํ˜•์‹์— ๋งž๊ฒŒ ์ œ์ถœํ•˜๊ธฐ

 

๐Ÿ“Œ 3๋‹จ๊ณ„ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ

  • ๋ถˆํ•„์š” ๋ฐ์ดํ„ฐ : drop ์‚ฌ์šฉ
  • ๊ฒฐ์ธก์น˜ : isnull()๋กœ ํ™•์ธ ๊ฐ€๋Šฅ, fillna()๋ฅผ ํ†ตํ•ด ๊ฐ’ ์ฑ„์›Œ๋„ฃ๊ธฐ
    • mean() = ํ‰๊ท , mode() = ์ตœ๋นˆ๊ฐ’ ๋“ฑ
    • (์ตœ๋นˆ๊ฐ’์œผ๋กœ ์ฒ˜๋ฆฌ ํ•  ์‹œ value_counts()๋ฅผ ํ†ตํ•ด ํ™•์ธํ•  ๊ฒƒ)
  • object : ์›ํ•ซ์ธ์ฝ”๋”ฉ, ๋ผ๋ฒจ ์ธ์ฝ”๋”ฉ ๋“ฑ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ™˜ํ•ด์•ผํ•จ. ์ฒ˜๋ฆฌํ•˜๊ธฐ ์• ๋งคํ•  ๊ฒฝ์šฐ ์‚ญ์ œ๋ฅผ ํ•  ์ˆ˜ ์žˆ์Œ
    • ์›ํ•ซ์ธ์ฝ”๋”ฉ : pd.get_dummies()
    • ๋ผ๋ฒจ์ธ์ฝ”๋”ฉ : from sklearn.preprocessing import LabelEncoder
  • describe : ํ•ด๋‹น ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ์Šค์ผ€์ผ๋ง ๋ฐฉ๋ฒ•์„ ์„ ํƒํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๊ฒฐ์ธก์น˜๋ฅผ ์–ด๋–ค ๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•  ์ง€ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ์Šค์ผ€์ผ๋ง : StandardScaler, RobustScaler, MinMaxScaler ๋“ฑ์ด ์žˆ์Œ
    • ์‹œํ—˜์—๋Š” ์ด์ƒ์น˜์— ์˜ํ–ฅ์„ ์ž˜ ๋ฐ›์ง€ ์•Š๋Š” RobustScaler์„ ์ฃผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ
    • RobustScaler : from sklearn.preprocessing import RobustScaler
    • ๋ฐ์ดํ„ฐ ๊ฐ’์˜ ๋ฒ”์œ„๊ฐ€ ๋„ˆ๋ฌด ๋„“์œผ๋ฉด MinMaxScaler ์‚ฌ์šฉ

๐Ÿ“Œ 4๋‹จ๊ณ„ ๋ฐ์ดํ„ฐ ๋ถ„๋ฆฌํ•ด ์ตœ์ ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ฐพ๊ธฐ

  • ๋ฐ์ดํ„ฐ ๋ถ„๋ฆฌ : from sklearn.model_selection import train_test_split
  • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ฐพ๊ธฐ : ๋ฐ์ดํ„ฐ ํ•™์Šต์„ ํ†ตํ•ด n_estimators ์™€ max_depth์˜ ๊ฐ’์„ ๋ณ€๊ฒฝํ•˜๋ฉฐ ์ฐพ๊ธฐ
  • ์ฑ„์  ๋ฐฉ์‹์— ๋”ฐ๋ผ ๊ฐ’ ํ™•์ธ : from sklearn.metrics import roc_auc_score / import accuracy_score / import r2_score ๋“ฑ
  • ๋ฌธ์ œ์— ๋งž๋Š” ๋ฐ์ดํ„ฐ ๋ชจ๋ธ ์„ ํƒํ•˜์—ฌ ํ•™์Šต์‹œํ‚ค๊ธฐ
    • ๋ถ„๋ฅ˜ : RandomForestClassifier, XGBClassifier
    • ํšŒ๊ท€ : RandomForestRegressor, XGBRegressor  

๐Ÿ“Œ 6๋‹จ๊ณ„ ์ œ์ถœํ•˜๊ธฐ

  • ์ œ์ถœ : pd.DataFrame({'id' : test_id, 'pred' : model_pred}).to_csv('123.csv', index = False)

 

๐Ÿ“ ์ž‘์—…ํ˜• 3

  • T ๊ฒ€์ •
    • ์Œ์ฒด ํ‘œ๋ณธ : from scipy import stats / stats.ttest_rel()
    • ๋…๋ฆฝ ํ‘œ๋ณธ : from scipy import stats / stats.ttest_ind()
    • ๋‹จ์ผ ํ‘œ๋ณธ : from scipy import stats / stats.ttest_1samp() - alternative='greater'
  • ์ผ์›๋ฐฐ์น˜ ANOVA F ๊ฒ€์ • : from scipy import stats / stats.f_oneway()
  • ์ƒคํ”ผ๋กœ์œŒํฌ : from scipy import stats / stats.shapiro()
  • ๋ฒ ๋ฅด๋ˆ„์ด์ดํ•ญ๋ถ„ํฌ : from scipy import / stats.binom.pmf()
  • ํฌ์•„์†ก๋ถ„ํฌ : from scipy import stats
    • stats.possion.pmf() / stats.possion.cdf(?, data) - ํŠน์ • ๊ฐ’๋ณด๋‹ค ์ž‘๊ฑฐ๋‚˜ ๊ฐ™์€ ๊ฐ’์ด ๋ฐœ์ƒํ•  ํ™•๋ฅ 
  • ์นด์ด์ œ๊ณฑ : from scipy import stats
    • stats.chisquare(data1, data2) / ๊ธฐ๋Œ€ ๋นˆ๋„: stats.chi2_contingency(df)
  • ๋กœ์ง€์Šคํ‹ฑํšŒ๊ท€ : ์ฒซ ๋ณ€์ˆ˜๊ฐ’์— ์˜ํ–ฅ์„ ๋ฏธ์น  ๋ณ€์ˆ˜๋“ค ์ •๋ฆฌ formula = "1 ~ 2 + 3 + 4"
    • from statsmodels.formula.api import logit
    • model = logit(formula, data = data).fit()
    • print(model.params)

 

Pixabay๋กœ๋ถ€ํ„ฐ ์ž…์ˆ˜๋œ Pexels๋‹˜์˜ ์ด๋ฏธ์ง€ ์ž…๋‹ˆ๋‹ค.

728x90