728x90
๐ ์ค๊ธฐ ์ค๋น ์ฐธ๊ณ ์๋ฃ :
ํ๋ค์ค ๊ธฐ์ด : https://wikidocs.net/book/4639
๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ ์ค๊ธฐ ์ฒดํํ๊ฒฝ : https://dataq.goorm.io/exam/3/์ฒดํํ๊ธฐ/quiz/1
Big Data Certification KR : https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr
ํด๊ทผํ๋ด์ง : https://www.youtube.com/watch?v=iOskHbBeV9o&list=PLSlDi2AkDv82Qv7B3WiWypQSFmOCb-G_-
๊ฐ๋ค๋ฆฐ DARIN : https://www.youtube.com/watch?v=iopLP4wBYw8
๐ ์์ ํ 2
1๋จ๊ณ : ๋ฐ์ดํฐ ํ์ ํ๊ธฐ, ๋ฐ์ดํฐ ํ์ต ๋ชจ๋ธ ์ ์ (๋ถ๋ฅ, ํ๊ท)
2๋จ๊ณ : ๋ถํ์ํ ๋ฐ์ดํฐ, ๊ฒฐ์ธก์น, object, describe ๋ฑ ํด๋น ๋ฐ์ดํฐ ์ ๋ฆฌ
3๋จ๊ณ : ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌํ๊ธฐ
4๋จ๊ณ : ๋ฐ์ดํฐ ๋ถ๋ฆฌํ๊ธฐ, ๋ชจ๋ธ ํ์ต ์ ์ต์ ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฆฌํ์ฌ ํ ์คํธ ํ ์ ์์
5๋จ๊ณ : ๋ฐ์ดํฐ ํ์ต
6๋จ๊ณ : ์ ์ถ ํ์์ ๋ง๊ฒ ์ ์ถํ๊ธฐ
๐ 3๋จ๊ณ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
- ๋ถํ์ ๋ฐ์ดํฐ : drop ์ฌ์ฉ
- ๊ฒฐ์ธก์น : isnull()๋ก ํ์ธ ๊ฐ๋ฅ, fillna()๋ฅผ ํตํด ๊ฐ ์ฑ์๋ฃ๊ธฐ
- mean() = ํ๊ท , mode() = ์ต๋น๊ฐ ๋ฑ
- (์ต๋น๊ฐ์ผ๋ก ์ฒ๋ฆฌ ํ ์ value_counts()๋ฅผ ํตํด ํ์ธํ ๊ฒ)
- object : ์ํซ์ธ์ฝ๋ฉ, ๋ผ๋ฒจ ์ธ์ฝ๋ฉ ๋ฑ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ณํํด์ผํจ. ์ฒ๋ฆฌํ๊ธฐ ์ ๋งคํ ๊ฒฝ์ฐ ์ญ์ ๋ฅผ ํ ์ ์์
- ์ํซ์ธ์ฝ๋ฉ : pd.get_dummies()
- ๋ผ๋ฒจ์ธ์ฝ๋ฉ : from sklearn.preprocessing import LabelEncoder
- describe : ํด๋น ํจ์๋ฅผ ํตํด ์ค์ผ์ผ๋ง ๋ฐฉ๋ฒ์ ์ ํํ ์ ์์ผ๋ฉฐ ๊ฒฐ์ธก์น๋ฅผ ์ด๋ค ๊ฐ์ผ๋ก ์ฌ์ฉํ ์ง ์ ํํ ์ ์๋ค.
- ์ค์ผ์ผ๋ง : StandardScaler, RobustScaler, MinMaxScaler ๋ฑ์ด ์์
- ์ํ์๋ ์ด์์น์ ์ํฅ์ ์ ๋ฐ์ง ์๋ RobustScaler์ ์ฃผ๋ก ์ฌ์ฉํ ์ ์์
- RobustScaler : from sklearn.preprocessing import RobustScaler
- ๋ฐ์ดํฐ ๊ฐ์ ๋ฒ์๊ฐ ๋๋ฌด ๋์ผ๋ฉด MinMaxScaler ์ฌ์ฉ
๐ 4๋จ๊ณ ๋ฐ์ดํฐ ๋ถ๋ฆฌํด ์ต์ ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ฐพ๊ธฐ
- ๋ฐ์ดํฐ ๋ถ๋ฆฌ : from sklearn.model_selection import train_test_split
- ํ์ดํผํ๋ผ๋ฏธํฐ ์ฐพ๊ธฐ : ๋ฐ์ดํฐ ํ์ต์ ํตํด n_estimators ์ max_depth์ ๊ฐ์ ๋ณ๊ฒฝํ๋ฉฐ ์ฐพ๊ธฐ
- ์ฑ์ ๋ฐฉ์์ ๋ฐ๋ผ ๊ฐ ํ์ธ : from sklearn.metrics import roc_auc_score / import accuracy_score / import r2_score ๋ฑ
- ๋ฌธ์ ์ ๋ง๋ ๋ฐ์ดํฐ ๋ชจ๋ธ ์ ํํ์ฌ ํ์ต์ํค๊ธฐ
- ๋ถ๋ฅ : RandomForestClassifier, XGBClassifier
- ํ๊ท : RandomForestRegressor, XGBRegressor
๐ 6๋จ๊ณ ์ ์ถํ๊ธฐ
- ์ ์ถ : pd.DataFrame({'id' : test_id, 'pred' : model_pred}).to_csv('123.csv', index = False)
๐ ์์ ํ 3
- T ๊ฒ์
- ์์ฒด ํ๋ณธ : from scipy import stats / stats.ttest_rel()
- ๋ ๋ฆฝ ํ๋ณธ : from scipy import stats / stats.ttest_ind()
- ๋จ์ผ ํ๋ณธ : from scipy import stats / stats.ttest_1samp() - alternative='greater'
- ์ผ์๋ฐฐ์น ANOVA F ๊ฒ์ : from scipy import stats / stats.f_oneway()
- ์คํผ๋ก์ํฌ : from scipy import stats / stats.shapiro()
- ๋ฒ ๋ฅด๋์ด์ดํญ๋ถํฌ : from scipy import / stats.binom.pmf()
- ํฌ์์ก๋ถํฌ : from scipy import stats
- stats.possion.pmf() / stats.possion.cdf(?, data) - ํน์ ๊ฐ๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์ ๊ฐ์ด ๋ฐ์ํ ํ๋ฅ
- ์นด์ด์ ๊ณฑ : from scipy import stats
- stats.chisquare(data1, data2) / ๊ธฐ๋ ๋น๋: stats.chi2_contingency(df)
- stats.chisquare(data1, data2) / ๊ธฐ๋ ๋น๋: stats.chi2_contingency(df)
- ๋ก์ง์คํฑํ๊ท : ์ฒซ ๋ณ์๊ฐ์ ์ํฅ์ ๋ฏธ์น ๋ณ์๋ค ์ ๋ฆฌ formula = "1 ~ 2 + 3 + 4"
- from statsmodels.formula.api import logit
- model = logit(formula, data = data).fit()
- print(model.params)
728x90
'๐.์๊ฒฉ์ฆ > ๐.๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[์ค๊ธฐ] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ฌ ์์ ํ 3 ์ ๋ฆฌ (Python) (0) | 2023.12.04 |
---|---|
[์ค๊ธฐ] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ฌ ์์ ํ 2 ์ ๋ฆฌ (Python) (0) | 2023.12.03 |
[์ค๊ธฐ] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ฌ ์์ ํ 1 ์ ๋ฆฌ (Python) (0) | 2023.12.01 |
๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ ํ๊ธฐ ์ ๋ฆฌ๋ณธ (2) | 2023.10.17 |
๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ 7ํ ํ๊ธฐ ํฉ๊ฒฉ ํ๊ธฐ (๊ต์ฌ X) (2) | 2023.10.15 |