GgongssLog

Notice

Recent Posts

Recent Comments

Link

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (35)

GgongssLog

[빅분기] stats모듈

scipy.stats01. T-test - ttest_1samp(단일표본 t검정) / ttest_ind(독립표본 t검정) / ttest_rel (대응표본 t검정)02. 비모수검정 - mannwhitneyu (맨-휘트니 u검정-중위수, 윌콕슨 순위합 검정과 동일하다 볼 수 있음) / ranksums(윌콕슨 순위합 검정-중위수) / wilcoxon (윌콕슨 부호 순위합 검정)03. 정규성 검정 - anderson (Anderson-Darling, 데이터 수가 상대적으로 많을 때) / kstest (kolmogorov-Smirnov, 데이터 수가 상대적으로 많을때) / mstats.normaltest / shapiro (shapiro, 노말분포 가장 엄격하게 검정, 데이터수가 상대적으로 적을 때)04. 등분산..

자격증준비/빅데이터분석기사실기 2024. 11. 29. 15:37

[빅분기 ] 기출

#로지스틱 회귀분석 import pandas as pdimport numpy as npimport seaborn as snsdf=sns.load_dataset('titanic')print(df.columns)df=df[['survived', 'pclass', 'age', 'parch','sibsp', 'fare']]df=df.dropna()print(df.head())#1. 로지스틱회귀분석 진행후 유의하지 않은 변수의 수는?#statsmodels 라이브러리 사용x_train=df[['pclass','age','parch','sibsp','fare']]y_train=df['survived']#모델링 (Logit함수)import statsmodels.api as smx_train=sm.add_constan..

자격증준비/빅데이터분석기사실기 2024. 11. 25. 16:53

[빅분기 실기] 2유형

from sklearn.datasets import load_bostonimport pandas as pdimport numpy as npboston=load_boston()#boston데이터 df로 만들기df=pd.DataFrame(boston.data, columns=boston.feature_names)df['target']=boston.target# print(df.columns)# print(df.head(10))X=df.drop('target',axis=1) #특정 열 삭제y=df[['target']]from sklearn.model_selection import train_test_splittrain_X,test_X, train_y, test_y = train_test_split(X,y,te..

자격증준비/빅데이터분석기사실기 2024. 11. 25. 14:50

[빅분기 실기] 3유형 기출 7회

from sklearn.datasets import load_bostonimport pandas as pdimport numpy as npboston=load_boston()#boston데이터 df로 만들기df=pd.DataFrame(boston.data, columns=boston.feature_names)df['target']=boston.target#상관관계 파악# print(df.corr())corr_mat = df.corr()#상삼각 행렬만 남기기, 상관계수 높은 변수 추출upper_tri=corr_mat.where(np.triu(np.ones(corr_mat.shape),k=1).astype(bool)) #k=1 윗부분을 표시하겠다max_corr_value=upper_tri.stack().ma..

자격증준비/빅데이터분석기사실기 2024. 11. 22. 10:41

[빅분기 실기] 시험 팁

* help()함수 활용 print(help(sklearn)) : 해당 함수 활용법에 대해 확인가능 *dir()함수import pandas as pdprint(dir(pd)) : pandas 패키지가 가지고있는 속성과 메서드의 리스트 확인 가능 *__all__활용from sklearn import preprocessingprint(sklean.preprocessing.__all__) *자주 활용되는 라이브버리from sklearn.preprocessing import StandardScalerfrom sklearn.cluster import KMeansfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import roc_au..

자격증준비/빅데이터분석기사실기 2024. 11. 18. 17:32

[빅분기 실기] 작업형3 통계적 가설검정

통계적 가설검정- 실험집단(treatment) : 치료를 받은 이후- 통제집단(control) : 치료를 받기 전 - 추정량에 대한 가설검정을 수행! 통계적 가설검정이 무엇인가? -> 우리가 제시하고 있는 가설 (a백신이 효과가 있다)을 검정하는 것-> 모집단에서 추출한 표본의 정보를 이용하여 미지의 모수에 대한 주장 혹은 단순한 추측 즉 가설의 옳고 그름을 판단하는 과정 통계적 가설검정 관련 용어1. 귀무가설 : 두 집단간의 건강상태 차이가 없다. (기존입장)2. 대립가설 : 두 집단간의 건강상태 차이가 있다. (연구하고 싶은 가설, 귀무가설과 상반되는 가설)3. 검정통계량 : 검정에 사용하는 통계량. (건강상태의 차이 / 표본평균 = 추정량 / 표본평균의 차이가 검정통계량)4. 유의 수준 : 귀무가설..

자격증준비/빅데이터분석기사실기 2024. 11. 3. 16:21

[IT] KAFKA 란?

* KAFKA란? -> 파이프라인, 스트리밍 분석, 데이터 통합 및 미션 크리티컬 애플리케이션을 위해 설계된 고성능 분산 이벤트 스트리밍 플랫폼-> 오픈소스 분산 이벤트 스트리밍 플랫폼(스트리밍 플랫폼 : 데이터 스트림(시간이 흐르면서 사용할 수 있게 되는 데이터 요소)을 읽고 쓰고 저장하고 처리하는 역할을 가진 시스템) *KAFKA 특징- KAFKA는 클러스터로 실행됨 => 서로다른 애플리케이션을 수동으로 연결하는 많은 개별적 메시징 브로커 대신 회사의 모든 데이터 스트림 처리를 위해 탄력적으로 확장할 수 있는 하나의 '중심 플랫폼' 역할을 함- 원하는 기간 동안 데이터를 저장하기 위해 만들어진 스토리지 시스템=> KAFKA를 서로 다른 시스템의 연결 계층으로 사용가능=> KAFKA의 데이터는 복제되..

카테고리 없음 2024. 10. 30. 14:56

[빅분기 실기] 연습문제 풀기

*응시 팁!help함수 활용!help('sklearn.preprocessing.MinMaxscaler')dir('sklearn') : 해당 라이브러리에 포함된 모듈 표시 - 분류예측에서 predict로 예측하면 정수로 반환- predict_proba : 각 범주의 확률로 반환 #분류예측 문제import seaborn as snsimport pandas as pdimport sklean.model_selection import train_test_split#데이터 불러오기df=sns.load_dataset('titanic')X_train,y_train,X_test, y_test= train_test_split(df,df['survied'],test_size=0.2,random_state=42, strati..

자격증준비/빅데이터분석기사실기 2024. 10. 9. 19:53

이전 Prev 1 2 3 4 5 Next 다음

목록전체 글 (35)

GgongssLog

티스토리툴바