일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 정보처리기사실기
- 공부
- 리눅스
- serving
- MLOps
- 아나콘다 #가상환경 #아나콘다설치 #윈도우 #파이썬 #데이터분석플랫폼 #anaconda #python #datascrience #platform #virtualenv
- 정리
- 저장장치용량
- it #coding #python #AI #machinelearning #deeplearning #algorism
- impot numpy
- 리눅스명령
- 서버사양확인
- 컨테이너기술
- 리눅스사용자생성
- AI #Parameter #hyperparameter #machinelearning #deep
- 가상환경복사
- AI
- 정처기
- 리눅스디렉토리구조
- 정보처리기사
- 서버사양
- 배치실행
- python
- 소프트웨어생명주기
- 정처기실기
- 스터디
- 메모리확인
- Linux
- os확인
- ram정보확인
- Today
- Total
목록전체 글 (35)
GgongssLog
scipy.stats01. T-test - ttest_1samp(단일표본 t검정) / ttest_ind(독립표본 t검정) / ttest_rel (대응표본 t검정)02. 비모수검정 - mannwhitneyu (맨-휘트니 u검정-중위수, 윌콕슨 순위합 검정과 동일하다 볼 수 있음) / ranksums(윌콕슨 순위합 검정-중위수) / wilcoxon (윌콕슨 부호 순위합 검정)03. 정규성 검정 - anderson (Anderson-Darling, 데이터 수가 상대적으로 많을 때) / kstest (kolmogorov-Smirnov, 데이터 수가 상대적으로 많을때) / mstats.normaltest / shapiro (shapiro, 노말분포 가장 엄격하게 검정, 데이터수가 상대적으로 적을 때)04. 등분산..
#로지스틱 회귀분석 import pandas as pdimport numpy as npimport seaborn as snsdf=sns.load_dataset('titanic')print(df.columns)df=df[['survived', 'pclass', 'age', 'parch','sibsp', 'fare']]df=df.dropna()print(df.head())#1. 로지스틱회귀분석 진행후 유의하지 않은 변수의 수는?#statsmodels 라이브러리 사용x_train=df[['pclass','age','parch','sibsp','fare']]y_train=df['survived']#모델링 (Logit함수)import statsmodels.api as smx_train=sm.add_constan..
from sklearn.datasets import load_bostonimport pandas as pdimport numpy as npboston=load_boston()#boston데이터 df로 만들기df=pd.DataFrame(boston.data, columns=boston.feature_names)df['target']=boston.target# print(df.columns)# print(df.head(10))X=df.drop('target',axis=1) #특정 열 삭제y=df[['target']]from sklearn.model_selection import train_test_splittrain_X,test_X, train_y, test_y = train_test_split(X,y,te..
from sklearn.datasets import load_bostonimport pandas as pdimport numpy as npboston=load_boston()#boston데이터 df로 만들기df=pd.DataFrame(boston.data, columns=boston.feature_names)df['target']=boston.target#상관관계 파악# print(df.corr())corr_mat = df.corr()#상삼각 행렬만 남기기, 상관계수 높은 변수 추출upper_tri=corr_mat.where(np.triu(np.ones(corr_mat.shape),k=1).astype(bool)) #k=1 윗부분을 표시하겠다max_corr_value=upper_tri.stack().ma..
* help()함수 활용 print(help(sklearn)) : 해당 함수 활용법에 대해 확인가능 *dir()함수import pandas as pdprint(dir(pd)) : pandas 패키지가 가지고있는 속성과 메서드의 리스트 확인 가능 *__all__활용from sklearn import preprocessingprint(sklean.preprocessing.__all__) *자주 활용되는 라이브버리from sklearn.preprocessing import StandardScalerfrom sklearn.cluster import KMeansfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import roc_au..
통계적 가설검정- 실험집단(treatment) : 치료를 받은 이후- 통제집단(control) : 치료를 받기 전 - 추정량에 대한 가설검정을 수행! 통계적 가설검정이 무엇인가? -> 우리가 제시하고 있는 가설 (a백신이 효과가 있다)을 검정하는 것-> 모집단에서 추출한 표본의 정보를 이용하여 미지의 모수에 대한 주장 혹은 단순한 추측 즉 가설의 옳고 그름을 판단하는 과정 통계적 가설검정 관련 용어1. 귀무가설 : 두 집단간의 건강상태 차이가 없다. (기존입장)2. 대립가설 : 두 집단간의 건강상태 차이가 있다. (연구하고 싶은 가설, 귀무가설과 상반되는 가설)3. 검정통계량 : 검정에 사용하는 통계량. (건강상태의 차이 / 표본평균 = 추정량 / 표본평균의 차이가 검정통계량)4. 유의 수준 : 귀무가설..
* KAFKA란? -> 파이프라인, 스트리밍 분석, 데이터 통합 및 미션 크리티컬 애플리케이션을 위해 설계된 고성능 분산 이벤트 스트리밍 플랫폼-> 오픈소스 분산 이벤트 스트리밍 플랫폼(스트리밍 플랫폼 : 데이터 스트림(시간이 흐르면서 사용할 수 있게 되는 데이터 요소)을 읽고 쓰고 저장하고 처리하는 역할을 가진 시스템) *KAFKA 특징- KAFKA는 클러스터로 실행됨 => 서로다른 애플리케이션을 수동으로 연결하는 많은 개별적 메시징 브로커 대신 회사의 모든 데이터 스트림 처리를 위해 탄력적으로 확장할 수 있는 하나의 '중심 플랫폼' 역할을 함- 원하는 기간 동안 데이터를 저장하기 위해 만들어진 스토리지 시스템=> KAFKA를 서로 다른 시스템의 연결 계층으로 사용가능=> KAFKA의 데이터는 복제되..
*응시 팁!help함수 활용!help('sklearn.preprocessing.MinMaxscaler')dir('sklearn') : 해당 라이브러리에 포함된 모듈 표시 - 분류예측에서 predict로 예측하면 정수로 반환- predict_proba : 각 범주의 확률로 반환 #분류예측 문제import seaborn as snsimport pandas as pdimport sklean.model_selection import train_test_split#데이터 불러오기df=sns.load_dataset('titanic')X_train,y_train,X_test, y_test= train_test_split(df,df['survied'],test_size=0.2,random_state=42, strati..