본문 바로가기
728x90
728x90

Log/Book Log19

[Do it!] Chapter 14 통계 분석 기법을 이용한 가설 검정 14-1 가설 검정이란? 통계 분석 기술 통계 (Descriptive statistics) 데이터를 요약해 설명하는 통계 분석 기법 추론 통계 (Inferential statistics) 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 분석 기법 통계적 가설 검정 (Statistical hypothesis test) 유의확률을 이용해 가설을 검정하는 방법 유의확률 (Significance probability, p-value) 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률 14-2 t 검정 t-검정 (t-test) 두 집단의 평균에 통계적으로 유의미한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법 14-3 상관분석 상관분석 (Correlation a.. 2022. 7. 13.
[Do it!] Chapter 10 텍스트 마이닝 텍스트 마이닝 텍스트 마이닝 (Text Mining) 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법 형태소 분석 (Morphology Analysis) 문장을 구성하는 어절들이 어떤 품사인지 파악하는 작업 텍스트 마이닝을 할 때 가장 먼저 하는 작업 정규 표현식 (Regular Expression) '한글이 아닌 모든 문자'를 표현하는 정규 표현식 [^가-힣] 워드 클라우드 (Word Cloud) 단어의 빈도를 구름 모양으로 표현한 그래프 2022. 7. 8.
[Do it!] Chapter 08 그래프 그리기 Github Link 08-1 파이썬으로 만들 수 있는 그래프 살펴보기 그래프 (Graph) 데이터를 보기 쉽게 그림으로 표현한 것 파이썬 그래프 종류 2차원 그래프 3차원 그래프 지도 그래프 네트워크 그래프 모션 차트 인터랙티브 그래프 08-2 산점도 산점도 (Scatter plot) 데이터를 x축과 y축에 점으로 표현한 그래프 연속값으로 된 두 변수의 관계를 표현하는데 주로 사용 sns.scatterplot(data = df, x = 'weight', y = 'height') 08-3 막대 그래프 막대 그래프 (Bar chart) 데이터의 크기를 막대의 길이로 표현한 그래프 집단 간 차이를 표현하는데 주로 사용 # 막대 그래프 sns.barrplot(data = df, x = 'country', y .. 2022. 7. 5.
[Do it!] Chapter 07 데이터 정제 Github Link 07-1 결측치 정제하기 결측치 (Missing Value) 누락된 값, 비어있는 값 dropna()로 결측치를 제거 # 모든 결측치가 포함된 행 제거 df.dropna() # 특정 열에서만 결측치가 포함된 행 제거 df.dropna(subset = ['변수명1', '변수명2', '변수명3']) fillna()로 결측값을 대신할 값(ex. 평균, 중앙값)으로 채워넣기 결측치 대체법 (Imputation) 데이터가 손실되어 분석 결과가 왜곡되는 문제를 보완 가능 # 결측치(NaN)를 '대체값'으로 변경 df.fillna(대체값) 07-2 이상치 정제하기 이상치 (Anomaly) 존재할 수 없는 값 이상치를 결측 처리(NaN)한 후 결측치 정제하기 np.where()에서 반환값에 문자가.. 2022. 7. 4.
[Do it!] Chapter 06 자유자재로 데이터 가공하기 Github Link 06-1 데이터 전처리 데이터 전처리 (Data preprocessing) 분석에 적합하게 데이터를 가공하는 작업 06-2 조건에 맞는 데이터만 추출하기 # 'score'가 80 이상인 데이터 추출 df.query('score >= 80') 06-3 필요한 변수만 추출하기 # 'score' 변수 추출 df['score'] # 'score', 'id' 변수 추출 df[['score', 'id'] # 'score' 변수 제거 df.drop(columns = 'score') # 'score', 'id' 변수 제거 df.drop(columns = ['score', 'id']) 06-4 순서대로 정렬하기 # 'score' 오름차순 정렬 df.sort_values('score') # 'scor.. 2022. 7. 3.
[Do it!] Chapter 05 데이터 분석 기초 Github Link 05-1 데이터 파악하기 데이터를 파악할 때 사용하는 명령어 head() 데이터의 앞부분 출력 괄호 안에 표시할 행의 수 입력 (default = 5) tail() 데이터의 뒷부분 출력 괄호 안에 표시할 행의 수 입력 (defalut = 5) shape 행, 열 개수 출력 info() 변수 속성 출력 describe() 요약 통계량 출력 include = 'all' 매개변수로 문자 변수(object) 요약 통계량 포함 출력 함수와 메서드 내장 함수 가장 기본적인 함수의 형태 파이썬에 내장되어 별도의 패키지 설치 불필요 패키지 함수 패키지 이름을 먼저 입력한 후 점을 찍고 함수를 입력하여 사용 패키지를 먼저 로드해야 사용 가능 메서드 (Method) '변수가 지니.. 2022. 6. 30.
[Do it!] Chapter 04 데이터 프레임의 세계로! Github Link 04-1 데이터 프레임 이해하기 데이터 프레임 (Data frame) 데이터를 다룰 때 가장 많이 사용하는 데이터 형태 행과 열로 구성된 사각형 모양의 표와 같은 형태 04-2 데이터 프레임 만들기 pandas 패키지를 이용 import pandas as pd df = pd.DataFrame() 데이터 프레임을 csv 파일로 저장하기 df.to_csv() 04-3 외부 데이터 이용하기 csv (comma-separated values) 엑셀 파일(.xlxs)보다 용량이 작아서 자주 이용 데이터 파일 불러오는 법 엑셀 파일(.xlxs) pd.read_excel() csv 파일(.csv) pd.read_csv() 2022. 6. 30.
728x90
반응형