본문 바로가기
728x90
728x90

Log23

[Tistory] 블로그 이전 티스토리 블로그를 그만두고 github pages로 이전하려고 합니다. TypeLOG A minimal, responsive and feature-rich Jekyll theme for technical writing. typemin.github.io 최근 다양한 markdown 툴을 사용하면서 markdown 형식에 익숙해졌고, 추후에 플랫폼이 바뀌거나 사라지더라도 저의 기록들을 계속 보관하고싶어서 markdown으로 글을 작성해보려고 합니다. 하지만 현재 사용하고 있는 스킨에서는 markdown 입력기를 지원하지 않았고, markdown 입력을 지원하는 다른 마음에 드는 스킨을 찾지 못하여 여러 가지 대안을 알아보다가 github pages에서 마음에 드는 테마를 찾아 이를 사용하기로 하였습니다. 포.. 2023. 9. 18.
[Obsidian] Obsidian을 선택한 이유 Obsidian Obsidian - Sharpen your thinking Obsidian is the private and flexible note‑taking app that adapts to the way you think. obsidian.md 최근에 유튜브를 보다가 'Obsidian'이라는 노트 프로그램을 접하게 되었다. 내용을 정리하는 프로그램은 Notion, Evernote, Onenote 등의 다양한 프로그램들이 존재하지만 Obsidian은 그와 차별되는 특징들을 지니고 있었다. 그 중 가장 내 마음을 훔친 것은 바로 Link와 Graph 기능이었다. 물론 Notion을 비롯한 다른 프로그램에서도 Link 기능을 지원하지만, Obsidian에서는 보다 간단하게 대괄호 2개를 이용하여 Lin.. 2023. 9. 16.
[Do it!] Chapter 14 통계 분석 기법을 이용한 가설 검정 14-1 가설 검정이란? 통계 분석 기술 통계 (Descriptive statistics) 데이터를 요약해 설명하는 통계 분석 기법 추론 통계 (Inferential statistics) 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 분석 기법 통계적 가설 검정 (Statistical hypothesis test) 유의확률을 이용해 가설을 검정하는 방법 유의확률 (Significance probability, p-value) 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률 14-2 t 검정 t-검정 (t-test) 두 집단의 평균에 통계적으로 유의미한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법 14-3 상관분석 상관분석 (Correlation a.. 2022. 7. 13.
[Do it!] Chapter 10 텍스트 마이닝 텍스트 마이닝 텍스트 마이닝 (Text Mining) 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법 형태소 분석 (Morphology Analysis) 문장을 구성하는 어절들이 어떤 품사인지 파악하는 작업 텍스트 마이닝을 할 때 가장 먼저 하는 작업 정규 표현식 (Regular Expression) '한글이 아닌 모든 문자'를 표현하는 정규 표현식 [^가-힣] 워드 클라우드 (Word Cloud) 단어의 빈도를 구름 모양으로 표현한 그래프 2022. 7. 8.
[Do it!] Chapter 08 그래프 그리기 Github Link 08-1 파이썬으로 만들 수 있는 그래프 살펴보기 그래프 (Graph) 데이터를 보기 쉽게 그림으로 표현한 것 파이썬 그래프 종류 2차원 그래프 3차원 그래프 지도 그래프 네트워크 그래프 모션 차트 인터랙티브 그래프 08-2 산점도 산점도 (Scatter plot) 데이터를 x축과 y축에 점으로 표현한 그래프 연속값으로 된 두 변수의 관계를 표현하는데 주로 사용 sns.scatterplot(data = df, x = 'weight', y = 'height') 08-3 막대 그래프 막대 그래프 (Bar chart) 데이터의 크기를 막대의 길이로 표현한 그래프 집단 간 차이를 표현하는데 주로 사용 # 막대 그래프 sns.barrplot(data = df, x = 'country', y .. 2022. 7. 5.
[Do it!] Chapter 07 데이터 정제 Github Link 07-1 결측치 정제하기 결측치 (Missing Value) 누락된 값, 비어있는 값 dropna()로 결측치를 제거 # 모든 결측치가 포함된 행 제거 df.dropna() # 특정 열에서만 결측치가 포함된 행 제거 df.dropna(subset = ['변수명1', '변수명2', '변수명3']) fillna()로 결측값을 대신할 값(ex. 평균, 중앙값)으로 채워넣기 결측치 대체법 (Imputation) 데이터가 손실되어 분석 결과가 왜곡되는 문제를 보완 가능 # 결측치(NaN)를 '대체값'으로 변경 df.fillna(대체값) 07-2 이상치 정제하기 이상치 (Anomaly) 존재할 수 없는 값 이상치를 결측 처리(NaN)한 후 결측치 정제하기 np.where()에서 반환값에 문자가.. 2022. 7. 4.
[Do it!] Chapter 06 자유자재로 데이터 가공하기 Github Link 06-1 데이터 전처리 데이터 전처리 (Data preprocessing) 분석에 적합하게 데이터를 가공하는 작업 06-2 조건에 맞는 데이터만 추출하기 # 'score'가 80 이상인 데이터 추출 df.query('score >= 80') 06-3 필요한 변수만 추출하기 # 'score' 변수 추출 df['score'] # 'score', 'id' 변수 추출 df[['score', 'id'] # 'score' 변수 제거 df.drop(columns = 'score') # 'score', 'id' 변수 제거 df.drop(columns = ['score', 'id']) 06-4 순서대로 정렬하기 # 'score' 오름차순 정렬 df.sort_values('score') # 'scor.. 2022. 7. 3.
728x90
반응형