2022. 1. 20. 16:40ㆍAI/Codestates
코딩부트캠프 | 코드스테이츠 - 비전공생도 개발자가 될 수 있습니다
코딩부트캠프를 찾는다면? 개발자로 커리어 전환을 위한 책임있는 코딩 교육 기관! 서비스 기획자, 그로스 마케터, 데이터 사이언티스트 등 다양한 전문 커리어에 도전하세요. 취업 성공의 후기
www.codestates.com
Warm-up
- EDA (Exploratory Data Analysis) 탐색적 자료 분석
- Top 25 pandas tricks
1. Show installed tricks
2. Create an example DataFrame
3. Rename columns
4. Reverse row order
5. Reverse column order
6. Select column by data type
7. Convert strings to numbers
8. Reduce DataFrame size
9. Build a DataFrame from multiple files ( row - wise )
10. Build a DataFrame from multiple files ( columns - wise )
11. Create a DataFrame from the clipboard
12. Split a DataFrame into two random subsets
13. Fiter a DataFrame by multiple categories
14. Fiter a DataFrame by largest categories
15. Handle missing values
16. Split a string into multiple columns
17. Expend a series of lists into a DataFrame
18. Aggregate by multiple functions
19. Combine the output of an aggregation with a DataFrame
20. Select a slice of raws and columns
21. Reshape a Multiindexed series
22. Create a pivot table
23. Convert conditions data into categorical data
24. Change display options
25. Style a DataFrame
Note
- 데이터셋을 불러오기 위한 단계
- Description을 통해 데이터셋에 대한 정보를 파악합니다
- 행과 열의 수
- 열에 헤더가 있는지 ( "데이터 이름"이 있는지? )
- 결측 데이터 ( Missing Data )가 있는지 확인
- 원본형태를 확인하기
- pandas.read_csv를 사용하여 데이터셋 불러오기를 시도하고, 오류가 있다면 원인에 대해 조사하기
- Description을 통해 데이터셋에 대한 정보를 파악합니다
- EDA(Exploratory Data Analysis) 탐색적 자료 분석
- EDA란? 데이터 분석에 있어서 매우 중요한 조기분석단계를 의미하면
- 시각화 같은 도구를 통해서 패턴을 발견하거나
- 데이터 특이성을 확인하거나
- 통계와 그래픽 ( 혹은 시각적 표현 )을 통해서 가설을 검증하는 과정등을 포함합니다.
- EDA의 방법
- Graphic : 차트 혹은 그림
- Non-Graphic : Summary statistics
- EDA의 "타겟" ( 데이터 )
- Univariate
- Multi - variate
- EDA란? 데이터 분석에 있어서 매우 중요한 조기분석단계를 의미하면
-
df = df.transpose() # 행과 열 바꾸기 # transpose()를 할 경우 첫번째 row가 인덱스 값으로 바뀌게되므로 제거해줘야 함. df.rename(columns = df.iloc[0], inplace = True) df = df.drop(df.index[0])
- 엑셀 파일 시트가 여러 개인 경우
-
import pandas as pd # sheet_name = "시트 순서 index" pd.read_excel("주소", sheet_name = 0)
-
- 데이터 크기 확인
-
-> (행, 열) 값으로 출력df.shape
-
-> 결측치 ( NaN 값 또는 None 값 ) 대체 및 제거df = df.fillna(0)
-
-> 결측치가 있는 행 제거df.dropna(axis = 0)
-
-> 결측치가 있는 열 제거df.dropna(axis = 0)
-
-> 결측치 인덱스 상 앞 데이터로 대체df.fillna(method = "ffill")
-
-> 결측치 인덱스 상 뒤 데이터로 대체df.fillna(method = "bffill")
-
Daily Review
데이터를 출력하고 처리하는 방법에 대해 공부했고, EDA의 중요성을 알게 되었다
참고
'AI > Codestates' 카테고리의 다른 글
[Day 6] Hypothesis Test (0) | 2022.01.25 |
---|---|
[Day 5] Sprint Review (0) | 2022.01.24 |
[Day 4] Basic Derivative (0) | 2022.01.21 |
[Day 3] Data Manipulation (0) | 2022.01.20 |
[Day 2] Feature Engineering (0) | 2022.01.20 |