[Day 3] Data Manipulation
2022. 1. 20. 16:59ㆍAI/Codestates
728x90
반응형
코딩부트캠프 | 코드스테이츠 - 비전공생도 개발자가 될 수 있습니다
코딩부트캠프를 찾는다면? 개발자로 커리어 전환을 위한 책임있는 코딩 교육 기관! 서비스 기획자, 그로스 마케터, 데이터 사이언티스트 등 다양한 전문 커리어에 도전하세요. 취업 성공의 후기
www.codestates.com
Warm-up
- Tidy data : 변수가 열이고 관측치가 행인 데이터
- melt() 함수를 사용해서 Wide data를 Tidy data로 변경가능
Note
- 데이터 합치기
- concat
- ex) pd.concat([x, y]) -> column으로 합쳐짐
- ex) pd.concat([x, y], axis = 1) -> row로 합쳐짐
- merge
- Inner-Join : 두 데이터간의 중복된 요소만을 Join
- Outer-Join : 모든 데이터들을 Join
- Left-Join : 왼쪽 데이터셋을 기준으로 Join
- Right-Join : 오른쪽 데이터셋을 기준으로 Join
- concat
- Conditioning
- to_numberic() 함수로 numberic형으로 변환
- Groupby
-
-> df 변수에서 "테마" feature을 기준으로 평균 값 구하기df.groupby("테마").mean()
-
- Tidy data
-
-> df 변수에서 "survived"를 기준으로 "adult_male", "alone"에 대해 var의 이름은 "variable" 이고 value의 이름은 "Value"로 저장해서 melt함df.melt(id_vars= "survived", value_vars= ["adult_male", "alone"], var_name= "variable", value_name="Value")
-
- Tidy data -> Wide data
-
-> index에 "survived" 데이터를 column에 "variable" 데이터들의 평균 값을 table 형태로 출력df_tidy.pivot_table(index = "survived", columns= "variable",aggfunc="mean")
-
Daily Review
참고
728x90
반응형
'AI > Codestates' 카테고리의 다른 글
[Day 6] Hypothesis Test (0) | 2022.01.25 |
---|---|
[Day 5] Sprint Review (0) | 2022.01.24 |
[Day 4] Basic Derivative (0) | 2022.01.21 |
[Day 2] Feature Engineering (0) | 2022.01.20 |
[Day 1] EDA (0) | 2022.01.20 |