[Day 3] Data Manipulation

[Day 3] Data Manipulation

2022. 1. 20. 16:59ㆍAI/Codestates

728x90

코딩부트캠프 | 코드스테이츠 - 비전공생도 개발자가 될 수 있습니다

코딩부트캠프를 찾는다면? 개발자로 커리어 전환을 위한 책임있는 코딩 교육 기관! 서비스 기획자, 그로스 마케터, 데이터 사이언티스트 등 다양한 전문 커리어에 도전하세요. 취업 성공의 후기

www.codestates.com

Warm-up

데이터 합치기
- concat
  - ex) pd.concat([x, y]) -> column으로 합쳐짐
  - ex) pd.concat([x, y], axis = 1) -> row로 합쳐짐
- merge
  - Inner-Join : 두 데이터간의 중복된 요소만을 Join
  - Outer-Join : 모든 데이터들을 Join
  - Left-Join : 왼쪽 데이터셋을 기준으로 Join
  - Right-Join : 오른쪽 데이터셋을 기준으로 Join
Conditioning
- to_numberic() 함수로 numberic형으로 변환
Groupby
- ```
df.groupby("테마").mean()
```
  -> df 변수에서 "테마" feature을 기준으로 평균 값 구하기
Tidy data
- ```
df.melt(id_vars= "survived", value_vars= ["adult_male", "alone"], var_name= "variable", value_name="Value")
```
  -> df 변수에서 "survived"를 기준으로 "adult_male", "alone"에 대해 var의 이름은 "variable" 이고 value의 이름은 "Value"로 저장해서 melt함
Tidy data -> Wide data
- ```
df_tidy.pivot_table(index = "survived", columns= "variable",aggfunc="mean")
```
  -> index에 "survived" 데이터를 column에 "variable" 데이터들의 평균 값을 table 형태로 출력

아직까지는 데이터를 다루는 부분을 공부하고 있어서 인지 딱히 큰 어려움은 없었고 오늘은 Tidy data에 대해 좀 더 알아 갈 수 있는 시간이였던것 같다.

728x90