[Day 3] Data Manipulation

2022. 1. 20. 16:59AI/Codestates

728x90
반응형

https://www.codestates.com/

 

코딩부트캠프 | 코드스테이츠 - 비전공생도 개발자가 될 수 있습니다

코딩부트캠프를 찾는다면? 개발자로 커리어 전환을 위한 책임있는 코딩 교육 기관! 서비스 기획자, 그로스 마케터, 데이터 사이언티스트 등 다양한 전문 커리어에 도전하세요. 취업 성공의 후기

www.codestates.com


Warm-up

  • Tidy data : 변수가 열이고 관측치가 행인 데이터
  • melt() 함수를 사용해서 Wide data를 Tidy data로 변경가능

Note

  • 데이터 합치기
    • concat 
      • ex) pd.concat([x, y]) -> column으로 합쳐짐
      • ex) pd.concat([x, y], axis = 1) -> row로 합쳐짐
    • merge
      • Inner-Join :  두 데이터간의 중복된 요소만을 Join
      • Outer-Join :  모든 데이터들을 Join
      • Left-Join : 왼쪽 데이터셋을 기준으로 Join
      • Right-Join : 오른쪽 데이터셋을 기준으로 Join
  • Conditioning
    • to_numberic() 함수로 numberic형으로 변환
  • Groupby
    • df.groupby("테마").mean()​
       -> df 변수에서 "테마" feature을 기준으로 평균 값 구하기
  • Tidy data
    • df.melt(id_vars= "survived", value_vars= ["adult_male", "alone"], var_name= "variable", value_name="Value")
      -> df 변수에서 "survived"를 기준으로 "adult_male", "alone"에 대해 var의 이름은 "variable" 이고 value의 이름은 "Value"로 저장해서 melt함
  • Tidy data -> Wide data
    • df_tidy.pivot_table(index = "survived", columns= "variable",aggfunc="mean")
      ->  index에 "survived" 데이터를 column에 "variable" 데이터들의 평균 값을 table 형태로 출력

Daily Review

더보기
더보기

아직까지는 데이터를 다루는 부분을 공부하고 있어서 인지 딱히 큰 어려움은 없었고 오늘은 Tidy data에 대해 좀 더 알아 갈 수 있는 시간이였던것 같다.


참고

 

728x90
반응형

'AI > Codestates' 카테고리의 다른 글

[Day 6] Hypothesis Test  (0) 2022.01.25
[Day 5] Sprint Review  (0) 2022.01.24
[Day 4] Basic Derivative  (0) 2022.01.21
[Day 2] Feature Engineering  (0) 2022.01.20
[Day 1] EDA  (0) 2022.01.20