[Day 14] Clustering

2022. 2. 9. 13:48AI/Codestates

728x90
반응형

https://www.codestates.com/

 

코딩부트캠프 | 코드스테이츠 - 비전공생도 개발자가 될 수 있습니다

코딩부트캠프를 찾는다면? 개발자로 커리어 전환을 위한 책임있는 코딩 교육 기관! 서비스 기획자, 그로스 마케터, 데이터 사이언티스트 등 다양한 전문 커리어에 도전하세요. 취업 성공의 후기

www.codestates.com


Warm-up

  • K - Means Clustering
  • Hierarchical Clustering
  • Elbow Method

Note

  • Machine Learning ( 개요 )
    • 지도 학습 ( Supervised Learning ) : Supervised Learning은 트레이닝 데이터에 라벨 ( 답 ) 이 있을 때 사용할 수 있음.
      • 분류 ( Classificantion ) : 분류 알고리즘은 주어진 데이터의 카테고리 혹은 클래스 예측을 위해 사용
      • 회귀 ( Prediction ) : 회귀 알고리즘은 Continuous 한 데이터를 바탕으로 결과를 예측하기 위해 사용
    • 비지도 학습 ( Unsupervised Learning ) 
      • 클러스터링 ( Clustering ) : 데이터의 연관된 Feature를 바탕으로 유사한 그룹을 생성
      • 차원축소 ( Dimensionality Redution ) : 높은 차원을 갖는 데이터셋을 사용하여 Feature Selection / Feature Extraction 등을 통해 차원을 줄이는 방법
      • 연관 규칙 학습 ( Association Rule Learning ) : 데이터셋의 Feature들의 관계를 발견하는 방법 ( Feature - Output이 아닌 Feature -  Feature )
    • 강화 학습 (Reinforcement Learning ) : 머신러닝의 한 형태로, 기계가 좋은 행동에 대해서는 보상, 그렇지 않은 행동에는 처벌 이라는 피드백을 통해서 행동에 대해 학습해 나가는 형태
  • Clustering : Unsupervised Learning Algorithm의 한 종류
    • 목적 :  Clustering이 대답할 수 있는 질문은 주어진 데이터들이 얼마나, 어떻게 유사한지 이다. 그러나 동시에 정답을 보장하지 않는다 는 이슈가 있어서 production의 수준 혹은 예측을 위한 모델링에 쓰이기보다는 EDA를 위한 방법으로써 많이 쓰임.
    • 종류 :
      • Hierarchical
        • Agglomerative : 개별 포인트에서 시작 후 점점 크게 합쳐감.
        • Divisive : 한 개의 큰 Cluster에서 시작 후 점점 작은 Cluster로 나눠감.
      • Point Assignment : 시작시에 Cluster의 수를 접한 다음, 데이터들을 하나씩 Cluster에 배정시킴
    • Similarity
      • Euclidean -> 일반적으로 많이 쓰임
      • Cosine
      • Jaccard
      • Edit Distance
      • Etc.
  • K - Mean Clustering
    • 과정 : N - 차원의 데이터에 대해서
      1. K개의 랜덤한 데이터를 Cluster의 중심점으로 설정
      2. 해당 Cluster에 근접해 있는 데이터를 Cluster로 할당
      3. 변경된 Cluster에 대해서 중심점을 새로 계산
        Cluster에 유의미한 변화가 없을 때까지 2-3을 반복

Review

더보기

오늘 배운 내용은 조금 막혔던거 같다. 막혔던 만큼 풀었을 때 성취감이 좋았다


참고

728x90
반응형

'AI > Codestates' 카테고리의 다른 글

[Day 16 ~ Day 21] Section 1 Project  (0) 2022.02.22
[Day 15] Sprint Review  (0) 2022.02.10
[Day 13] Demension Reduction  (0) 2022.02.08
[Day 12] Linear Algebra +  (0) 2022.02.07
[Day 11] Vector / Matrix  (0) 2022.02.04