[Deep Learning - NLP] Count-based Representation
2022. 5. 4. 22:14ㆍAI/Codestates
728x90
반응형
자연어 처리 ( Natural Language Processing, NLP ) 이란?
▶자연어 이해 ( Natural Language Understanding, NLU )
→ 분류, 추론, 독해, 품사 태깅, 개체명 인식, 추출 요약
▶자연어 생성 ( Natural Language Generation, NLG )
→ 텍스트 생성 ( 특정 도메인의 텍스트 생성 )
전처리
▶ 불용어 ( Stop Words )
"And", "it", "a"과 같은 관사나 조사 등 필요없는 단어
▶ 어간 추출 ( Stemming )
"-s", "-es", "-ing" 등을 빼서 주된 의미를 가진 단어 ( 어간 ) 를 남김
▶ 표제어 추출 ( Lemmatization )
"wolves" → "wolf" 사전에 등재되어 있는 형태인 "wolf"로 나오게 함
벡터화 ( Vectorize ) 이란?
컴퓨터가 이해할 수 있도록 벡터로 만들어 주는 과정
▶ 등장 횟수 기반의 단어 표현 ( Count - Based Representation )
단어가 문서 ( 혹은 문장 ) 에 등장하는 횟수를 기반으로 벡터화하는 방법
→ Bag - of - Words ( CounterVectorizer ) ex) 고래밥 고르기
→ TF - IDF ( TfdVectorizer ) ex) 급식표
▶ 분포 기반의 단어 표현 ( Distributed Representation )
타겟 단어 주변에 있는 단어를 기반으로 벡터화 하는 방법
→ Word2Vec
→ GloVe
→ fastText
728x90
반응형
'AI > Codestates' 카테고리의 다른 글
[Deep Learning - NLP] Language Modeling With RNN (0) | 2022.05.09 |
---|---|
[Deep Learning - NLP] Distributed Representation (0) | 2022.05.06 |
[Day 71] Sprint Review (0) | 2022.05.04 |
[Deep Learning] Hyperparameter Tuning (0) | 2022.05.02 |
[Deep Learning] 더 나은 신경망 학습을 위한 방법들 (0) | 2022.04.29 |