[Deep Learning - NLP] Count-based Representation

2022. 5. 4. 22:14AI/Codestates

728x90
반응형

자연어 처리 ( Natural Language Processing, NLP ) 이란?

▶자연어 이해 ( Natural Language Understanding, NLU )

→ 분류, 추론, 독해, 품사 태깅, 개체명 인식, 추출 요약

▶자연어 생성 ( Natural Language Generation, NLG )

→ 텍스트 생성 ( 특정 도메인의 텍스트 생성 )

전처리

▶ 불용어 ( Stop Words )

"And", "it", "a"과 같은 관사나 조사 등 필요없는 단어

어간 추출 ( Stemming )

"-s", "-es", "-ing" 등을 빼서 주된 의미를 가진 단어 ( 어간 ) 를 남김

표제어 추출 ( Lemmatization )

"wolves" → "wolf" 사전에 등재되어 있는 형태인 "wolf"로 나오게 함

벡터화 ( Vectorize ) 이란?

컴퓨터가 이해할 수 있도록 벡터로 만들어 주는 과정

▶ 등장 횟수 기반의 단어 표현 ( Count - Based Representation )

단어가 문서 ( 혹은 문장 ) 에 등장하는 횟수를 기반으로 벡터화하는 방법

→ Bag - of - Words ( CounterVectorizer ) ex) 고래밥 고르기

→ TF - IDF ( TfdVectorizer ) ex) 급식표

▶ 분포 기반의 단어 표현 ( Distributed Representation )

타겟 단어 주변에 있는 단어를 기반으로 벡터화 하는 방법

→ Word2Vec

→ GloVe

→ fastText

 

728x90
반응형