728x90
반응형
원-핫 표현 (one-hot representation)
원 핫 표현은 0벡터에서 시작해 주어진 문장에 대해서 등장하는 단어가 있으면 값을 1로 설정하는 것.
다음의 문장들을 예시로 들겠습니다.
Time flies like an arrow.
Fruit flies like a banana.
위의 문장을 토큰(token)으로 나누고 모두 소문자로 바꾸면 다음과 같이 나타낼 수 있습니다.
{ time, fruit, flies, like, a, an, arrow, banana }
이처럼 각 단어를 원-핫 벡터로 표현할 수 있고 다음과 같이 나타낼 수 있습니다.
TF 표현
TF 표현은 단순히 원-핫 표현을 합해 만듭니다.
앞의 문장을 예시로 들어 'Fruit flies like time flies a fruit'의 TF 표현은 [1, 2, 2, 1, 1, 0, 0, 0] 이 됩니다.
각 원소는 해당 단어가 말뭉치에 등장하는 횟수입니다.
표기법 : TF\( (w) \)
TF-IDF 표현
IDF(Inverse Document Frequency) = 역문서빈도
TF는 등장 횟수에 비례해서 단어에 가중치를 부여하지만
IDF는 벡터 표현에서 자주 등장하는 토큰의 점수를 낮추고 드문 토큰의 점수를 높입니다.
표현식은 다음과 같습니다.
IDF(\( w \)) = \( \log\dfrac{N}{n_{w}}\)
\( n_{w} \)는 단어 \( w \)를 포함한 문서의 개수이고 \( N \)은 전체 문서 개수입니다.
TF-IDF 점수는 TF와 IDF를 곱한 TF\( (w)\)*IDF\( (w) \) 입니다.
728x90
반응형
댓글