머신러닝 & 딥러닝/자연어처리

[자연어 처리/NLP기초] 4. 단어의 분산 표현과 분포 가설

by seokii 2022. 2. 21.
728x90
반응형

말뭉치와 말뭉치 전처리하기

https://seokii.tistory.com/91

 

[자연어 처리/NLP기초] 3. 말뭉치와 말뭉치 전처리하기

시소러스와 WordNet https://seokii.tistory.com/89?category=1037863 [자연어 처리/NLP기초] 2. 단어 이해시키기(1) - 시소러스와 WordNet 자연어 처리란 https://seokii.tistory.com/77 [자연어 처리/NLP기초] 1..

seokii.tistory.com

지난 글에서 말뭉치가 무엇이고 말뭉치를 전처리하는 법을 정리했습니다.

이번 글에서는 단어의 분산 표현과 분포 가설에 대해서 정리하겠습니다.

 

단어의 분산 표현

단어의 분산 표현이란 단어를 고정 길이의 밀집벡터로 표현한 것을 의미합니다.

밀집벡터라는 것은 대부분의 원소가 0이 아닌 실수인 벡터를 말합니다. ex) [0.17, -0.75, 0.46]

 

우리가 흔히 알고 있는 벡터의 사용은 RGB가 있습니다.

(R, G, B) = (0~255, 0~255, 0~255)의 형태로 사용하는 RGB는 이러한 형태를 사용함으로써 모든 색을 3개의 성분으로 간결하게 표현할 수 있고, 색끼리의 연관성을 잘 표현합니다.

 

단어의 분산 표현을 어떻게 구축할 것인가를 잘 생각해보는 것이 좋습니다.

 

분포 가설

문맥의 의미를 이용해 단어를 벡터로 표현하고자 하는 것이 분포 가설입니다.

분포 가설은 '단어의 의미는 주변 단어에 의해 형성된다'는 아이디어를 가지고 단어의 관계를 파악하고자 합니다.

위의 그림처럼, 'you say goodbye and i say hello .'와 같은 문장이 있습니다.

위의 그림은 윈도우 크기가 1인 '문맥(혹은 맥락)'의 예라고 할 수 있습니다.

윈도우 크기라는 것은 맥락의 크기를 의미합니다. (주변 단어를 몇 개나 포함할지)

이러한 분포 가설에 기초해 단어를 벡터로 나타낼 수 있는데,

통계 기반 기법인 '동시발생 행렬'이 있습니다.

이어지는 글에서 통계 기반 기법인 동시발생 행렬에 대해서 정리하겠습니다.

 

 

728x90
반응형

댓글