자연어처리(NLP)에서 쓰이는 기초 용어들을 정리했습니다.
자연어 공부를 시작하면서 기초적인 용어부터 공부하고 있습니다.
기초 용어만 잘 숙지해도 앞으로의 공부 내용에 이해가 잘 될 것 같아 정리했습니다.
자연어처리(NLP) 기초 용어
1. 말뭉치(Corpus) : NLP작업에서 의미하는 텍스트 데이터
일반적으로 원시 텍스트와 연관된 메타데이터를 포함
2. 토큰(token) : 문법적으로 더이상 나눌수 없는 요소를 토큰이라 함
3. 토큰화(tokenization) : 토큰화는 주어진 말뭉치(텍스트)에서 토큰 단위로 나누는 작업을 의미함
4. 메타데이터(metadata) : 식별자, 레이블, 타임스탬프 등 텍스트와 관련된 어떤 부가 정보도 메타데이터가 될 수 있음. 메타데이터가 붙은 텍스트를 샘플(sample) 혹은 데이터 포인트(data point)라고 함
5. 특성공학(feature engineering) : 특성 공학은 언어학을 이해하고 NLP 문제 해결에 적용하는 과정을 의미
6. n-그램(n-gram) : n-그램은 텍스트에 있는 고정 길이(n)의 연속된 토큰 시퀀스를 의미
7. 유니그램 : 유니그램은 위의 n-그램에서 토큰 한 개로 이루어짐
8. 바이그램 : 바이그램은 위의 n-그램에서 토큰 두 개로 이루어짐
9. 표제어(lemma) : 표제어는 단어의 기본형을 의미
예) flow, flew, flies, flown, flowing ... -> fly (표제어)
10. 표제어 추출(lemmatization) : 토큰을 표제어로 바꾸어 벡터 표현의 차원을 줄이는 방법
11. 청크(chunk) : 하나의 의미가 있는 말 덩어리
12. 청크 나누기(chunking) : 특정 청크 단위로 묶는 방법
13. 개체명(named entity) : 개체명은 사람, 장소, 회사, 약 이름과 같은 실제 세상의 개념을 의미하는 문자열
자연어 처리를 공부하며 정리한 글
'머신러닝 & 딥러닝 > 자연어처리' 카테고리의 다른 글
[자연어 처리/NLP기초] 1. 자연어 처리란? (0) | 2022.02.14 |
---|---|
NLP 기초 - KoNLPy를 활용한 한국어 형태소 토크나이징(Komoran, Kkma, Okt) (0) | 2021.12.03 |
파이토치 기초 텐서(Tensor) 인덱싱, 슬라이싱, 합치기(연결) - torch.index_select(), cat(), stack() (0) | 2021.11.28 |
파이토치 기초 텐서(Tensor) 연산 및 유용한 함수 - torch.add(), arange(), view(), sum(), transpose() (0) | 2021.11.27 |
파이토치 기초 텐서(Tensor) 타입 - float, long, double (0) | 2021.11.27 |
댓글