머신러닝 & 딥러닝/자연어처리

자연어처리(NLP)에 쓰이는 13가지 기초 용어 알아보기

by seokii 2021. 11. 29.
728x90
반응형

자연어처리(NLP)에서 쓰이는 기초 용어들을 정리했습니다.

자연어 공부를 시작하면서 기초적인 용어부터 공부하고 있습니다.

기초 용어만 잘 숙지해도 앞으로의 공부 내용에 이해가 잘 될 것 같아 정리했습니다.

 

자연어처리(NLP) 기초 용어

 

1. 말뭉치(Corpus) : NLP작업에서 의미하는 텍스트 데이터

                         일반적으로 원시 텍스트와 연관된 메타데이터를 포함

 

2. 토큰(token) : 문법적으로 더이상 나눌수 없는 요소를 토큰이라 함

 

3. 토큰화(tokenization) : 토큰화는 주어진 말뭉치(텍스트)에서 토큰 단위로 나누는 작업을 의미함

 

4. 메타데이터(metadata) : 식별자, 레이블, 타임스탬프 등 텍스트와 관련된 어떤 부가 정보도 메타데이터가 될 수 있음. 메타데이터가 붙은 텍스트를 샘플(sample) 혹은 데이터 포인트(data point)라고 함

 

5. 특성공학(feature engineering) : 특성 공학은 언어학을 이해하고 NLP 문제 해결에 적용하는 과정을 의미

 

6. n-그램(n-gram) : n-그램은 텍스트에 있는 고정 길이(n)의 연속된 토큰 시퀀스를 의미

 

7. 유니그램 : 유니그램은 위의 n-그램에서 토큰 한 개로 이루어짐

 

8. 바이그램 : 바이그램은 위의 n-그램에서 토큰 두 개로 이루어짐

 

9. 표제어(lemma) : 표제어는 단어의 기본형을 의미

                        예) flow, flew, flies, flown, flowing ... -> fly (표제어)

 

10. 표제어 추출(lemmatization) : 토큰을 표제어로 바꾸어 벡터 표현의 차원을 줄이는 방법

 

11. 청크(chunk) : 하나의 의미가 있는 말 덩어리

 

12. 청크 나누기(chunking) : 특정 청크 단위로 묶는 방법

 

13. 개체명(named entity) : 개체명은 사람, 장소, 회사, 약 이름과 같은 실제 세상의 개념을 의미하는 문자열

 

자연어 처리를 공부하며 정리한 글

https://seokii.tistory.com/77

 

[자연어 처리/NLP기초] 1. 자연어 처리란?

자연어 처리를 공부하면서 기초적인 내용을 정리하고자 글을 쓰게 되었습니다. '밑바닥부터 시작하는 딥러닝2' 교재를 공부하고 내용을 정리하도록 하겠습니다. 자연어 처리 기초 용어 https://seo

seokii.tistory.com

 

728x90
반응형

댓글