머신러닝 & 딥러닝/자연어처리 33 [자연어 처리/NLP기초] 2. 단어 이해시키기(1) - 시소러스와 WordNet 자연어 처리란 https://seokii.tistory.com/77 [자연어 처리/NLP기초] 1. 자연어 처리란? 자연어 처리를 공부하면서 기초적인 내용을 정리하고자 글을 쓰게 되었습니다. '밑바닥부터 시작하는 딥러닝2' 교재를 공부하고 내용을 정리하도록 하겠습니다. 자연어 처리 기초 용어 https://seo seokii.tistory.com 지난 글에서 자연어 처리란 무엇인지에 대해 간단하게 정리를 했습니다. 이번 글에서는 컴퓨터에게 단어를 어떻게 이해시키는지에 대해서, 그중에서도 시소러스 방식과 WordNet에 대해서 정리해보겠습니다. 시소러스(thesaurus) 구글에 시소러스를 검색하면 다음과 같이 정의하고 있습니다. 1. 단어를 의미에 따라 분류/배열한 일종의 유의어 사전 2. 컴퓨터 등의 .. 머신러닝 & 딥러닝/자연어처리 2022. 2. 19. [자연어 처리/NLP기초] 1. 자연어 처리란? 자연어 처리를 공부하면서 기초적인 내용을 정리하고자 글을 쓰게 되었습니다. '밑바닥부터 시작하는 딥러닝2' 교재를 공부하고 내용을 정리하도록 하겠습니다. 자연어 처리 기초 용어 https://seokii.tistory.com/27 자연어처리(NLP)에 쓰이는 13가지 기초 용어 알아보기 자연어처리(NLP)에서 쓰이는 기초 용어들을 정리했습니다. 자연어 공부를 시작하면서 기초적인 용어부터 공부하고 있습니다. 기초 용어만 잘 숙지해도 앞으로의 공부 내용에 이해가 잘 될 것 같 seokii.tistory.com 자연어 처리란? 우리가 평소에 쓰는 말(한국어, 영어 등)을 자연어(Natural Language)라고 합니다. 따라서 자연어 처리(Natural Language Processing)를 그대로 해석한다.. 머신러닝 & 딥러닝/자연어처리 2022. 2. 14. NLP 기초 - KoNLPy를 활용한 한국어 형태소 토크나이징(Komoran, Kkma, Okt) 토크나이징(tokenizing) 일반적으로, 자연어 처리를 하기 위해서는 문장을 일정 의미를 지닌 작은 단어들로 나누어야 합니다. 가장 기본이 되는 단어를 토큰(token)이라 합니다. 말뭉치(혹은 문장)가 주어졌을 때, 이러한 토큰 단위로 나누는 작업을 토크나이징(tokenizing)이라고 합니다. 주로 텍스트 전처리 과정에서 사용되고, 이 과정에 따라 성능 차이가 날 수 있습니다. 한국어 토크나이징? 띄어쓰기와 단어의 변화가 적은 영어와 달리, 한국어는 문법적으로 복잡하고 한국어 토크나이징을 구현하기 위해서는 한국어 문법에 대해 깊이 있는 이해력이 필요합니다. 하지만, 이 기능을 지원하는 라이브러리가 존재하며 이를 사용해 한국어를 토크나이징 해보도록 하겠습니다. 형태소를 토큰 단위로 쓰며, 형태소는 .. 머신러닝 & 딥러닝/자연어처리 2021. 12. 3. 자연어처리(NLP)에 쓰이는 13가지 기초 용어 알아보기 자연어처리(NLP)에서 쓰이는 기초 용어들을 정리했습니다. 자연어 공부를 시작하면서 기초적인 용어부터 공부하고 있습니다. 기초 용어만 잘 숙지해도 앞으로의 공부 내용에 이해가 잘 될 것 같아 정리했습니다. 자연어처리(NLP) 기초 용어 1. 말뭉치(Corpus) : NLP작업에서 의미하는 텍스트 데이터 일반적으로 원시 텍스트와 연관된 메타데이터를 포함 2. 토큰(token) : 문법적으로 더이상 나눌수 없는 요소를 토큰이라 함 3. 토큰화(tokenization) : 토큰화는 주어진 말뭉치(텍스트)에서 토큰 단위로 나누는 작업을 의미함 4. 메타데이터(metadata) : 식별자, 레이블, 타임스탬프 등 텍스트와 관련된 어떤 부가 정보도 메타데이터가 될 수 있음. 메타데이터가 붙은 텍스트를 샘플(samp.. 머신러닝 & 딥러닝/자연어처리 2021. 11. 29. 파이토치 기초 텐서(Tensor) 인덱싱, 슬라이싱, 합치기(연결) - torch.index_select(), cat(), stack() 이번에는 텐서(Tensor) 인덱싱, 슬라이싱, 합치기를 알아보겠습니다. 주피터 노트북으로 실습하기 In [1] : import torch def describe(x): print("타입: {}".format(x.type())) print("크기: {}".format(x.shape)) print("값: \n{}".format(x)) - 라이브러리를 불러옵니다. - 결과 확인을 위한 간단한 함수를 정의합니다. In [2] : x = torch.arange(9).view(3,3) describe(x) - 실습을 위해서 .arange() 함수와 .view()함수를 사용해 3*3 텐서를 만듭니다. In [3] : describe(x[:2, :3]) In [4] : describe(x[1, 2]) - x[:2, .. 머신러닝 & 딥러닝/자연어처리 2021. 11. 28. 파이토치 기초 텐서(Tensor) 연산 및 유용한 함수 - torch.add(), arange(), view(), sum(), transpose() 저번 글(텐서 타입)에 이어서 기본적인 연산에 대한 공부입니다. 주피터 노트북으로 실습 In [1] : import torch def describe(x): print("타입: {}".format(x.type())) print("크기: {}".format(x.shape)) print("값: \n{}".format(x)) - 라이브러리를 불러온 후, 설명을 위한 간단한 함수를 정의합니다. In [2] : x = torch.randn(2,3) describe(x) - 실습을 진행하기 위해서 텐서 생성합니다. In [3] : describe(torch.add(x, x)) - torch.add() 함수를 사용해 연산 수행합니다. - torch.add(), torch.sub() 등 다양한 함수가 존재합니다. In.. 머신러닝 & 딥러닝/자연어처리 2021. 11. 27. 파이토치 기초 텐서(Tensor) 타입 - float, long, double 지난 글에 이어서 텐서의 타입에 대해서 알아보겠습니다. 텐서 타입과 크기 텐서에는 타입과 크기가 있습니다. torch.Tensor()의 기본 텐서 타입은 torch.FloatTensor입니다. 텐서 타입은 초기화할 때 지정하거나 나중에 다른 타입(float, long, double 등)으로 바꿀 수 있습니다. 처음 초기화 할 때의 타입 지정엔 두 가지 방법이 있습니다. 1. FloatTensor, LongTensor 같은 특정 텐서 타입의 생성자를 직접 호출한다. 2. torch.tensor()와 함께 dtype 매개변수를 사용한다. 주피터 노트북으로 실습 In [1] : import torch def describe(x): print("타입: {}".format(x.type())) print("크기: .. 머신러닝 & 딥러닝/자연어처리 2021. 11. 27. 파이토치 기초 텐서(Tensor) 다루기 - torch.Tensor(), rand(), randn(), zeros(), ones(), fill_(), from_numpy() 파이토치를 활용한 자연어 처리를 기본서부터 공부하고 있습니다 기본서에서 파이토치를 사용해 텐서를 만드는 기초부분을 공부했습니다. 주피터 노트북으로 실습 In [1] : import torch def describe(x): print("타입: {}".format(x.type())) print("크기: {}".format(x.shape)) print("값: \n{}".format(x)) - 파이토치를 불러오고, 텐서를 생성했을 때 확인하기 위한 간단한 함수입니다. In [2] : describe(torch.Tensor(2,3)) - torch.Tensor()를 사용해 차원을 지정하여 텐서를 랜덤하게 초기화 할 수 있습니다. In [3] : describe(torch.rand(2,3)) describe(tor.. 머신러닝 & 딥러닝/자연어처리 2021. 11. 27. 이전 1 2 3 4 5 다음