자연어처리 (NLP) 2

벡터값인 임베딩에 어떻게 의미를 함축시킬 수 있을까?

*해당 포스팅은 한국어 임베딩(이기창 지음)을 공부하며 작성한 글입니다. 이전 포스팅에서 컴퓨터에 자연어를 이해시키기 위해 임베딩을 통해 벡터값을 생성해야 한다는 것을 알아봤습니다. 오늘은 그렇다면 이 벡터값에 자연어의 의미를 함축시키는 방법에 대해 알아보도록 하겠습니다. 그 방법은 자연어의 통계적 패턴 정보를 통째로 임베딩에 넣는 것입니다. 임베딩을 만들 때 쓰는 통계 정보는 크게 세 가지가 존재합니다. 어떤 단어가 많이 쓰이는지, 단어가 어떤 순서로 등장하는지, 문장에 어떤 단어가 같이 나타났는지와 관련한 정보입니다. 이제 이 세가지 통계 정보를 토대로 임베딩을 만드는 방법들에 대해 알아보겠습니다. 1. 어떤 단어가 많이 쓰이는가 1-1. 백오브워즈 1-2. TF-IDF 1-3. Deep Averag..

임베딩(Embedding)이 뭐지?

*해당 포스팅은 한국어 임베딩(이기창 지음)을 공부하며 작성한 글입니다. 안녕하세요! 오늘은 자연어 처리 분야의 임베딩의 기초적인 부분에 대해 알아보겠습니다. 임베딩을 공부하게 된 계기는 "우리가 일상생활에서 쓰는 자연어를 어떻게 컴퓨터가 이해할 수 있는지 궁금해서" 입니다. 한국어 임베딩(이기창 지음)이라는 책으로 임베딩 공부를 시작하게 되었고 앞으로 열심히 공부해서 임베딩에 대해 자세히 알아보겠습니다 : ) 1. 임베딩이란? 2. 임베딩의 역할 2-1. 단어/문장 간 관련도 계산 2-2. 의미적/문법적 정보 함축 2-3. 전이 학습 1. 임베딩이란? 임베딩이란 위와 같이 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 과정 전체를 의미합니다. 임베딩의 가장 간단한..