*해당 포스팅은 한국어 임베딩(이기창 지음)을 공부하며 작성한 글입니다. 이전 포스팅에서 컴퓨터에 자연어를 이해시키기 위해 임베딩을 통해 벡터값을 생성해야 한다는 것을 알아봤습니다. 오늘은 그렇다면 이 벡터값에 자연어의 의미를 함축시키는 방법에 대해 알아보도록 하겠습니다. 그 방법은 자연어의 통계적 패턴 정보를 통째로 임베딩에 넣는 것입니다. 임베딩을 만들 때 쓰는 통계 정보는 크게 세 가지가 존재합니다. 어떤 단어가 많이 쓰이는지, 단어가 어떤 순서로 등장하는지, 문장에 어떤 단어가 같이 나타났는지와 관련한 정보입니다. 이제 이 세가지 통계 정보를 토대로 임베딩을 만드는 방법들에 대해 알아보겠습니다. 1. 어떤 단어가 많이 쓰이는가 1-1. 백오브워즈 1-2. TF-IDF 1-3. Deep Averag..