한국어 NLP는 왜 어려울까?

한국어 NLP는 왜 어려울까?
Photo by shawnanggg / Unsplash

한국어 NLP는 왜 어려울까?

컴퓨터에게 사람의 말을 알아듣게 하는 것은 매우 어려운 일입니다. 그중에서도 한국어 NLP는 다른 언어들(Ex. 영어, 중국어)보다 훨씬 어려운 편에 속합니다. 그 이유에 대해서 알아봅니다.

1. 교착어

한국어는 교착어에 속합니다. 교착어란 어간에 접사가 붙어 단어를 이루고 의미와 문법적 기능이 정해지는 언어입니다.

예를 들어 나는 밥을 먹다. 라는 문장이 있습니다.
해당 문장에서 과거의 의미를 부여하고 싶을 때, 먹다라는 동사에 -었- 이라는 어미를 붙여 먹었다 라는 단어를 사용합니다.
즉 나는 밥을 먹었다. 라는 문장으로 과거 시제를 표현합니다.

이러한 특징은 하나의 어근에서 비슷한 의미의 수많은 단어가 매우 많이 생성 된다는 점이 있습니다.

아래 표는 좋아하다 라는 동사의 활용을 정리한 것입니다. 언뜻 보기에도 하나의 단어에서 수많은 단어가 파생된 것을 볼 수 있습니다. 이러한 점은 한국어 NLP에서 파싱, 전처리, 모델 학습 등을 어렵게 만듭니다.

교착어
한국어 교착어 예시

이미지 출처

2. 띄어쓰기

사실 한국어에서 띄어쓰기는 근대에서 도입된 개념입니다. 따라서 서구권 언어에 비해 한국어는 띄어쓰기의 표준이 계속 바뀌고, 비교적 자유분방하다는 특징이 있습니다. 또한 띄어쓰기에 따라 문장의 뜻이 달라지기도 합니다. 대표적인 예시로 아버지가방에들어가신다를 들 수 있습니다.

따라서 단어와 단어 사이 반드시 띄어쓰기를 하는 서구권 언어와 달리 한국어는 추가적으로 띄어쓰기를 정제해주는 과정이 필요합니다.

3. 평서문과 의문문

한국어는 평서문과 의문문의 구분이 모호한 경우가 많이 있습니다.
예를 들어 밥 먹었어? 와 밥 먹었어. 의 경우가 있습니다. 문장 부호가 붙지 않는다면 두 문장 의미의 차이를 알 수 없습니다.

사람이라면 주변 상황이나 말의 억양으로 판별할 수 있겠지만, AI의 경우에는 이를 처리하기가 쉽지 않습니다.

4. 주어 생략

한국어는 동사를 중요시하고 주어가 자주 생략된다는 특징이 있습니다. 위와 같은 예로 밥 먹었어 라는 문장의 경우 주어가 명시되어 있지 않습니다.
주어가 생략된 문장을 AI가 정확히 이해하기란 쉽지 않은 일입니다.

5. 한자 기반의 언어

한국어에는 한자의 조합으로 이루어지는 단어들이 많이 있습니다. 예를 들어 집중이라는 단어의 경우 모을 집(集)과 가운데 중(中)이라는 단어가 합쳐져 만들어집니다. 영어의 concentrate의 경우에도 서브워드들이 합쳐져 하나의 단어를 이루게 됩니다.

  • Concentrate: con(=together) + centr(=center) + ate(= make)
  • 집중(集中): 集(모을 집) + 中(가운데 중)

하지만 한글이 한자를 대체하면서 문제가 발생합니다. 표어 문자인 한자가 표음 문자인 한글로 대체되면서, 읽는 소리는 같을 지라도 형태와 그 뜻은 다른 단어들이 여럿 생겨났습니다.  의 경우에도 모을 집(集), 낳을 집(緝), 잡을 집(執) 등의 수 많은 한자 단어가 집이라는 한 글자로 대체되었습니다. 이는 정보의 손실 을 야기하게 됩니다. 사람이라면 문맥을 통해 정보의 손실을 해소할 수 있겠지만, AI의 경우에는 그렇지 못합니다.

6. 부족한 학습 데이터

안그래도 학습도 어려운 한국어인데, 다른 언어에 비해 한국어 데이터도 턱없이 부족합니다.

사이트에서 각 언어별 웹 데이터의 양을 비교한 자료를 살펴보면, 한국어가 다른 언어에 비해 데이터가 확실히 적은 것을 볼 수 있습니다.

image
턱없이 부족한 한국어 학습 데이터

또한 데이터의 개수가 적은 것과 동시에 한국어 데이터셋에 대한 연구와 개발도 부족한 실정입니다. 영어의 경우 SQuAD, GLUE 등 TASK에 따른 다양한 데이터셋에 대한 연구와 개발이 활발합니다. 최근 한국어도 정부나 기업 차원에서 모두의 말뭉치, KorQuAD 처럼 한국어 데이터셋을 개발 및 공개하고 있습니다. 지금부터라도 한국어도 좋은 데이터셋을 확보되었으면 하는 작은 바람이 있습니다 :)

7. 자유분방한 신조어

한국어 NLP ㄹㅇ 어케하는건데 ㅋㅋ

한국어는 다른 언어에 비해 신조어의 생성이 활발하고 자유로운 편입니다.
그만 알아보도록 합시다… 😥

Reference

Read more

[논문 리뷰] Learning Retrieval Augmentation for Personalized Dialogue Generation

[논문 리뷰] Learning Retrieval Augmentation for Personalized Dialogue Generation

이번 시간에는 Personalized dialogue generation을 RAG와 결합하여 시도한 "Learning Retrieval Augmentation for Personalized Dialogue Generation" 논문을 살펴봅니다. 특히 최근에 개인화된 AI가 주목 받고 있는데요, AI가 사용자의 페르소나, 정보, 성격 등을 반영한다면 더욱 풍성하고 도움이 되는 답변을 생성할 수 있습니다. 이를 Personalized dialogue generation이라고 하는데요. 연구팀은 어떻게 해당 문제를

By Yongwoo Song
[독서] 나는 왜 생각이 많을까?

[독서] 나는 왜 생각이 많을까?

✒️발상을 바꿔야 한다. 앞으로는 '불안해하지 말아야지'가 아니라 '불안과 더불어 살아가야지'라고 생각하자.나는 왜 생각이 많을까? | 홋타 슈고 | 서사원- 교보ebook머릿속의 스위치를 끄고 싶을 때 보는 뇌과학 이야기, 심플한 사고법은 아무나 가질 수 없다! 그러나 누구나 해 볼 수 있다! 짧게 생각하고 빠르게 행동하기 위한 필독서!

By Yongwoo Song
[독서] 자기 경영 노트 - 피터 드러커

[독서] 자기 경영 노트 - 피터 드러커

✒️성과를 올리는 모든 사람들은 목표를 달성하기 위한 실행 능력을 갖추고 있다. 이 실행 능력은 기업에서 일하든, 정부기관에서 일하든, 병원의 관리자이든, 대학의 학장이든 똑같다.피터 드러커 자기경영노트 | 피터 드러커 | 한국경제신문- 교보ebook어떻게 ‘성과를 내는 경영 리더’가 되는가 지식작업자를 위한 변화와 혁신의 5가지 법칙! 이 책의 주제는 성과를 내는 능력을 향상시키기 위한

By Yongwoo Song