IT트렌드 알아보기 - LLM(Large Language Model)이란 무엇인가?

 전 세계적으로 생성형 AI(Generative AI) 붐이 일어나면서, 최근에는 어느 산업을 가리지 않고 AI가 트렌드가 되었으며 밀접한 실생활에서도 ChatGPT, Bard, BingChat, 하이퍼클로바 등등 다양한 AI를 활용하는 시대가 되었습니다.
 

 과거 딱딱하고 정해진 답변만을 하던 챗봇들이 사람과 비슷한 메시지들을 만들어 내는 것에 놀라웠던 게 불과 몇 달 되지 않았는데, 이것을 기반으로 한 다양한 AI서비스들도 하나둘 상용화되고 있습니다. 또한 주요 IT 기업들 뿐만 아니라 업종별 메가 기업들은 저마다의 LLM을 만들겠다며 나서고 있는 지금의 상황들이 너무나도 빠르게 느껴지는데요.

 과연 이 모든 것들을 가능하게 한 LLM은 무엇일까요?

IT트렌드 알아보기, LLM(Large Language Model)이란 무엇인가?
IT트렌드 알아보기, LLM(Large Language Model)이란 무엇인가?


1. LLM(Large Language Model)의 개념

 LLM(거대 언어 모델, Large Language Model)이란, 거대한 데이터 셋을 사용해서 훈련된 대용량의 언어 모델을 의미합니다. 딥러닝 알고리즘과 통계 모델링을 사용해서 자연어를 처리(NLP, Natural Language Processing)하는 용도로 활용되는데요. 사전에 대규모의 언어 데이터를 학습해서 문장의 구조나 문법, 의미들을 이해하고 이를 활용해 사람이 말하는 것과 유사하게 자연어를 생성할 수 있게 합니다.

LLM은 자연어 처리를 위해 거대한 데이터 셋을 사용해서 훈련된 대용량의 언어모델
LLM은 자연어 처리를 위해 거대한 데이터 셋을 사용해서 훈련된 대용량의 언어모델 (이미지  출처 : BUREAU Works)

 우리에게 익숙한 GPT(Generative Pre-trained Transformer)도 하나의 LLM이며, 구글의 LaMDA, 메타의 LLaMA, 삼성의 가우스 등도 LLM의 한 종류라고 할 수 있습니다. 

 이러한 LLM(거대 언어 모델)들은 수천억 개에 달하는 파라미터(Parameter)를 가지고 있으며, 학습된 데이터를 기반으로 문맥을 이해하고 단어 간에 연관성 또는 패턴을 식별하여 문장을 생성할 수 있는 모델을 제공하는 것입니다.

1-1) NLP와 LLM의 차이

 NLP와 LLM을 혼동하시는 경우도 있습니다. 두 용어 모두 AI와 관련된 개념으로 서로 연관성이 있기는 하지만 다른 개념입니다. NLP(Natural Language Processing)은 인간의 언어를 이해하고 처리하는데 초점을 맞추고 컴퓨터가 자연어를 이해하고 분석하는 기술을 의미합니다. 하지만 LLM(Large Language Model)은 자연어 처리 및 특정 NLP 작업을 수행하기 위한 대용량의 언어 모델을 의미합니다.

 정리해 보자면, NLP는 자연어를 처리하는 전반적인 분야를 모두 포함하는 개념이며, LLM은 NLP의 한 부분이라고 이해할 수 있겠습니다.

 예를 들어 AI챗봇이 NLP라고 한다면, 세분화되어서 금융챗봇에 활용되는 금융 LLM, 마케팅에 활용되는 마케팅 LLM 등 목적에 따른 언어모델이 존재하는 것입니다.

반응형

2. LLM의 발전과정

 자연어를 처리하는 기술을 개발하는 과정에서 언어모델에 대한 연구도 점차 발전하게 되었습니다. 언어모델의 개발단계를 구분하자면 SLM → NLM → PLM → LLM의 단계로 구분할 수 있습니다.

  • SLM(Small Language Model) : 제한된 양의 텍스트 데이터를 학습하여, 국소적인 문맥 이해에 초점을 둠. 작은 규모이기 때문에 가볍고 빠르게 실행가능한 특성을 가진다.
  • NLM(Neural Language Model) : 단어 임베딩, 문장 완성, 기계 번역 등의 NLP작업에 활용되는 언어모델로, 기존의 통계 기반 언어 모델보다 더 정확한 성능을 제공하는 것으로 알려져 있습니다.
  • PLM(Pretrained Language Model) : 대규모 데이터 셋으로 미리 학습된(Pre-trained) 언어모델로, 전이학습(Transfer Learning)을 통해 다양한 NLP 작업에 활용됩니다. BERT와 GPT와 같은 주요 모델들이 이 PLM에 해당한다고 할 수 있습니다.

PLM의 데이터 셋 규모가 점차 증가한 것을 대형 PLM이라고 칭하다가, '대규모 언어모델(LLM)'이라는 용어로 사용하는 것이 지금의 LLM입니다.

또한 최근에는 개별 기업뿐만 아니라 개인들이 자신만의 LLM을 구축할 수 있도록 지원하는 프레임워크나 파운데이션 모델들이 많이 활용되는 추세라고 할 수 있습니다.

 이러한  전체적인 발전과정을 표현한 그림을 소개드립니다. 

012
거대언어모델의 과거, 현재와 미래 트렌드  (국가미래연구원 자료 참조)

 오늘날의 ChatGPT와 같은 거대 언어모델이 탄생하기까지 역사적으로 중요한 이벤트들이 몇 가지 있습니다. 아래의 내용들은 참고로 알아두시면 도움이 될 것 같습니다.

  • Eliza (Joseph Weizenbaum, 1960's) : 패턴 인식을 사용하여 사용자의 입력을 질문으로 변환하고, 미리 정의된 규칙 집합을 기반으로 응답을 생성
  • LSTM(1997) : 더 깊고 복잡한 신경망의 생성을 통해 더 많은 양의 데이터를 처리
  • CoreNLP(2010) : 감정 분석 및 명명된 NTT 인식 등의 복잡한 NLP 작업이 가능한 도구 및 알고리즘 세트
  • Google Brain(2011) : NLP 시스템이 단어의 맥락을 더 잘 이해할 수 있도록 지원
  • Transformer(2017) : 더 크고 정교한 LLM 모델을 만들 수 있게 되었으며, AI 기반 애플리케이션의 기반이 된 GPT-3의 전신이 됨

3. LLM의 원리

 LLM은 인간의 두뇌가 학습하는 방식을 모방하여 학습을 진행하는데, 이 과정에서 딥러닝의 원리가 활용됩니다. 

 학습되는 문장 속에서 단어와 구문들을 인식하고, 이를 연관시켜가며 언어적 의미와 문맥 등을 파악하는 방식입니다. 
이후에는 입력된 문장의 단어들을 바탕으로 빈도수나 문법적 특성을 고려하여 다음에 올 단어를 예측하는 방식으로 작동하게 됩니다.

 마치 자동완성 기능과도 유사한 방식인데요, LLM은 가장 자연스러운 단어 시퀀스를 찾아내는 모델이기 때문에 다음 단어뿐 아니라 단어와 단어를 연결하는 부분까지도 예측해서 작성할 수 있어 사람이 입력한 것과 같은 자연스러운 문장을 생성하고는 합니다.

LLM의 원리는 입력받은 단어와의 상관관계에 따라 뒤에 오는 단어를 추론하여 자연스러운 문장을 생성한다.
LLM의 원리 이미지(출처 : 이지스토리, 원본출처 : 인공지능N블로그)

 


4. LLM의 중요성

  IT기술이 발전하면서 사람들을 도와주는 다양한 애플리케이션, 서비스들이 개발되어 왔습니다. 시스템이나 자동화 Tool들은 사전에 작동 로직을 설정해주어야 했고 챗봇의 경우에도 미리 세팅된 문의응답에 대해서만 지원이 가능한 한계들이 발생했습니다. 그렇기 때문에 사람과 커뮤니케이션이 가능한 AI기술의 필요성이 점차 증가해 왔고, 그것을 목적으로 NLP기술에 다양한 시도들이 있었습니다.

 그 결과 LLM을 기반으로 한 생성형 AI서비스가 등장하면서 센세이션을 일으키게 되었고, 실생활뿐만 아니라 다양한 비즈니스 영역에 그 활용될 수 있는 잠재력을 보이면서 수요가 폭증하고 있습니다.

 LLM은 인간과 같은 텍스트를 이해하고 분석/합성할 수 있는 기능을 제공하기 때문에 대화를 기반으로 하는 AI서비스나 애플리케이션을 개발하는데 근간이 되고 있습니다. 또한 대화를 기반으로 하는 특성 때문에 사용자가 손쉽게 서비스를 접하고 활용할 수 있기 때문에 광범위한 분야에서 응용될 수 있어 그 중요도가 높다고 할 수 있습니다.


 이처럼 최근 중요도가 높아지고 있는 LLM 역시 완벽한 것은 아니며, 해결해야 하는 이슈들도 많이 존재하고 있습니다.
 

 단순히 LLM의 특성으로 발생하는 단점들은(학습 데이터의 의존하는 데이터 종속성으로 인해, 최신 정보에 대한 반영이 늦다는 점과, 대용량의 데이터를 처리하는 특성으로 컴퓨터 리소스를 많이 사용해 운영 비용이 높다) 기술의 발전에 따라 해결될 수 있는 문제들입니다.

 하지만 가장 중요한 것은 사회적 영향과 윤리적 문제에 대한 논의가 충분히 되어야 할 것으로 생각됩니다. 사람과 같이 대화를 이해하고 커뮤니케이션이 가능하도록 하는 기반이 되는 LLM의 발전에 따라서 우리의 일상에도 큰 변화가 생길 것이라고 예측하는 것이 너무나도 당연한 일인 것 같습니다.

참고자료
1) 대규모 언어 모델(LLM)이란? - CLOUDFLARE
2) AI 활용 확대로 광폭 성장하는 '대규모 언어 모델 LLM' - GTT Korea(2023.09)
3) 대형 언어 모델(Large Language Models, LLM)이란 무엇인가요? - BUREAU Works
4) 초거대 언어모델(LLM)과 인간의 두뇌: 딥러닝과 인간의 뇌 그리고 튜링테스트 - Superb AI(2023.08)
5) 거대언어 모델은 어디로 가는가? - 국가미래연구원(2023.03)
6) [IT KEYWORD] ChatGPT이란? - 이지미디어(2023.04)

 

반응형