Life/Today Issue

LLM (대형 언어 모델)이 넘어야 할 데이터 부족 문제

자발적노예 2024. 4. 9. 00:17

흔직 대딩의 오늘 알아볼 AI 이슈는요? 최근 OpenAI의 GPT-4, 구글의 제미나이 등 혁신적인 대형언어모델(LLM)이 연이어 출시되며 AI 기술의 비약적 발전을 실감케 했습니다. 하지만 이러한 대형 모델들의 성장 배경에는 '데이터 부족' 문제가 가로막고 있다는 지적이 나오고 있어요.

LLM 학습에 데이터가 왜 그렇게 중요할까요?

LLM은 엄청난 양의 데이터를 학습해야 높은 성능을 발휘하는데, 예를 들어 GPT-3는 570GB의 텍스트 데이터를 학습했고 GPT-4는 훨씬 더 많은 데이터를 사용한 것으로 추정됩니다. 데이터의 양과 질이 곧 모델 성능을 좌우하는 셈이죠.

구체적으로 어떤 데이터 문제가 있나요?

LLM의 데이터 수요가 기하급수적으로 늘어나는 반면, 현재 인터넷에서 구할 수 있는 고품질 텍스트 데이터에는 한계가 있다는 점입니다. 전문가들에 따르면 '친칠라 스케일링 법칙'에 의하면 GPT-5 급 모델은 60조100조 개의 토큰 데이터가 필요한데, 현재 사용 가능한 고품질 데이터는 10조20조 개 수준에 불과합니다.

어떤 해결책들이 모색되고 있을까요?

AI 기업들은 새로운 데이터 소스를 발굴하기 위해 유튜브, 레딧과 같은 비정형 데이터 활용을 시도하고 있으며, 웹 크롤링이나 데이터 구매 등 다양한 방식을 동원하고 있습니다. 또한 합성 데이터를 활용하는 방안도 모색 중이지만, 저품질 합성 데이터로 인해 '모델 붕괴' 위험도 상존하고 있습니다.

이외에도 커리큘럼 러닝, 데이터 증강 등 기계학습 기법을 활용해 학습 효율을 높이려는 노력도 병행되고 있습니다. 최근에는 MoE(Mixture of Experts) 등 새로운 모델 아키텍처를 도입해 모델의 성능 향상과 더불어 효율성, 유연성을 추구하는 사례도 늘고 있습니다. 범용 모델 대신 특정 영역에 특화된 도메인별 전문 모델 개발에도 주력하고 있는 상황입니다.

제 생각은...

OPENAI가 구글, 언론사, 작가 등등 여러 단체와 학습 데이터로 서로 싸울 때 어느정도 예견된 일이였던 것 같아요. 실제로 그 당시에 'GPT로 블로그 쓰기', 'GPT로 유튜브 만들기' 등등 지식이 기반이 되지 않는 무차별적인 정보들이 SERP를 덮고 있었거든요...

(물론... 모든 게시글들이 노출이 잘된건 아니긴 하죠...)

그럴수록 AI는 AI가 작성한 게시글을 학습하고 결국엔 자가 복제의 끝으로 가지 않을까란 생각이 들긴 합니다만!

이미 많은 과학자들이 이러한 이슈를 해결하기 위해 힘쓰고 있는 만큼 저는 개인적으로 앞으로도 더 성능좋고 고 퀄리티의 정보를 제공 하는 인공지능이 많이 나왔으면 합니다