스캐터랩이 베슬에이아이를 이용해 LLM을 더 빠르고, 60% 더 저렴하게 파인튜닝한 방법

8 min readNov 15, 2023

스캐터랩의 LLM ‘핑퐁’을 지탱하는 LLMOps

스캐터랩은 AI 채팅 메신저 앱 ‘이루다’로 한국어 챗봇 분야에서 독보적인 AI 스타트업입니다. 2021년에는 이루다를 처음 선보인 스캐터랩은 올해 대형언어모델이 적용된 똑똑한 챗봇을 출시하며 누적 다운로드 200만 회 이상, 대화 메시지 9억 건, 유저 당 평균 하루 메시지 64건을 달성하였습니다. 이는 카카오톡과 같은 국내 대표적인 메신저 앱의 대화량과 비교해도 높은 수치입니다.

이와 같은 성공을 바탕으로 최근 스캐터랩은 ‘이루다’ 서비스를 넘어 기업을 대상으로 생성형 AI 컨설팅 및 운영 서비스를 제공하는 LLM 스타트업으로 사업 영역을 확장해나가고 있습니다. AI 캐릭터 제작에 필요한 대화 데이터 제작과 모델 학습, 테스트를 한 곳에서 지원하는 ‘핑퐁 스튜디오’가 그 예시입니다.

베슬에이아이는 스캐터랩이 이 과정에서 보다 빠르게 여러 LLM을 테스트 해보고, 파인튜닝을 거쳐 고객사에 특화된 챗봇을 개발할 수 있도록 LLMOps 인프라를 제공하였습니다.

스캐터랩이 직접 sLLM을 개발한 이유 — 모델 성능, 데이터 보안, 운영 비용

최근 Llama 2, Mistral 7B와 같은 최신 오픈 소스 대형언어모델이 등장하며, 많은 기업들이 자사 고유의 데이터를 활용해 특정 사용자와 산업에 특화된 맞춤형 LLM을 구축하는 데 큰 관심을 보이고 있습니다. 이에 따라, OpenAI의 GPT-3.5, GPT-4 API에 의존하지 않고 직접 오픈소스 모델을 학습, 파인튜닝 하는 방법이 주목받고 있습니다.

스캐터랩은 정보 전달력에 뛰어난 ChatGPT와 달리, 사용자와 감정을 공유하고 자연스럽게 대화하는 AI를 개발하기 위해 sLLM을 직접 개발하였고, 두가지 차별점을 두었습니다.

Multi-modality — 텍스트에 더해 이미지와 영상 등 다양한 컨텐츠를 이해, 입력할 수 있는 기능
Proactivity — 챗봇이 사용자에게 먼저 말을 걸어 주도적으로 대화를 이끌어 내는 기능

실제로 이루다와 대화를 해보면 ChatGPT 처럼 가장 빠르게 논리상 결과 값을 표출하는 게 아니라 정말 친구 처럼 ‘읽씹’하거나 몇 분 후 이모티콘, 인터넷 용어들이 섞인 답이 오는 등 상황 맥락과 이용자의 눈치까지 살펴 대화를 주도하는 것을 느낄 수 있는데요.

스캐터랩은 모델 성능, 즉 LLM의 ‘감수성’ 외에도 완벽한 개인정보 보호와 보안과 서비스 운영 비용 절감에 초점을 두고 오픈소스 모델을 처음부터 학습 하였고(train from scratch), 이후 모델을 더 정교하게 파인튜닝 하기 위해 베슬에이아이를 도입하였습니다.

데이터 보안 — 스캐터랩은 개인정보 및 데이터 외부 유출을 기술적으로 완전 차단하고자 노력하였습니다. 이 또한 OpenAI GPT API에 의존하지 않고 베슬에이아이의 Private 클라우드를 이용해 스캐터랩만의 “Private sLLM”을 이용해 개발한 가장 큰 이유 중 하나입니다.
운영 비용 — (1) 대화 하나에 필요한 토큰 수 평균 2,000~3,000개, (2) 누적 대화량이 9억 건, (3) GPT-3.5 Turbo의 경우 토큰당 비용이 대화 페어 당 $0.003이라는 점을 모두 감안하면 대화 한 쌍 추론에 필요한 유지 비용은 모델 운용에만 수십억원이 이르게 되는데요. 스캐터랩은 자체 모델 개발을 통해 이와 같은 인퍼런스 비용을 절감하고, 베슬에이아이 도입을 통해 모델 파인튜닝에 필요한 GPU 비용까지 40% 낮출 수 있었습니다.

스캐터랩이 sLLM을 파인튜닝하며 마주한 문제들

LLM 프로젝트 시작 3개월만에 여러 파라미터 크기의 Pingpong-1 sLLM을 개발한 스캐터랩 팀은 (1) SFT(Supervised fine-tuning)과 (2) RLHF(Reinforcement learning from human feedback)을 걸쳐 “날것”과 같은 Pingpong-1에 감정을 불어 넣는 파인튜닝을 시작했습니다. 그러나 이 과정에서 많은 어려움이 있었습니다.

GPU 수급 문제 — GPU에 대한 수요가 급증함에 따라 원하는 GPU를 구하는 것이 점점 어려워졌습니다. 특히 한국 리전에서 AWS, GCP, Azure 3사의 경우 A100을 수개월 내 수급하는 것이 불가능했고, 이로 인해 국내외 다양한 공급처의 여러 리전을 물색해야 했습니다.
막대한 파인튜닝 비용 — GPU를 수급한 이후에는 이를 보다 효과적으로 사용할 방법이 필요했습니다. Llama2–7B와 같은 LLM 파인튜닝에 필수적인 A100 80GB의 경우 시간당 $5로 서비스 운영 이전부터 수 억원을 써야 하는데 머신러닝 엔지니어 20명이 사용하는 스캐터랩의 GPU 클러스터의 실질 사용량은 10%에 머물러 있는 문제가 있었습니다.
파인튜닝을 지탱하는 인프라 — 스캐터랩은 그동안 모델 개발을 위해 주피터 노트북을 사용해왔는데 LLM을 개발하게 되면서 대규모 파인튜닝 잡이 도중 중단되지 않고 빠르고 안전하게 파인튜닝 할 수 있는 ‘Scalable & Reliable’ 클라우드 인프라가 필요했고 했습니다.

베슬에이아이, 스캐터랩이 믿고 쓰는 LLMOps — 더 빠르고 간편하게, 비용 효율적으로

스캐터랩은 이와 같은 인프라 고민 없이 Pingpoing-1 sLLM 수준을 빠르게 끌어올리기 위해 베슬에이아이를 도입하였고, 그 효과는 GPU 인스턴스 확보를 시작으로 도입 첫날부터 나타났습니다.

고성능 GPU 확보 기간을 3개월에서 클릭 한 번으로

그동안 스캐터랩은 LLM 학습에 필수인 엔비디아 A100 80GB, H100 80GB GPU 수급이 어려워 데이터 확보와 파인튜닝 기법에 대한 연구가 완료된 후에도 정작 파인튜닝을 시작하지 못하는 문제가 있었습니다. VESSL Clusters를 통해 스캐터랩은 별도의 연동 작업 없이 AWS, GCP, Azure, Oracle, CoreWeave, Lambda Labs 등 여러 클라우드의 가용 인스턴스를 실시간으로 확인하고 vessl run 커맨드 한 줄로 파인튜닝 잡을 즉시 실행할 수 있었습니다.

GPU 최적화로 클라우드 사용률을 4배로

하나의 잡이 종료되면 다음 파인튜닝 잡에 유휴 GPU를 배정하고 자동 실행하여 한정된 GPU를 가장 효율적으로 활용할 수 있게 되었고, 기존 10~20%에 머물렀던 GPU 사용률을 평균 80%까지 끌어올렸습니다. 나아가, 스캐터랩이 기존에 보유한 구글 클라우드 및 온프레미스 서버, 베슬에이아이 관리형 클라우드, 그리고 단발성으로 수급한 여러 클라우드 인스턴스를 모두 한곳에서 관리함으로써 GPU 최적화에 필수적인 클라우드 가시성을 확보할 수 있었습니다.

잡 실행을 더욱 간편하게 커맨드 한줄로

잡을 실행할 때마다 몇 시간씩 소요되는 인스턴스 할당, 개발환경 설정, 볼륨 마운트 등을 모두 하나의 YAML 파일과 vessl run 커맨드 한 줄로 단순화 하여 더욱 빠르게 다양한 모델과 데이터셋을 테스트할 수 있게 되었습니다. 나아가, 파인튜닝 이후에는 YAML에 키-값만 몇 줄 추가하면 바로 엔드포인트와 포트를 생성하여 배포하는 환경도 구축할 수 있었습니다.

대규모 인프라 구축 기간을 6~12개월에서 하루로

앞서 만든 YAML 파일 뒷단에는 분산학습(distributed training), 오토스케일링(autoscaling) 등 더욱 빠르게 대규모 모델을 개발할 수 있는 기능이 탑재되어 있습니다. 나아가, LLM의 경우 며칠에 걸쳐 모델을 학습하기 때문에 인스턴스가 도중 종료되는 등 장애로 인해 억 단위의 돈을 투자해 학습한 모델이 날라가는 문제가 발생할 수 있는데 이와 같은 장애에 대응하는 인프라를 구축하는 데에는 적어도 6개월 전사적인 투자가 필요합니다. 스캐터랩은 ‘Day 1’ 부터 베슬에이아이에서 기본으로 제공되는 모델 체크포인팅(model checkpointing)과 자동장애복구(automatic failover)를 활용해 더욱 안전하게 파인튜닝 할 수 있었습니다.

Gen AI & LLM 시대의 MLOps

스캐터랩의 사례에서 볼 수 있든 최신 생성형AI(Generative AI)와 대형언어모델(LLM)의 등장으로 대형 모델을 지탱하는 MLOps 플랫폼에 대한 관심과 필요성이 더욱 높아졌습니다. Llama 2, Mistral 7B, Stable Diffusion 등 오픈소스 모델 그 자체는 쉽게 구할 수 있지만 이를 대규모로 학습, 파인튜닝, 배포하는 인프라를 구축하는 작업은 오히려 더 복잡하고 비싸졌기 때문입니다.

베슬에이아이는 스캐터랩, 뤼튼 등 이 분야 국내 대표 머신러닝 팀들과 협력하여 전통적인 AI/ML를 넘어 생성형AI를 가장 쉽고 빠르게 개발할 수 있는 MLOps 플랫폼으로 영역을 확장해 나가고 있습니다. 최신 모델을 가장 빠르게 학습, 배포할 수 있는 VESSL Hub과 기업 고유 데이터를 이용해 LLM을 손쉽게 만들 수 있는 VESSL LLM이 대표적인 예시인데요. 앞으로도 생성AI와 LLM을 기반으로 새로운 대내외 서비스를 개발하는 팀들이 더욱 빠르게 최신 모델을 개발하고 비즈니스 기회를 탐색할 수 있도록 베슬에이아이가 지원하겠습니다.

(스캐터랩과의 협업에 대해서, 구체적으로 알고 싶다면 발표 세션 영상 을 참고해주세요)

—

Yong Hee, Growth Manager
Kelly, Growth Manager