[인공지능 기술] 대형 AI 모델서 데이터 뽑아 학습… 비용 18분의 1로 줄였다 / 딥시크 혁신 이끈 '지식 증류'
2025.02.06 13:23
[인공지능 기술] 대형 AI 모델서 데이터 뽑아 학습… 비용 18분의 1로 줄였다 / 딥시크 혁신 이끈 '지식 증류'
대형 AI 모델서 데이터 뽑아 학습… 비용 18분의 1로 줄였다
딥시크 혁신 이끈 '지식 증류'
중국 스타트업 딥시크가 전 세계 테크 업계에 충격을 줬다. 오픈AI가 인공지능(AI) 모델 개발에 1억달러(약 1460억원)를 투입하는 등 미국 빅테크들이 천문학적인 비용을 투자하는 동안 557만달러(약 81억원)만으로 오픈AI에 버금가는 AI 모델을 만들어냈기 때문이다. 아직 딥시크 개발비 논란은 해소되지 않았지만, 미국의 최첨단 AI 반도체 칩 사용이 제한된 중국의 3년 차 스타트업이 만들어낸 AI가 빅테크의 AI를 일부 압도하는 모습을 보이고 있는 것은 사실이다.
그러다 보니 딥시크가 어떻게 AI 모델을 개발해 냈는지에 관심이 쏠리고 있다. 전문가들은 질문이 들어오면 특정 영역만 활성화해 답하는 ‘전문가 혼합(MoE·Mixture of Experts)’과 함께 ‘지식 증류’ 기술을 활용했을 것으로 보고 있다. 백악관 AI·가상 화폐 차르(총괄)인 데이비드 색스는 최근 미국 폭스뉴스 인터뷰에서 “딥시크가 오픈AI 모델에서 지식 증류를 했다는 상당한 증거가 있다”며 “이를 방지하기 위한 조치를 취하겠다”고 밝혔다.
◇‘AI 대부’ 힌턴, 2014년 고안
미국 정부 관계자의 말을 표면적으로만 보면 ‘지식 증류’는 마치 꼼수처럼 비칠 수 있다. 하지만 지식 증류는 지난해 노벨 물리학상을 받은 ‘AI의 대부’ 제프리 힌턴 토론토대 교수가 2014년 고안한 개념이다.
방식은 이렇다. 수학, 과학, 정치, 사회 등 어떤 질문에도 최적의 대답을 할 수 있는 ‘대형 AI 모델’과 특정 영역에 특화한 ‘소형 AI 모델’에 같은 질문을 입력한다. 대형 AI 모델이 A라는 답을, 소형 AI 모델이 B라는 답을 출력한다. 처음에는 A와 B가 큰 차이를 보일 수 있다. 좀 더 복잡하고 정교하게 설계된 A가 내놓은 답을 좀 더 정답에 가깝다고 보고, A라는 답을 소형 AI 모델에 주입하는 것이 ‘지식 증류’다. 소형 AI 모델은 A와 B의 차이를 ‘손실값’이라고 판단해 손실값을 최소화하는 방향으로 학습한다. 이런 방식으로 여러 차례 학습한 소형 AI 모델은 대형 AI 모델이 제시한 답에 근접한 출력값을 내놓을 수 있다. 마치 선생님(대형 AI 모델)이 학생(소형 AI 모델)에게 지식을 가르치는 과정과 비슷하다. 실제로 학계에선 대형 AI 모델을 ‘교사 모델’, 소형 AI 모델을 ‘학생 모델’로 부른다.
◇R1 가동 비용, o1의 11% 수준
챗GPT 같은 생성형 AI 프로그램을 가동할 때 AI는 짧은 시간에 방대한 연산을 해내야 한다. 이때 실제 연산을 수행하는 고성능 AI 반도체는 기존 일반 반도체보다 4배가량 많은 전력을 소비한다. 더 빠르고 정확한 AI 모델을 구축하기 위해 빅테크 기업들이 전 세계에 AI 데이터센터를 짓고 있는 이유다.
대형 AI 모델을 의미하는 거대언어모델(LLM)을 학습시키려면 10GW(기가와트) 규모 데이터센터가 필요하다. 원자력발전소 10기가 가동돼야 한다. 하지만 소형 AI 모델이 대형 AI 모델 수준의 답을 내놓을 수 있다면 상황이 달라진다. 훨씬 적은 전기를 쓰고도 더 빠르게 답을 내놓을 수 있기 때문이다. AI 모델 분석 사이트 인공분석AI에 따르면, 오픈AI의 AI 모델 o1의 토큰당 가격은 26.25달러인 반면 딥시크 R1은 3달러로 9분의 1에 불과하다. 딥시크가 발표한 벤치마크(성능 측정) 결과로 보면 R1의 정확도는 오픈AI의 o1 수준이다.
기술 분석가 벤 톰프슨은 최근 자신의 홈페이지에 “딥시크가 오픈AI 모델을 증류했는지는 확실치 않다”면서도 “GPT-4o에 근접한 AI 모델이 점점 늘어난다는 것은 많은 사람이 오픈AI 모델을 증류하고 있다는 증거일 수 있다”고 밝혔다. 그는 이어 “무임승차이기는 해도 최첨단 모델을 보유한 기업이 할 수 있는 유일한 방법은 IP를 차단하거나 속도를 늦춰 접근을 막는 것밖에 없다”고 덧붙였다.
☞ 지식 증류
불순물이 섞여 있는 물을 가열시켜 나온 수증기를 모아 순수한 물을 채취하듯, 성능이 뛰어난 대형 AI 모델로부터 필요한 지식을 뽑아내는 기술. 대형 AI 모델과 소형 AI 모델에 같은 데이터를 입력한 뒤 나온 출력값의 차이를 줄여나가는 식으로 소형 AI 모델의 정확도를 높인다.
[출처] https://www.chosun.com/economy/tech_it/2025/02/06/RVHQN4TGEZFIJAXDS3OIBLVPGQ/
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.