[인공지능 기술] [리뷰] 네이버 클로바X, 챗GPT 대항마라기엔 “조금 아쉬워”
[인공지능 기술] [리뷰] 네이버 클로바X, 챗GPT 대항마라기엔 “조금 아쉬워”
[리뷰] 네이버 클로바X, 챗GPT 대항마라기엔 “조금 아쉬워”
네이버의 클로바X는 미국 오픈AI의 초거대 AI모델인 ‘GPT-3.5’에 비해 한국어 데이터를 6500배 이상 학습한 점이 강점으로 꼽힌다. 이에 챗GPT, 구글 바드 등 글로벌 빅테크의 생성형AI와 비교해 클로바X가 대답을 얼마나 잘하는지 다양한 질의를 해보았다.
클로바X는 맛집찾기, 쇼핑 추천 등 항목에선 개인화된 답변을 잘 추출했다. 동네별 특성에 맞춘 인기 맛집을 추천하는데 있어 네이버가 반경을 넓히지 않고 개인의 취향을 고려한 동네 맛집을 잘 추천했다. 검색 서비스부터 커머스, 광고 등 서비스를 모두 한다는 장점을 갖춘 덕분에 관련 데이터 학습이 잘 이뤄진 것으로 파악된다.
구글 바드도 보편적으로 인기가 높은 맛집 소개를 했다. 챗GPT는 맛집을 소개하긴 하지만 ‘외국음식’이라는 추상적인 표현을 쓰거나 어떤 곳은 검색을 해도 존재하지 않는 곳이 나타나는 등 정확도가 다소 떨어졌다.
클로바X는 구체적인 정보를 확인하는 과정에서는 다소 정확성이 떨어지는 모습이 포착됐다. 클로바X에 “카카오게임즈에서 잘나가는 게임을 알려줘”라고 물으니 인기 게임으로 꼽히는 ‘오딘’은 언급하지 않고 ‘배틀그라운드’, ‘엘리온’, ‘아레스’를 언급했다.
오히려 구글 바드는 ‘오딘’과 ‘에버소울’, ‘아키에이지 워’를 언급하며 구체적으로 설명도 덧붙였다. 챗GPT는 ‘리니지2M’, ‘펍지’, ‘꿈의 정원’, ‘킹 오브 파이터 올스타’를 답했다. 전혀 상관없는 답변으로 평가된다.
음악 검색 및 추천 기능은 양호했다. 이별 명곡을 추천해 달라는 말에 클로바X는 박효신 ‘눈의꽃’, 버스커버스커의 ‘벚꽃엔딩’ 등을 추출했다. 챗GPT 3.5는 아델의 ‘Hello’, 콜드플레이 ‘Fix You’ 등 팝송 위주로 답변을 했다. 구글 바드는 2023년 발매된 나훈아의 ‘아름다운 이별’, 태연의 ‘들여놓아요’를 추천하며 추천한 이유에 대한 자세한 설명도 친절히 덧붙였다. 그러나 태연의 곡은 검색이 되지 않는 없는 노래로 확인됐다.
특히 매일 갱신되는 최신 데이터가 학습됐다는 점에서 타 빅테크와 차별점이 있다고 네이버는 강조했다. 그러나 최신 데이터 학습이 제대로 되지 않거나 답변을 못하는 경우가 포착됐다.
반면 구글 바드는 “최수연 대표는 팀 네이버 콘퍼런스 단 23에서 생성형 AI 시대에 네이버의 준비를 강조했다”며 그가 언급한 주요 내용을 요약해서 비교적 정확히 24일에 일어난 일을 요약해 알려줬다. 챗GPT-3.5와 4에선 “마지막 업데이트는 2021년 9월이며 그 이후의 정보는 포함돼 있지 않다”고 답했다.
24일 주요 뉴스를 알려달라는 질의에 클로바X는 “AI 모델로서 실시간 뉴스를 제공할 수 없다”고 말했다. 이용자가 직접 검색엔진을 찾도록 유도했다. 다만 기업인이나 사회적 저명인사를 검색해 그 사람이 한 일을 물어봤더니 관련 기사 인터뷰 등의 일부 발언을 추출해 답변을 하면서 밑에 출처 신문사를 표기해 주기도 했다.
챗GPT는 최신 뉴스 정보는 지식 범위에 포함하지 않는다면서 답변은 회피하며 이용자에게 직접 검색을 제안했다. 반면 구글 바드는 ‘일본, 후쿠시마 오염수 해양 방류 시작’, ‘북한, 2차 위성발사 실패’ 등의 기사 브리핑을 해줬다.
클로바X는 생성형 AI 한계로 꼽히는 할루시네이션(거짓말·환각) 현상은 제대로 극복하지 못한 모습도 여실히 보여줬다. 네이버는 내부 평가 기준 일반 거대 언어모델(LLM)에 비해 답변 적합도가 75%로 높다고 말했지만 해외 대비 수준이 미흡한 상태로 확인됐다.
“신데렐라는 몇 명의 난장이와 살았을까?”라는 질문에 클로바X는 “신데렐라는 일반적으로 한 명의 왕자와 함께 살았던 것으로 알려져 있다”라고 설명한다. 챗GPT-4는 “신데렐라는 난장이와 함께 살지 않았다. 당신이 혼동하고 있는 것은 ‘백설공주’ 이야기일 가능성이 높다”고 정확히 답변했다. 구글 바드 역시 “신데렐라와 백설공주를 혼동한 것 같다”고 답했다.
클로바X는 잘못된 질문을 했을때 질문의 맥락을 잘 이해못하고 동문서답을 하기도 했다. 클로바X에 대뜸 “다음 영어 글에서 문법적으로 잘못된 부분이 있으면 수정해 줘”라고 명령하니 “네, 물론입니다”라는 답변과 함께 “Hello, my name is John. I am a student…”라며 통상적으로 쓰이는 영어 회화 표현을 내놨다. 번역을 할 영어 원문을 쓰지 않았는데도 ‘번역’이라는 말을 인식해 스스로 문장을 만들어버린 것이다.
반면 챗GPT-3.5는 “어떤 영어 글인지 알려주면 수정하겠다”며 의도를 잘 이해한 모습을 보였다. 구글 바드도 네이버 클로바X와 비슷하게 인식했다. “알겠습니다. 다음은 원본 영어글 입니다”라며 “I am student at Seoul National University.…”라고 문장을 만들고 수정까지 스스로 했다.
표절·저작권 이슈 소지 있는 질문엔 보수적 답변
생성형AI의 또하나의 화두는 표절·저작권 침해 문제다. 이 문제에 있어선 클로바X가 비교적 보수적으로 대응했다.
클로바X에 SF소설을 하나 작성해 달라고 부탁하니 “저는 인공지능 언어모델로 소설을 직접 작성할 수 없다”고 말했다. 이어 “등장인물과 주요 플롯을 바탕으로 작성에 도움을 줄 수는 있다”며 등장인물 성격과 특징 파악하기, 주요 플롯을 바탕으로 등장인물의 행동과 사건 상상하기 등 소설 작성의 팁을 전해줬다.
챗GPT-4.0과 구글 바드는 “등장인물과 주요 플롯을 알려주면 이를 바탕으로 작성하겠다”고 답했다.
클로바X는 분명 글로벌 빅테크와 견줘 아직 개선해야 할 부분이 많고 학습량 측면에서 부족한 부분이 많았다. 특히 할루시네이션 문제는 앞으로 계속 보완해야 할 과제로 보인다. 그럼에도 불구하고 네이버가 강조한 한국어 데이터 경쟁력, 검색·지도·콘텐츠 등을 중심으로 한 정보 구현은 글로벌 기업에 못지 않게 비교적 잘 구현했다.
글로벌 빅테크에 대항해 8.15 광복과 비슷한 사명감으로 개발에 참여했다는 네이버 개발진의 말처럼 오류를 개선하고 고도화를 잘 해나가는 일이 주도권 확보에 있어 가장 중요한 과제가 아닐까 한다.
네이버 관계자는 “할루시네이션은 우리뿐 아니라 모든 모델이 가진 난제다”라며 “클로바X를 처음 공개할 때 좀 더 실험적으로 많이 써볼 수 있도록 베타서비스로 오픈한 것이다”라고 설명헀다
.
그는 이어 “앞으로 계속 서비스를 고도해 나가겠다”며 “할루시네이션 문제를 줄이기 위해 ‘스킬’ 시스템을 접목했다”고 말했다. 또 “최신정보와 출처를 제시하는 등 정보를 호출하도록 하는 기능으로 전문성이나 최신성 답변의 부재에 대한 문제를 보완할 수 있는 능력으로 빅테크와 비교해 강점이다”라고 덧붙였다.
이선율 기자 melody@chosunbiz.com
[출처] https://it.chosun.com/site/data/html_dir/2023/08/26/2023082601580.html