‘금문교’를 입력했더니 여러 언어에 걸쳐 연관성 높은 단어들이 활성화됐다. 주황색 부분은 해당 기능이 활성화된 단어나 단어 일부이다. 앤스로픽
인공지능 챗봇의 두뇌는 거대언어모델이다. 거대언어모델은 ‘블랙박스’와 같다. 우린 아직 그 작동 원리를 명확히 밝혀내지 못했다. 이런 인식의 배경엔 두려움이 똬리틀고 있다. 어느날 인공지능이 인간의 지시 없이 핵폭탄 발사 단추를 누른다면? 인간 통제를 벗어난 영화 속 ‘스카이넷’이 언제 현실이 될지 알 수 없다.
인공지능 스타트업 앤스로픽이 이런 두려움에 제동을 거는 소식을 전했다. 앤스로픽은 최근 ‘클로드3 소네트’의 내부를 상세히 분석한 연구 결과를 발표했다. 클로드3 소네트는 앤스로픽이 올해 3월 공개한 거대언어모델로, 매개변수가 700억개에 이른다. 작은 표본 모델을 대상으로 작동 원리를 들여다본 실험은 있었지만, 이 정도 큰 언어모델의 내부 작동 원리를 규명한 건 생성 인공지능 등장 이후 처음이다.
인공지능 모델 내부는 사람의 뇌와 비슷한 방식으로 작동한다. 뇌에서 뉴런이 신호를 주고받아 정보를 처리하듯, 인공지능 모델도 수많은 인공 뉴런이 정보를 주고받으며 작동한다. 인공지능이 질문에 답하기 전에 ‘생각하는’ 과정은 이 뉴런들의 활동이다. 인공 뉴런은 사람이 생각하는 개념을 여러 뉴런에 걸쳐 표현한다. 우리가 ‘사과’란 단어를 생각할 때 여러 뇌세포가 동시에 활성화되는 것과 비슷하다. 하지만 인공지능의 뉴런 활동은 숫자 목록으로 표현되기에, 겉보기엔 복잡하고 이해하기 어렵다.
연구진은 이런 뉴런 활성화 패턴을 분석해 인간이 이해할 수 있는 개념과 일치시키는 작업을 진행했다. 샌프란시스코, 로잘린드 프랭클린, 리튬 원소, 면역학, 개발 코드 등 다양한 개념을 넣어 인공지능 뉴런이 어떤 식으로 활성화되는지 살폈다. 그랬더니 인공지능이 어떤 개념을 어떻게 표현하는지 드러났다.
인공지능은 한 개념을 떠올릴 때 연관 단어 사이의 ‘거리’를 측정했다. ‘금문교’ 단어와 근처엔 알카트라즈 섬, 기라델리 스퀘어, 골든 스테이트 워리어스, 캘리포니아 주지사 개빈 뉴섬, 1906년 지진, 알프레드 히치콕의 영화 ‘현기증’이 자리잡고 있는 식이다. 지금까진 인공지능이 수백억 개 뉴런 속 어딘가에서 의미들을 가져와 질문에 대답하는 건 알았지만, 구체적으로 어디서 무엇을 가져오는지는 몰랐다. 이번 실험은 인공지능이 의미를 수집해 오는 뉴런의 연결 경로를 알아냈다.
작동 방식을 이해하면 조작도 가능하다. ‘금문교’란 특성을 증폭했더니 클로드는 ‘너는 누구야?’란 질문에 ‘나는 인공지능 챗봇입니다’ 대신 ‘나는 금문교입니다. 내 육체는 상징적인 다리 자체입니다’라고 대답했다. 이처럼 특정한 특성을 조정해 인공지능의 사고 방식과 답변을 조절할 수 있음이 실험으로 확인됐다.
조작이 가능하면 통제도 어렵잖다. 인공지능 시스템이 위험한 행동을 하는지 추적하거나, 질문에 대한 답변을 바람직한 결과로 유도하거나, 위험한 주제를 제거할 수 있다. 인공지능이 해로운 답변이나 예상치 못한 폭주를 하지 않도록 제어하는 스위치를 찾아낸 것이다.
오픈에이아이는 최근 사람의 감정을 이해하는 거대언어모델 ‘지피티-포오’(GPT-4o)를 공개했다. 하지만 그 직후 안전한 인공지능을 연구하는 사내 전담 조직을 없앴다. 안전보다 효율을 우선시한 인공지능 업체들의 발걸음을 걱정하는 목소리도 커졌다. 오픈에이아이가 “좋아, 빠르게 가”를 외치며 인공지능의 제동장치 점검을 뭉개는 동안, 앤스로픽은 블랙박스를 열어젖혔다. 이번 연구는 인공지능 모델의 심연을 탐색하는 첫걸음이다.
이희욱 미디어랩팀장 asadal@hani.co.kr
[출처] https://www.hani.co.kr/arti/economy/it/1142149.html#cb