영화 ‘그녀(her)’의 한 장면.
챗GPT 개발사 오픈AI가 경쟁사 구글의 ‘연례 개발자 회의(I/O)’를 하루 앞두고 보고 듣고 말하는 새 인공지능(AI) 모델을 공개했다. 영화 ‘그녀(her)’의 사만다, ‘아이언맨’의 자비스처럼 실시간 음성 대화가 가능한 AI다.
미라 무라티 오픈AI 최고기술책임자(CTO)는 13일(현지시간) 온라인 라이브 행사에서 새 AI 모델 ‘GPT-4o’(포오)를 공개했다. GPT-4o는 사람처럼 보고 듣고 말할 수 있다. 주로 텍스트를 통해 대화할 수 있었던 기존 모델과 달리 실시간으로 대화하면서 질의응답을 할 수 있다. 새 모델명의 ‘o’는 모든 것을 뜻하는 ‘옴니(Omni)’에서 따왔다.
시연에서 드러난 GPT-4o의 성능은 2013년 개봉 영화 그녀(her)에 등장하는 (AI) 음성 비서 사만다를 연상케 했다. 샘 올트먼 오픈AI 최고경영자(CEO)도 지난해 이 영화에서 AI 개발의 영감을 얻었다고 말한 적 있다. 그는 이날 자신의 블로그에 “마치 영화에 나오는 AI처럼 느껴지는데, 이것이 현실이라는 사실이 아직도 조금은 놀랍다”며 “컴퓨터와 대화하는 것이 자연스럽다고 느껴진 적이 없었는데, 이제는 그렇다”고 밝혔다.
오픈AI 최고기술책임자(CTO) 미라 무라티와 이 회사 엔지니어 마크 첸, 배럿 조프(왼쪽부터)가 13일(현지시간) ‘GPT-4o’의 주요 기능을 시연하고 있다. 배럿 조프가 종이에 방정식을 쓰자 ‘GPT-4o’는 카메라를 통해 인식해 문제풀이 방법을 바로 설명했다. [오픈AI 홈페이지 캡처]
답변하는 과정에 어색한 지연이 없었다. 시연자가 스마트폰으로 GPT-4o가 적용된 챗봇에 “지금 시연을 하고 있어 긴장했는데 도와줄 수 있냐”고 묻자 “심호흡을 하고 자신이 전문가라는 사실을 기억하라”고 바로 답했다. 오픈AI가 밝힌 GPT-4o의 응답 시간은 평균 320밀리초(ms·1000분의 1초). 기존 GPT-3.5(2.8초)와 GPT-4(5.4초)보다 압도적으로 빨라졌고, 인간의 응답 속도와 유사하다.
감정 표현도 풍부했다. 감정을 극대화해 이야기해 달라거나 로봇 목소리로 이야기해 달라는 요청에 즉각 목소리를 바꿨다. “너는 매우 유용하고 놀랍다”고 하자 “오, 그만해! 얼굴이 빨개지네요”라고 답하는 식이다. 기존 음성 인식 AI가 말하는 것이 끝날 때까지 기다려야 했던 것과 달리 답변 도중에 새로운 질문으로 끼어들어도 즉각 대응했다. 새 모델은 영어, 한국어 등 50개 언어에 대한 실시간 통역 기능도 갖췄다.
김주원 기자
시각 인식 능력도 뛰어나다. 시연자가 스마트폰 카메라로 종이를 비춘 뒤 ‘3X+1=4’라는 방정식을 쓰자 GPT-4o는 이를 실시간으로 지켜본 뒤 X값을 구하는 방법을 단계별로 알려줬다. 종이에 ‘나는 GPT를 사랑한다’는 문장을 쓰자 이를 보고 “너무나 감동적이야. 고마워”라고 답했다. 또 컴퓨터에 코딩 화면을 띄운 뒤 코딩이 어떤 내용인지 묻자 즉각 해석해 답변을 내놓았고, 코딩을 개선할 대안도 제시했다.
오픈AI의 이날 발표는 구글 I/O 행사를 하루 앞두고 전격적으로 이뤄졌다. AI 분야 최대 경쟁자인 구글이 가져갈 스포트라이트를 선점한 것이다. 특히 오픈AI는 이날 GPT-4o를 챗GPT에 즉시 적용해 누구나 무료로 이용할 수 있게 했다. 업데이트된 챗GPT는 시연에서 선보인 것 외에도 텍스트를 이미지로 구현하는 능력과 비영어권 언어 능력 등이 향상됐다. 다만 핵심 기능인 음성 대화 기능은 몇 주 뒤 도입될 예정이다.
오픈AI의 새 AI가 애플의 음성 비서 ‘시리(Siri)’에 탑재될지도 관심이다. 뉴욕타임스는 지난 11일 “애플이 다음 달 열리는 연례개발자회의에서 챗GPT를 탑재한 시리의 차세대 버전을 공개할 수 있다”고 보도했다. 다만 애플이 챗GPT 외에 구글의 ‘제미나이’를 함께 탑재할 가능성도 거론된다.
중앙일보