“앗 내 실수” 인간적 AI 비서…빅테크가 돈 퍼붓는 이유다

중앙일보

입력

빅테크 판돈 키우는 AI 에이전트의 세계

경제+

구글도 하고, 마이크로소프트(MS)도 하고, 메타·오픈AI·애플도 한다. 최근 빅테크들의 최대 관심사는 AI 에이전트(비서)다. 지난달 14일(현지시간) 미국 캘리포니아에서 열린 구글 연례 개발자 회의(I/O)에서 데미스 허사비스 딥마인드 CEO는 “일상에서 사용할 수 있는 범용 에이전트를 만드는 건 우리의 오랜 비전”이라고 언급했다. 애플도 지난 10일(현지시간) 세계 개발자 회의(WWDC)에서 생성 인공지능(AI)을 탑재한 ‘애플 인텔리전스’를 공개했다. 발표 직후 새로울 게 없다는 평가가 나왔으나 하루 뒤 AI 기능 탑재가 애플 기기의 판매를 촉진할 수 있다는 전망이 나오면서 주가가 7.26% 급등했다.

분명 똑똑하긴 한데, 구체적 요청이나 질문이 몇 차례 오가야 문제를 해결해 주던 AI 챗봇들. 이들을 처음부터 끝까지 스스로 척척 일하는 ‘정규직 에이전트’로 키우는 게 쉬운 일은 아니다. 그럼에도 빅테크가 여기 꽂힌 데는 이유가 있다. 깔끔한 일처리를 자랑하는 ‘일잘러’ AI 에이전트는 현재 어디쯤 와 있을까. 이들은 우리의 진정한 동료가 될 수 있을까.

올 초 스탠퍼드대 연구원과 구글 딥마인드 출신들이 설립한 프랑스의 AI 스타트업 ‘H’. 작업자의 생산성을 높이는 AI 에이전트를 개발하겠다고 나선 이 스타트업은 최근 시드 투자로만 2억2000만 달러(약 3000억원)를 조달했다. 사업 초기 시드 투자에서 1000만 달러 이상을 확보하는 건 흔치 않은 일. 투자자 면면도 에릭 슈미트 전 구글 CEO, 프랑스의 억만장자 버나드 아르노부터 아마존·삼성까지 화려하다. ‘넥스트 빅싱(big thing)’으로 떠오른 AI 에이전트의 현재 위상을 보여주는 단적인 예다.

김경진 기자

구글과 오픈AI는 각 사 대화형 챗봇 ‘제미나이’와 ‘챗GPT’를 AI 비서로 업그레이드 중이다. 지난달 13일(현지시간) 오픈AI가 발표한 모델 ‘GPT-4o(포오)’는 자연스럽게 자신의 감정을 표현하며 사용자와 음성 대화를 나누고, 카메라에 비춘 수학 문제 등을 풀었다. 다음 날 구글도 I/O에서 음성·비디오·이미지 등을 동시에 해석해 사람처럼 보고, 듣고, 말하는 AI 에이전트 ‘프로젝트 아스트라’를 공개했다. 앞서 메타는 4월 초 인스타그램·왓츠앱 등 자사 소셜미디어(SNS)에 텍스트 입력으로 구동하는 ‘메타 AI’를 탑재했다. ‘일몰을 볼 수 있고 채식 메뉴를 선택할 수 있는 1시간 거리 이내 식당을 찾아줘’ 등 여러 요구사항이 포함된 복잡한 질문에도 막힘 없이 답변을 내놨다.

MS는 올해 연례 개발자 회의 ‘빌드(Build)’에서 자사 생성 AI ‘코파일럿’으로 e메일 모니터링, 데이터 입력 등 업무를 처리하는 개인 맞춤형 AI 에이전트를 만들 수 있다고 밝혔다. 코파일럿을 탑재한 온디바이스 AI PC ‘코파일럿+PC’를 공개하기도 했다. 사티아 나델라 MS CEO는 “이젠 컴퓨터가 실제로 우리가 원하는 걸 파악하고, 예측할 수 있는 시대에 접어들고 있다”고 말했다. 올 상반기 AI PC 시장은 MS뿐 아니라 삼성전자와 LG전자, HP, 레노버, 애플까지 뛰어들며 전장을 넓히고 있다.

인스타그램·페이스북·왓츠앱 등을 보유한 소셜미디어 최강자 메타, 지메일·드라이브·캘린더 등 각종 생산성 서비스 1인자 구글, PC 운영체제(OS) 윈도와 워드·엑셀·파워포인트 등 사무용 필수 도구를 가진 MS. 이들은 그간 쌓아온 각자의 기반에 AI 비서를 태워 사용자 일상을 공략할 계획이다. ‘AI 지각생’ 애플도 올해 WWDC에서 아이폰·맥북 등에 들어갈 생성 AI 기능을 대거 소개했다. 블룸버그는 “방대한 사용자를 지닌 애플이 하룻밤 사이에 가장 큰 AI 플레이어가 될 수도 있다”고 분석했다.

보고 듣고 말하며 감정도 표현…속도 빨라져 실시간 소통 가능

그런데 빅테크들의 시선이 일제히 AI 에이전트로 향하는 이유는 무엇일까. 거대언어모델(LLM)로도 충분한 거 아닌가. 텍스트·이미지·오디오·비디오 등 다양한 유형의 데이터를 입·출력할 수 있는 ‘멀티모달’ 기능은 AI 에이전트에서 꽃을 피운다. 이 멀티모달 시스템이 AI 에이전트를 보고, 듣고, 말하게 함으로써 사람들과 더 자연스럽게 상호작용을 할 수 있게 해주기 때문이다. 허사비스 딥마인드 CEO는 “오래 전부터 일상에서 유용하게 사용할 수 있는 범용 에이전트를 만들고 싶었다”며 “우리가 처음부터 챗봇 제미나이를 멀티모달로 개발해 온 이유”라고 설명했다.

신재민 기자

현재는 오픈AI, 엔스로픽, 구글 등 AI 서비스를 각각 쓰고 있지만, AI 에이전트 시대가 되면 사용자는 챗GPT만 써도 다른 AI 도구들을 불러올 수 있게 된다. AI 에이전트가 스스로 도구를 찾기 때문이다. AI 에이전트를 이용해 모든 AI 서비스를 한 데 모으는 통로를 만들고 싶은 게 빅테크들의 속내다. 익명을 요청한 증권사 AI 전문 연구원은 “플랫폼이 소비자와 만나는 서비스의 구체적인 모습이 AI 에이전트”라며 “모든 AI 서비스를 한데 모으는 수퍼 앱을 만드는 게 이들의 최종 목표”라고 분석했다.

일정관리 등 ‘개인 비서’ 넘어 엔터테이너·가사도우미 도전

샘 올트먼 오픈AI CEO는 지난달 1일 한 행사에 참석해 AI 킬러 앱의 조건으로 “내 삶 전체, 내가 받는 모든 e메일, 내가 나누는 모든 대화를 다 알고 있어 일부 작업은 즉시 처리하고, 나에게 다시 물어보기도 하는 매우 유능한 동료”를 꼽았다. 빅테크들은 사람과 유사한 수준, 혹은 사람을 뛰어넘는 ‘수퍼휴먼’ 수준 일반인공지능(AGI) 개발에 막대한 자본을 쏟고 있다. 이들에게 AI 에이전트는 AGI로 가는 길, 시장을 열어줄 ‘마중물’이다. 박민준 뤼튼테크놀로지스 AI 연구 수석은 “AI 에이전트는 그 자체로 각 사 AI 모델의 ‘유스 케이스(use case)’가 된다”며 “장기적으로는 AI 에이전트는 매우 넓은 영역에서 활용될 수 있기에 시장을 미리 선점하려는 의도도 깔려 있다”고 분석했다.

AI의 혁신은 기존 LLM보다는 에이전트 같은 새로운 영역에서 나올 거라는 게 전문가들의 시각이다. 업계에서는 올여름 오픈AI가 선보일 GPT-5를 주목하고 있다. 현재 AI의 문제점으로 꼽히는 ‘과적합’(overfitting)이 적은 모델을 만든 곳이 오픈AI와 엔스로픽이기 때문이다. 김하정 다올투자증권 연구원은 “겉으로 보이는 성능에 치중한 나머지, 실제 성능을 챙기지 못한 것”이라며 “현 상황에서 AGI 도달 가능성이 높아 보이는 건 엔스로픽이나 오픈AI”라고 분석했다.

피드백 쌓이면 점점 똑똑해져…인간 뛰어넘는 AGI 개발 수순

AI 에이전트는 이제 막 출발점에 섰다. 공급자가 늘수록 사용자를 사로잡을 만한 각자의 무기가 중요해진다. AI의 경쟁력을 가를 요소로는 스피드, 확장성, 트래픽, 개인화가 꼽혔다. 또 AI 에이전트는 일정 관리나 여행 계획 등을 세워주는 개인 비서 역할을 넘어 AI 엔터테이너가 되거나 집안일을 하는 AI 집사가 될 수도 있다.

이 과정에서 할루시네이션(환각)은 여전히 숙제로 남는다. AI 에이전트가 믿을 수 있는 직원 역할을 하려면, 사용자 피드백을 잘 들을 수 있는 구조도 만들어져야 한다. 서종훈 스켈터랩스 CTO는 “AI 에이전트가 개인정보 유출 등의 문제를 일으켰을 때 그 책임을 누구에게 돌릴 것인지 등에 대한 법적 기준도 있어야 한다”고 말했다.

혁신의 최전선에서 비즈니스의 미래를 봅니다. 첨단 산업의 '미래검증 보고서' 더중플에서 더 빨리 확인하세요.