ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 챗GPT-5 멀티모달 기술 [챗GPT A to Z···빅테크 모두가 달려든다]
    AutoGPT 및 AI CURRICULUM 2023. 6. 6. 00:36
    반응형
    SMALL

    챗GPT-5 멀티모달 기술 [챗GPT A to Z···빅테크 모두가 달려든다]

     

    안녕하세요, 여러분! 이번 영상에서는 다양한 인공지능 뉴스와 기술을 함께 살펴보려고 합니다. 우리가 살아가는 이 세상은 AI에 의해 점점 더 변화하고 있으니까요. 챗GPT-5 멀티모달 기술에 대해 알려드리겠습니다.

     

    GPT-5 멀티모달 기술은 OpenAI에서 개발한 인공지능 기술입니다. 이 기술은 다양한 모달리티(영상, 음성, 텍스트 등)를 동시에 이해하고 처리할 수 있어서, 더욱 정확하고 다양한 응용이 가능합니다.

     

    예를 들어, GPT-5 멀티모달 기술을 이용하면, 언어와 영상을 동시에 분석하여 자막 생성, 영상 요약, 자동 번역 등의 작업을 수행할 수 있습니다. 또한, 음성 인식 기술과 결합하여 음성 명령을 이해하고 실행하는 등의 응용도 가능합니다.

     

    GPT-5 멀티모달 기술은 현재 개발 중이며, 상용화되기 전에 더욱 발전될 것으로 예상됩니다.

     

     

    우리는 AI가 만든 가상의 미국 국방부 폭발 이미지와, 젊어진 해리슨 포드 이미지, 그리고 더욱 충격적인 AI 보이스피싱에 대해 다뤄볼 것입니다. 이러한 일들이 우리 주변에서 어떻게 일어나고 있는지 알아보는 것은 중요합니다.

     

    더불어, 우리는 코디(Composable Diffusion)라는 새로운 기술을 살펴보며, 어떻게 다양한 형태의 입력을 통해 멀티모달 결과물이 생성되는지 살펴볼 것입니다. 이 기술은 다양한 데이터 유형을 혼합하여 최적화된 결과물을 만들어낼 수 있습니다.

     

    마지막으로는 ChatGPT-5의 멀티모달 기능을 살펴보며, 이 기능이 어떻게 실세계와 가상 세계를 연결하는 메타버스 혹은 디지털 트윈기반의 인공지능 서비스에 활용될 수 있는지 예상해보겠습니다.

     

    이 모든 내용을 통해 인공지능이 우리 삶에 어떤 영향을 끼치는지, 그리고 앞으로 어떤 변화가 있을 수 있는지 고찰해 보는 시간을 가질 것입니다. 함께 살펴보시죠!

     

    챗GPT A to Z···빅테크 모두가 달려든다

    인공지능 챗봇 챗GPT(ChatGPT)가 작년 11월 30일 (한국 시각 12월 1일) 출시 이후 두 달 만에 사용자 수 1억 명을 돌파했습니다. 챗GPT는 마이크로소프트가 투자한 오픈AI(Open AI)의 챗봇인데요. 1750억 개에 달하는 매개변수로 학습한 초거대 인공지능 GPT-3.5를 기반으로 하고 있습니다. 챗GPT는 생성형 인공지능으로, 이용자 요구에 따라 서로 다른 결과물을 생산하는데요. 텍스트·오디오·이미지 등 다양한 콘텐츠를 활용해, 유사하지만 독창적인 내용물을 만들 수 있습니다. 검색창에 원하는 질문을 입력하면 마치 사람처럼 주저 없이 답변을 합니다. 시, 소설, 에세이, 리포트, 설명서 등 어떤 형식에도 그에 맞는 대답을 할 수 있습니다.

     

    UBS(스위스 바젤 및 취리히에 본사를 둔 글로벌 금융 기업)에 따르면, 현재 챗GPT의 일일 방문자 수는 1300만 명에 달한다고 합니다. 월간 활성 사용자 수 MAU(Monthly Active Users, 한 달 동안 서비스에 접속한 사람의 수)는 1억 명 이상으로 추정하고 있습니다. MAU 1억 명을 달성한 시간이 틱톡은 2년, 인스타그램은 2년 6개월, 유튜브는 2년 10개월, 페이스북은 3년 2개월이라는 점을 고려하면, 챗GPT의 성장 가능성은 매우 크다고 할 수 있습니다.

    오픈AI 생성형 인공지능 달리2로 그린 그림 (출처: 오픈AI)

    챗GPT 두 달 만에 유료 버전 발표

    오픈AI는 챗GPT 출시 두 달 만에 유료 버전을 내놓겠다고 밝혔습니다. 챗GPT가 전문직을 대체할 수 있을 정도로 기술력이 뛰어나다고 평가받으며, 전 세계적으로 이용자가 급증하는 현상을 적극 활용한 것이죠. 주목할 점은 유료화에도 사용자들이 떠나지 않고, 유료 버전 서비스를 이용하겠다는 소비자들이 많다는 것입니다. 월 구독료 20달러를 지불하면 챗GPT의 답변 속도가 더욱 빨라지고, 인터넷 전송량이 많을 때도 먼저 서비스에 접속할 수 있다고 합니다. 오픈 AI의 신기능을 우선 사용해 볼 수 있는 혜택도 누릴 수 있는데요.

     

    CNN 보도에 따르면, 이미 미국 부동산 중개업자들은 챗GPT를 활용해 소셜미디어 홍보, 고객 응대, 주택 담보대출(모기지) 계산 등의 업무를 진행하고 있습니다. 실제로 아이오와주에 있는 한 중개업자는 주택 홍보 글 작성을 챗GPT에 맡겨, 1시간 이상 걸렸을 일을 5초 만에 끝냈다고 합니다.

    오픈AI의 챗GPT 화면 (출처: 오픈AI)

    MS, 챗GPT로 검색 엔진 시장 판도 바꿀까?

    마이크로소프트(MS)는 오픈AI에 100억 달러를 투자한 것으로 알려져 있습니다. 사티아 나델라 MS 최고경영자는 스위스 다보스에서 열린 세계경제포럼(WEF)에 참석해 오픈AI의 서비스를 자사 클라우드 플랫폼에 탑재하겠다는 계획을 밝혔습니다. 그는 “생산성을 높이기 위해 챗GPT와 같은 생성형 AI 도입은 필수적”이라며 “지식 산업에 종사하는 사람들은 AI로 인해 일자리를 잃을 수 있다는 두려움 보다 새로운 도구를 수용하는 데 익숙해져야 한다”라고 강조했습니다.

     

    MS는 애저(Azure, 마이크로소프트에서 제공 중인 클라우드 플랫폼)에 GPT-3.5, 코덱스(Codex, 대화체로 입력받은 문장을 해석해 알맞은 코드를 만들어내는 AI 시스템), 달리2(DALL-E2, 오픈AI의 이미지 생성 프로그램), 챗GPT 등 오픈AI의 서비스를 탑재하고 이를 ‘애저 오픈AI’로 명명했습니다.

     

    MS는 글로벌 검색 시장을 장악하고 있는 구글을 역전할 방법으로 오픈AI를 선택한 것으로 보입니다. 테크크런치(TechCrunch, 기술 산업 뉴스의 온라인 출판사), 세마포(Semafor, 온라인 뉴스 매체)에 따르면, MS가 챗GPT 업데이트 버전을 자사 검색 엔진 빙(Bing)에 탑재하는 방법을 모색하고 있다고 합니다. 특히 챗GPT 기반 AI인 GPT-3.5를 GPT4.0으로 업데이트할 예정인 것으로 전해졌습니다. 테크크런치는 “챗GPT는 긴 문장에 답변할 경우 몇 분의 시간이 걸린다”면서도 “하지만 GPT-4.0으로 무장한 챗GPT는 보다 빠르게 답변하면서도 인간적인 느낌을 주는 글을 쓸 것”이라고 전망했습니다.

     

    현재 검색 시장의 규모는 1,200억 달러(약 146조원) 수준입니다. 참고로 스태티스타(Statista, 시장 데이터 분석 기업)는 2023년 검색 시장 점유율 중 84%를 구글이 차지하고 있는 것으로 전했습니다. 그다음은 MS 빙 8.9%, 야후 2.6%, 얀덱스(Yandex, 러시아 최대 IT 기업) 1.5%, 덕덕고(DuckDuckGO, 프라이빗 검색 엔진) 0.8%, 바이두(Baidu, 중국 인터넷 기술 기업) 0.6% 순입니다.

    오픈AI와 손을 잡은 마이크로소프트 (출처: 마이크로소프트)

    적색경보 떨어진 구글…삼각편대 띄운다

    구글에게는 적색경보가 떨어진 상황입니다. 구글은 챗GPT에 대응하기 위해 AI 테스트에 나섰는데요. 구글에서 자체 개발한 AI ‘람다(LaMDA, 구글의 대화형 인공지능 AI)’를 활용해 챗봇 ‘견습 시인(Apprentice Bard)’을 테스트하는 ‘아틀라스’ 프로젝트를 추진 중입니다. 이처럼 구글은 검색 엔진에 AI를 통합하는 방안을 다각도로 모색하고 있습니다. 특히 챗봇을 구글 검색 페이지에 적용해 문답 형식으로 사용할 수 있는 방안을 집중 검토하고 있는 것으로 알려졌습니다.

     

    구글 홈페이지 검색창 바로 우측 밑에 있던 ‘운이 좋은 것 같아요(I’m feeling lucky)’ 버튼을 제외하고, 다섯 가지의 서로 다른 잠재적 질문을 보여주는 방식을 시도하고 있다고 합니다. 사용자가 질문을 입력하면 검색 결과 아래로 챗봇이 응답하고, 이후 말풍선 형태로 대화를 주고받을 수 있게 되는 것이죠. 이처럼 구글은 챗GPT와 유사한 방식으로 AI를 학습시키고 있는데요. 차별점은 구글의 막대한 정보 검색 기능을 접목했다는 것입니다. 구글 람다는 약 1,370억 개에 달하는 매개변수를 학습한 AI로, 이는 오픈AI에 GPT-3.5에 필적합니다.

     

    현재 구글은 막대한 돈을 챗봇 인공지능에 투자하고 있는데요. 블룸버그(Bloomberg, 금융 정보 및 뉴스를 제공하는 미디어 그룹)는 구글이 ‘클로드(Claude)’라는 새로운 인공지능 챗봇을 개발 중인 앤스로픽(Anthropic, 오픈AI 창립 멤버였던 대니엘라 애머데이, 다리오 애머데이 남매가 2021년 설립한 기업)과 제휴 관계를 맺고 4억 달러(약 5000억 원)에 가까운 돈을 투자했다고 전했습니다.

    인공지능 람다를 발표하는 순다르 피차이 구글 최고경영자 (출처: 람다)

    중국판 구글 바이두의 도전…LG를 비롯한 국내 빅테크

    중국판 구글로 불리는 바이두 역시 챗GPT 물결에 올라탔습니다. 바이두는 오는 3월, 챗GPT와 유사한 형태의 AI 챗봇을 출시할 예정이라고 합니다. 테크크런치는 “바이두가 중국 AI 산업의 선구자를 자처하는 만큼, 현재 세계에서 가장 강력한 챗봇의 대항마를 개발하는 것은 놀랍지 않다”라고 전했습니다.

     

    국내 빅테크 역시 생성형 인공지능 개발에 적극 뛰어들고 있습니다. LG AI 연구원은 이미지와 텍스트를 함께 학습한 멀티 모달(Multi-Modal, 시각, 청각을 비롯한 여러 인터페이스를 통해 정보를 주고받는 것) AI인 ‘엑사원(EXAONE)’을 선보였습니다. 최근에는 AI가 처음 본 사물이나 동물, 풍경 등의 이미지를 기존에 학습한 데이터 기반으로 스스로 이해하고 유추해 글로 표현하는 ‘제로 샷 이미지 캡셔닝(Zero-Shot Image Captioning)’을 연구 중입니다. 또한, 네이버는 하이퍼클로바를 앞세우고 있습니다. 매개변수가 2,040억 개에 달하는데, 올해 상반기 내 고품질 검색 데이터와 기술을 접목한 ‘서치GPT’를 선보일 예정이라고 합니다.

    바이두의 인공지능 기반 자율주행 플랫폼 아폴로 (출처: 바이두)

    급부상한 생성형 인공지능…남은 숙제

    챗GPT가 해결해야 할 숙제들도 남아있습니다. 먼저, 비용입니다. 샘 알트먼 오픈AI 창업자의 이야기에 따르면, 검색 1회 당 비용은 약 2센트라고 합니다. 25원 정도이지만, 1억 명이 10번씩 사용하면 매달 250억 원에 달하는 비용이 발생합니다. 최근 유료화 정책을 발표한 것도 이러한 비용을 충당하기 위함으로 보입니다. 올해 오픈AI의 매출 목표는 2억 달러(2,437억 원)로 알려져 있는데요. 월간 활성 사용자 1억 명 가운데 단 1%인 100만 명만 구독 서비스를 이용해도 2억 4,000만 달러에 달하는 수익을 얻게 됩니다.

     

    또 다른 한계는 ‘편향성’입니다. 인공지능이 사람이 투입한 데이터를 학습하다 보니, 편향성을 완전히 제거하기는 어려운 문제가 있습니다. 그동안 수많은 인공지능 기업이 챗봇을 개발했지만 공개를 꺼린 이유는 사회적 논란을 우려했기 때문이었는데요. 오픈AI는 정치, 성, 종교와 같은 영역도 인공지능에 많은 권한을 부여해 사람들을 놀라게 하기도 했습니다. 아직도 논란은 남아있는 상태인데요. 전 세계적인 관심을 끌고 있으면서, 동시에 여러 논란의 중심에 서있는 챗GPT가 남은 숙제들을 어떻게 해결해갈지 기대가 됩니다.

     

     

    챗GPT! 대화형 AI 챗봇에 꼭 필요한 4가지 인터랙션

    챗GPT와 같은 거대 언어 모델(LLM: Large Language Model)이 등장하면서 대화형 AI에 대한 관심이 크게 높아졌다. 챗GPT는 사용자와의 대화 맥락을 이해한 텍스트 생성을 통해 자연스러운 소통을 한다는 점에서 이전 대화형 챗봇이 갖는 한계를 깨고, 기술의 가능성을 한 단계 증명했다고 볼 수 있다. 나아가 이런 기술진보의 경향은 이미지, 텍스트, 음성, 비디오등 여러 인터페이스를 통해 정보를 주고받는 멀티 모달(Multi Modal)로 까지 기술 적용의 범위가 확대되면서, 다양한 산업에서 넓은 인터랙션 범위와 특성을 가진 대화형 에이전트가 등장할 것이라 예상할 수 있다.

    OpenAI와 함께 이러한 움직임을 촉발시켰던 마이크로소프트는 Bing, Dynamics 365, Teams 등에 챗GPT 기반의 Copilot 기능을 확대 적용하고 있다. 이러한 움직임은 Google[1]이나 Zoom[2]도 플랫폼 내에 대화형 AI 기능을 포함시킬 것이라는 계획을 발표하게 만들었다. 플랫폼과 대화형 AI 기능을 결합하여 제품 사용 과정에서 발생하는 사용자 문제를 즉시 해결하고, 슬라이드 작성, 검색 등의 작업 과정 내에서 사람과 AI 에이전트가 협업하는 구조로 사용자 경험이 발전하고 있다.

    [그림 1] 마이크로소프트 365에 결합된 코파일럿 기능 (출처: 마이크로소프트)

    국내에서도 다양한 영역에서 챗GPT의 API를 활용한 대화형 AI 서비스들이 빠르게 등장하고 있다. 국내 개발사인 업스테이지(upstage.ai)는 챗GPT와 OCR 기술을 결합하여, AskUp(아숙업)이라는 카카오톡 플러그인 서비스를 시작했다. 국내 사용자에게 친숙한 카카오톡 플랫폼을 통해 챗GPT기반의 질문 서비스를 제공함과 동시에 자사의 OCR 기술의 채널과 인터페이스를 확장하려는 전략으로 보인다. 업스테이지 정보에 따르면 해당 서비스는 일주일 만에 카카오톡 채널 친구 10만 명을 돌파했고, 4월 기준 80만 명을 넘어섰다고 한다.

     

    하지만, 장기적인 제품 라이프사이클 관점에서 그 서비스를 보았을 때는 아직 독자 제품으로서의 아이덴티티와 대화형 에이전트가 제공하고 있는 기능의 연관성은 다소 모호한 것으로 보인다. 이처럼 빠른 적용을 통해서 시장 선점 효과를 만들기는 했지만, 사용자와 협력적인 관계를 유지하면서 장기간 사용되고 있는 대화형 AI 제품은 아직 없다고 할 수 있다.

     

    마이크로소프트의 코파일럿 사례처럼 플랫폼 내에서 연속적이고, 확장적인 사용자 경험을 만들어내기 위해서는 AI가 자동화하여 가치를 줄 수 있는 역할을 뚜렷하게 정의하고, 사용자의도와 그 소통 방식에 맞춰 정보를 제공하는 개인화 경험, 인터페이스에 대한 본질적인 고민이 필요하다. 대화형 사용자 경험에 대한 제품 설계 시 고려해야 할 인터페이스적 특성과 주의할 점에 대해서 살펴보도록 하자.

    대화형 사용자 경험(CONVERSATIONAL UX)

    대화형 사용자 경험(Conversational UX; 이하 CUX)은 자연어를 기반으로 한 인터랙션 방식을 말한다. 챗봇, 가상 에이전트, 가상 어시스턴트, 음성 인터페이스 등 자연어, 대화를 기반으로 한 제품, 서비스의 경험은 모두 CUX라고 할 수 있다. CUX가 등장하기 전까지 사용자는 시스템을 사용하기 위해서 복잡한 GUI의 정보 구조, 버튼 인터페이스의 어포던스(affordance: 물리적/디지털 객체와 사람 사이의 사용 방법) 등을 학습하고 적응해야 했다.

     

    하지만 시스템이 자연어 처리 기술을 통해 소통하는 방법을 제공하게 되면서, 사용자는 많은 학습 없이도 인터페이스를 이해하고 사용할 수 있게 되었다[3]. 뿐만 아니라 시스템이 대화의 연속적인 맥락을 이어 나갈 때, 다른 인터페이스에 비해 더욱 연속적이고 확장적인 사용자 경험을 제공할 수 있다. 즉 대화 과정에서 얻은 정보를 활용해서 더욱 개인화된 사용자 경험을 제공할 수 있다는 뜻이다. CUX는 효율적이고 쉽게 정보에 접근할 수 있고 더욱 직관적으로 필요한 정보를 인식하고 수용할 수 있다. 때에 따라서 대화는 의인화의 속성을 포함하기 때문에, 사용자에게 공감과 신뢰의 감정을 제공하기도 한다.

    [그림 2] CUX 인터랙션

    이와 같은 이점에도 불구하고 챗GPT이전까지는 인터페이스의 한계로 인해서 대화형 AI의 활용률은 낮았다. 서비스 이용 전에 기대했던 것에 비해 시스템이 동작할 수 있는 대화의 형태와 시나리오는 매우 한정적이었다. 대화를 만드는 UX 디자이너가 직접 대화의 텍스트 내용과 플로우 등을 설계해야 했기에 기능의 확장성은 매우 제한되었다. 대화형 AI 제품을 이용해 보며 시스템이 제공하는 기능과 한계를 경험해 본 사용자는 이전에 기대했던 것에 비해 훨씬 축소된 멘탈 모델을 형성하고 대화형 에이전트의 가치를 낮게 평가할 수밖에 없었던 이유이다.


    덧붙여, 대화에 국한된 인터랙션 방식은 내용, 맥락을 이해하거나, 자연스러운 턴-테이킹(Turn Taking)[4]이 되지 않아, 대화의 과정에서 사용자에게 많은 불편감을 준다. 고객이 특정 금융 서비스 등에 대해서 알고자 할 때, 대화의 내용이나 맥락을 이해하지 못해 적절한 서비스가 연계되지 못하는 경우는 너무나 빈번한 예이다. 인력 비용 절감 등 공급자 주도의 대화형 에이전트 서비스를 도입하지만, 그 결과는 고객불만이 더욱 증가된 경우이다.

    적절한 패턴과 유형의 에이전트 인터랙션 설계

    위의 예와 같은 한계를 보완하기 위해, 인터랙션 유형을 명확히 이해하고 적절히 혼용해서 구현해 내는 것이 중요하다. 이전까지 산업에서 활용되고 있는 대화형 에이전트의 인터랙션 유형은 크게 4가지(System-centric, Content-centric, Visual-centric, Conversation-centric)로 구분할 수 있다[5]. 4가지 유형의 상호작용 방식은 대화의 목적과 맥락에 따라서 각각 다른 측면의 인터랙션 방식을 강조한다.

    (1) 시스템 중심 유형 (SYSTEM-CENTRIC STYLE)

    시스템 중심 유형(System-Centric Style)의 인터랙션에서 에이전트는 하나의 클래스에 해당하는 사용자의 명령만 인식하고 응답한다. 예를 들어, “음악 틀어줘", “삼성동 맛집에 대해서 검색해 줘" 등과 같이 간단한 사용자의 명령에 응답하여, 특정 동작을 실행하는 형태이다. 이 유형은 주로 웹 검색이나 음성 제어에 쓰이며, 만약 사용자가 인터페이스의 응답에 대해 추가적인 대화를 이어가고자 할 경우, 시스템은 이를 더 이상 인식하지 못하는 단점이 있다. 이와 같은 한계 때문에 사용자가 연속적으로 여러 가지 명령을 요청하더라도, 시스템은 이전까지의 대화 내용이나 맥락을 잊어버린 채, 새로운 대화인 것처럼 인식하고 실행한다.

    [그림 3] 카카오 내비에서 시스템 중심 유형의 인터랙션 사례

    (2) 콘텐츠 중심 유형 (CONTENT-CENTRIC STYLE)

    인터랙션 측면에서 콘텐츠 중심 유형과 시스템 중심 유형은 동일한 패턴을 가지고 있다. 하지만, 콘텐츠 중심 유형은 웹 페이지 상에서의 FAQ와 같이 텍스트 기반의 길고, 자세한 설명을 제공하는 형태의 인터랙션 방식이다. 시스템 중심 유형과 같이 2 턴 이하로 시퀀스가 제한되지만, 에이전트는 사용자의 질문에 대해, 세부 사항과 예시를 들어가며 자세한 응답을 제시한다 예를 들어, 챗GPT의 응답 방식이 전형적인 콘텐츠 중심 유형이라고 볼 수 있다.

    User
    • tell me about when Christopher Columbus came to the in 2015
    chatgpt
    • this question is a bit tricky because Christopher Columbus died in 1506,so he could not have come to the US in2015,but let's pretend for a moment that he did!
      if Columbus arrived in the US 2015, he would likely be very surprised at the changes that have
      occurred since he first landed in the "new world" in 1492.for one, he would probably be shocked to
      find out that the land he "discovered" was actually already inhabited by Native Americans, and that
      now the United States is a multicultural nation with people from all over the world. he would likely
      also be amazed by the advances in technology,from the skyscrapers in our cities to the smartphones
      anymore;in fact,some people argue that he was a brutal conqueror who enslaved and killed native
      people. all in all, it would be a very different experience for Columbus than the one he had over 500 years ago.
    [그림 4] 챗GPT의 콘텐츠 중심 유형 인터랙션 사례

    (3) 시각 중심 유형 (VISUAL-CENTRIC STYLE)

    시각 중심 유형은 웹 및 모바일 인터페이스를 보조하는 형태로, 자연어, 텍스트 중심의 인터랙션을 제공하는 방식이다. 시각 중심 유형에서는 자연어 응답과 함께 버튼이나 목록과 같은 그래픽 기반의 인터랙션이 상호작용 과정에 포함된다. 예를 들어, 특정 카카오톡 챗봇을 처음 실행할 때, 챗봇이 수행할 수 있는 작업의 종류를 버튼의 형태로 사용자에게 제공하여, 선택권을 제공하는 케이스 등이 이 유형에 해당한다.

     

    어느 정도 예측 가능한 사용자 패턴에 대해서는 사전에 정형화시킨 카테고리를 기반으로 버튼, 목록 등을 제시해서 텍스트를 직접 입력하는 것에 비해 좀 더 빠르게 원하는 결과를 얻어낼 수 있다. 제시된 케이스 중 사용자가 원하는 명령이 없을 경우, 직접 텍스트를 타이핑해 시스템에 작업을 요청하는 수순을 따른다.

    [그림 5] 카카오톡 주문하기에서 시각 중심 유형의 인터랙션 사례

    (4) 대화 중심 유형 (CONVERSATION-CENTRIC STYLE)

    대화 중심의 인터랙션 유형은 사람의 상호작용 방식과 가장 유사한 형태이다. 해당 유형은 대화의 속성 등을 이해하고 관리할 수 있는 대화 관리(Dialog Management) 기능이 내재화되어 있다. 이는 직접적으로 목적과 의미가 내포된 대화뿐만 아니라, 대화의 양, 질, 관련성, 태도 등과 같이 대화에 담긴 여러 사용자의 맥락을 이해하고 응답한다. 대화 중심의 인터랙션은 주로 짧고, 연속적인 대화로 구성되며, 사용자는 속도감 있게 시스템과 상호작용하고 원하는 결과를 도출해 낼 수 있다.

     

    대화 중심 유형을 사용하면 목록이나 문서를 제공하는 것 대신 구체적이고 요약된 답변을 사용자에게 제공할 수 있다. 또한 응답의 내용을 짧게 압축하되, 사용자의 필요에 따라 여러 턴에 걸쳐 대화하며 주제를 확장할 수도 있다. 대화의 방식을 사용자의 지식수준이나 선호하는 대화 형식에 맞게 조절할 수 있으며, 짧은 단위의 대화로 구성되어 있기 때문에 인터페이스의 제약 없이 모바일, 스피커 등에서 작동할 수 있다.

    [그림 6] 튜닙의 챗봇, 대화 중심 유형의 인터랙션 사례

    대화형 AI의 발전으로 기술적인 장벽이 해소되면서 4가지 스타일 중 대화 우선(Conversation-First) 전략으로 시스템의 인터랙션 방식이 많이 변화하고 있다. 하지만 중요한 것은 “모든 대화는 인터랙션이지만, 모든 인터랙션이 대화는 아니다.”라는 것이다. 상황에 따라서 대화가 오히려 다른 인터페이스에 비해 비효율적이거나, 사용자의 불편을 야기하는 경우도 있기 때문에 사용자의 목적, 방식에 맞게 적절히 여러 유형을 혼용해야 한다.

    이를 위해서는 먼저, 대화라는 매개를 무조건적으로 사용하지 않고, 사용자의 목적과 인터랙션 순간에서 대화형 인터페이스가 다른 인터페이스에 비해 효율적으로 작동할 수 있는 상황을 정의하는 것이 우선이다. 나아가 대화로 시작했지만, 콘텐츠, GUI 등 다양한 유형의 모달과 인터페이스를 상호 보완적으로 활용하며, 사용자 경험을 풍부하게 만들어야 한다.

     

    마이크로소프트 365의 코파일럿 기능은 대화형 인터페이스와 파워포인트 등의 문서 작업 등을 연동했고, 휘발성이 강한 대화형 인터페이스의 한계를 보완하여 요청의 결과물을 즉시 시각적으로 확인할 수 있게 했다. 대화, 작업의 대상이 되는 플랫폼, 버튼 인터랙션의 조화를 통해, 연속적인 사용자 경험 선상에서 적절하게 AI와 사용자가 협업하는 구조를 이뤄낸 것으로 훌륭한 결과라고 볼 수 있다.

    대화의 목적에 맞는 대화 시나리오 구성

    4가지 인터랙션 패턴을 적절히 섞어서 구성하여, 대화의 목적에 맞는 대화 시나리오를 구현할 수 있다. 가벼운 목적의 대화나, 유저의 목적이 뚜렷할 경우, 사용자가 에이전트에게 특정 작업을 요청하고 수행하면 마무리하는 식의 대화가 이루어질 수도 있다. 하지만 검색 등 유저의 목적이 불명확하거나, 추천 등을 원할 경우 짧은 대화 기반의 턴테이킹을 통해서 인터랙션 하되, 발견되는 유저의 의도에 따라서 대화의 깊이나 범위를 확장해 나가는 방식으로 시나리오를 구성할 수도 있다. 

     

    교육, 의료, 산업별 적용 도메인에 따른 지식과 인터랙션 패턴에 따라 구현될 수 있는 시나리오는 매우 다양합니다. 아래 4가지 예시 케이스를 참고한다면, 대화형 인터랙션의 목적, 인터랙션의 대상이 되는 에이전트의 메타포어, 성격에 따라 적절한 시나리오를 구성할 수 있다.

    1. 일상형 대화(Ordinary Conversation) : 일상형 대화는 간단한 정보를 교환하거나, 다른 사람과 친밀감을 형성하고자 할 때, 가볍게 나누는 형태의 대화 시나리오이다. 가족, 친구 등 가까운 사람과 나누는 듯한 형태의 대화이며, 뉴스 전달, 안부 확인, 조언, 잡담 등이 이러한 대화의 예시에 해당한다. 대화형 에이전트를 설계할 때에는 에이전트를 소개하거나, 대화 주제를 전환, 환기시키고자 할 때, 일상형 대화 시나리오를 구현하면 효과적이다.

    2. 서비스형 대화(Service Conversation) : 은행원, 고객 서비스 상담원 등 서비스 제공자와 요청자가 나누는 대화의 형태다. 이 대화 시나리오에서 고객 및 소비자가 서비스를 먼저 요청하면, 서비스 제공자는 정중하게 인사하고, 자신을 소개하며, 서비스 요청자의 목적에 맞는 서비스를 연계한다. 여기서는 주로 시스템 중심 패턴을 사용한다. 일반적인 예시로는 ARS, 전화 상담에서 이루어지는 대화가 이에 해당되며, 이러한 형태의 대화 시나리오가 실제 금융, 민원 등의 서비스 챗봇에 구현되어 있다.

    3. 교수, 학습형 대화(Teaching Conversation) : 학습 환경에서 선생님이나 튜터 등과 나누는 대화와 같이, 특정 지식을 학습시키기 위한 목적으로 제공되는 대화를 의미한다. 문제풀이, 학습 과정에서 학생이 스스로 해결하지 못하는 부분에 대해 설명을 요청하면, 대화의 대상이 되는 선생님, 튜터는 몇 차례 대화를 통해 학생이 어려워하는 부분을 파악하고 문제를 푸는 데에 필요한 지식과 방법을 제공한다.

     

    때에 따라 튜터는 학생의 교육적인 효과를 극대화시키기 위해 답을 즉시 알려주지 않고, 학생이 스스로 문제를 해결할 수 있도록 유도하는 스캐폴딩(Scaffolding) 방식의 대화 패턴을 구성하기도 한다. GPT-4 기술이 처음 출시되었을 때, Open AI는 ‘Steerability: Socratic tutor[6]’라는 사용자 사례를 소개하며, 스캐폴딩(Scaffolding) 방식의 대화가 이제 가능하다는 점을 부각했다. 교육 플랫폼인 Khan Academy는 GPT 기술을 바탕으로 스캐폴딩 방식의 대화 시나리오를 구성하여, Khanmigo[7]라는 어시트턴트 기능을 소개했다.

    4. 카운슬링형 대화(Counseling Conversation) : 치료사, 상담사 혹은 조언자 등과의 대화에서 주로 발견되는 인터랙션 패턴이다. 이 대화에서 내담자는 자신의 고민에 대한 조언을 구하고, 상담자는 고민을 경청하고 조언을 제공한다. 심리 치료에서는 치료사가 먼저 질문하고 환자가 답변하는 형태로 대화가 이루어지기도 한다. 또한 대화의 전환, 환기, 재해석 등 상담 쓰이는 특수한 전문 대화 스킬이 반영되기도 한다.

     

    타로 및 상담 챗봇 서비스인 ‘헬로우봇(thingsflow.kr)’는 이러한 카운슬링 방식의 대화 시나리오를 잘 구현한 사례라고 할 수 있다. 캐릭터로 형상화된 에이전트가 사용자의 고민을 듣거나, 심리 검사 등을 제시하고 상담 서비스를 권유한다. GPT 등 AI 기반의 인터랙션이 들어가지 않았음에도 에이전트에게 적절한 역할과 친근한 관계 형성, 잘 구성된 인터랙션을 통해서 다수의 사용자를 확보한 서비스이다.

    [그림 7] Khan Academy와 헬로우봇의 대화 인터랙션 예시

    대화형 에이전트 경험 디자인을 위한 5가지 요소

    앞서 언급한 바와 같이, 챗GPT 이전까지 구현할 수 있는 대화의 시나리오는 매우 한정적이었다. 대화 흐름을 직접 구성하고, 사용자의 다양한 의도를 맵핑해야 되었으며, 사용자의 텍스트 내용을 일일이 디자인하는 등 하나의 시나리오를 구현하는 데에 많은 시간과 비용이 소요되었다. 이로 인해 사용자는 서비스를 경험하며, 제공되는 서비스 시나리오의 한계를 경험하고, 대화형 에이전트에 대한 기대와 멘탈 모델을 축소시킬 수밖에 없었다.

     

    챗GPT 기반의 생성형 AI 기술이 등장하면서 프롬프트 작성만으로 대화의 흐름을 구성하고, AI에게 대화 방식에 대한 가이드를 제공하여 원하는 형태의 아웃풋을 얻어낼 수 있게 되었다. 또한 텍스트 생성을 통해 대화 시나리오를 확장적으로 구현할 수 있으며, 에이전트가 제공할 수 있는 정보 제공 서비스의 범위가 넓어졌다. 이를 활용해 앞서 언급한 인터랙션 유형과 패턴을 지시한다면, 지금보다 한 단계 더 나은 대화형 인터랙션 경험을 제공할 수 있을 것은 분명해 보인다.

    User / system agent
    • happy path
    User / system agent
    • repair path
    [그림 8] 네이버 클로바 챗봇의 대화 흐름 구성 및 디자인 과정

    미래의 대화형 AI의 가능성은 무궁무진하게 확장될 것이라는 점은 분명하다. 하지만 대화라는 인터페이스 자체가 지닌 한계를 고려해, 세심하게 대화 시나리오와 인터랙션을 구현하지 않는다면 오래 지속되기는 어려운 서비스가 될 가능성이 높다. 또한 플랫폼과의 결합을 통해 상호 보완적인 역할과 가치를 만들어내야만 더욱 실재감이 높은 에이전트 서비스가 될 수 있다. 

     

    대화형 에이전트의 명확한 역할과 가치를 창출하기 위해 가장 먼저 해야 할 것은 제품의 핵심 고객 가치 제안(Customer Value Proposition)을 기준으로 필요한 구현 시나리오 범위를 설정하고, 로드맵을 구성하는 것이다. 이를 바탕으로 대화가 오히려 번거로운 수단이 되지 않도록 내용의 간결성. 그리고 AI의 오인식과 에러 등의 상황에서 유저의 목적과 의미에 대해서 되묻는 등의 오류 회복 메커니즘을 설계하는 등의 노력이 필요하다. 완성도 높은 에이전트 경험을 위해 우선순위가 높은 대화 시나리오에 대해 아래 5가지 요소[9]를 순차적으로 고려하며, 섬세하게 인터랙션을 설계하는 것을 추천한다.

    1. 대화 작업(Conversational Task) : 대화형 에이전트가 수행해야 할 구체적인 태스크를 의미한다. 사용자에게 가치를 제공하기 위해서는 챗봇이 제공해야 하는 태스크를 식별하고, 시나리오를 모형화하는 것이 중요하다.

    2. 성격(Personality) : 챗봇에 의인화된 성격을 부여하는 것을 의미한다. 대화의 수준에 따라 성격을 부여하는 것이 필요할 수도, 그렇지 않을 수도 있다. 대화형 에이전트에 성격을 부여하기로 결정하게 되면, 기업 혹은 제품의 브랜드 이미지와 일관된 방식으로 에이전트의 명칭, 페르소나, 캐릭터, 대화 스타일 등을 설정할 수 있다.

    3. 관계(Relationship) : 대화형 에이전트가 사용자와 맺게 될 관계의 양상을 지정한다. 에이전트가 사용자와 단기적인 관계를 맺고 요청된 태스크만 수행하면 되는지, 혹은 사용자와 정기적으로 인터랙션 하며 관계를 형성할지를 고민해야 한다. 사용자와 대화형 에이전트가 장기적인 관계를 맺는 경우, 자주 반복되는 작업에 대해서 에이전트 선제적으로 작업을 추천하는 등의 서비스를 할 수 있다. 뿐만 아니라 백그라운드 내에서 이전에 사용자 활동 등을 기억하고 대화 방식을 유연하게 조정할 수 있다.

    4. 백그라운드 작업(Background Tasks) : 실 생활의 다양한 정보/서비스를 연계하기 위해서 에이전트는 사용자와 대화하면서 사용자의 요청에 대한 작업을 백그라운드에서 수행해야 한다. 예를 들어, 사용자가 특정 상품을 구매하는 태스크를 수행할 때, 대화형 에이전트는 백엔드에서 데이터 베이스에 접속해서, 검색, 제품 정보 가져오기, 카트 생성, 결제 등의 태스크를 수행해야 한다.

    5. 폴백 메커니즘(Fallback mechanism) : 대화형 에이전트가 사용자가 원하는 과업을 명확히 이해하지 못할 경우, 제시할 수 있는 대체 경로를 설계한다. 예를 들어, 대화형 에이전트가 특정 사용자의 의도를 식별하지 못하거나, 추천/제공한 정보와 서비스가 사용자의 선택을 받지 못한 경우에, 웹 링크 연결, 상담원 연결 등 대체 경로를 제시하고 사용자가 통제권을 가지고 목적 과업을 달성할 수 있도록 지원한다.

    GPT-4, 뭐가 달라졌나? – 주목해야 할 개선점 7가지

    “GPT-3.5는 미국 변호사 시험에서  하위 10%에 해당하는 성적을 기록한 반면, GPT-4는 상위 10%의 성적을 기록했습니다.”

    OpenAI의 GPT-4가 2023년 3월 14일에 출시되었습니다. 지난 몇 달간 이슈를 일으켰던 ChatGPT(챗GPT)는 GPT-3.5를 기반으로 작동되었는데요. 이번에 출시된 GPT-4는 멀티모달 대형 모델(MLLM, Multimodal Large Language Model)이여서 큰 이목을 끌고 있습니다. 이번 편에선 GPT-4가 어떤 부문에서 개선되었는지 크게 7가지로 나눠 설명해 드리겠습니다.


    아래에서 관심 있는 주제를 클릭하여 해당 본문으로 바로 이동해보세요.

    GPT-4란?

    개선점 7가지

    1. 멀티모달(Multimodal) 모델

    2. 메모리 성능

    3. 언어 능력

    4. 환각 현상 개선

    5. 문제 해결력

    6. 안전성

    7. 조향성

    결론


    GPT-4란?

    GPT-4는 이전 버전인 GPT-3.5보다 10배 더 향상된 모델입니다. GPT-4는 이전 버전보다 맥락을 더 잘 이해하고 뉘앙스를 구별하여 더욱 정확하고 일관된 응답을 얻을 수 있습니다.


    1. 멀티모달(Multimodal) 모델

    멀티모달(Multimodal) 모델 GPT-4의 이전 버전 대비 가장 큰 개선점은 멀티모달 모델입니다. AI 측면에서 멀티모달(Multimodal)은 사람과 기계가 정보나 의미를 전달하기 위해 음성, 텍스트, 비디오, 이미지와 같은 다양한 형태로 대화하는 환경을 뜻합니다.

    기존의 GPT 버전은 텍스트만 입출력이 가능했습니다.

    하지만 기존과는 달리 GPT-4는 텍스트와 이미지를 사용자로부터 입력받은 후 텍스트를 출력할 수 있는 멀티모달 모델을 사용하고 있습니다.


    GPT-4에게 음식 재료가 찍힌 사진을 제공하고 재료로 어떤 것을 만들 수 있는지 텍스트로 질문하면 GPT-4는 레시피를 텍스트로 제공합니다.


    또한 사진을 제공하며 어떤 점이 특이한지 질문하면 GPT-4는 어떠한 점이 특이한지 답변을 제공합니다.


    본래 멀티모달은 다양한 모달(데이터 형태)이 입출력에 구애받지 않고 대화하는 환경을 뜻합니다.

    정확한 이유는 밝혀지지 않았지만, 현재 GPT-4는 Dall-E와 Stable Diffusion의 이미지 출력 기능은 제공하지 않고 있습니다. 하지만 추후 소리나 영상 등 다른 모달리티(데이터 형태)를 출력하는 것은 시간문제인 것 같습니다.


    2. 메모리 성능

    OpenAI에 따르면 GPT-4는 최대 32,768개 맥락 토큰 (단어, 형태소 등으로 나눈 자연어 단위)을 받을 수 있습니다. 해당량은 약 64,000개 단어, 그리고 50페이지 정도의 분량입니다.

    이는 이전 모델보다 더 많은 분량의 사용자와 나눈 대화를 기억할 수 있다는 의미이며 맥락을 잘 파악하는 언어 능력과 연결됩니다.


    3. 언어 능력

    GPT-4의 처리 가능 영어단어는 25,000개로 기존의 ChatGPT(챗GPT)보다 약 8배 늘어났습니다. GPT-3.5는 미국 변호사 시험에서 하위 10%에 해당하는 성적을 기록한 반면, GPT-4는 상위 10%의 성적을 기록했습니다.

    GPT-4는 독창성 또한 강화되었는데요. 아래는 신데렐라를 단어별로 A-Z 순으로 각 알파벳을 사용하되 중복하지 않고 작문하라 요구하는 입력입니다. GPT-4는 성공적으로 독창성이 요구되는 요청을 해냅니다.

    지원하는 언어도 26개 국어로 늘어나며 더 많은 국가에서 사용될 것으로 보입니다.


    4. 환각 현상 개선

    환각 현상이 어느 정도 개선되었습니다. 환각 현상이란 틀린 답도 맞는 것처럼 대답하는 것을 의미하는데요. 아직 해당 현상이 근절되지 않았지만, 대규모 훈련 데이터 세트, 인간 피드백형 강화학습 (RLHF), 그리고 미세조정을 통해 지속해서 개선될 것으로 보입니다.


    5. 문제 해결력

    GPT-4는 GPT-3.5의 기능을 넘어 복잡한 수학적, 과학적 문제를 해결할 수 있는 강력한 능력을 보여줍니다. 예를 들어, GPT-4는 이전 모델보다 더 효과적으로 어려운 미적분 문제를 해결하거나 화학 반응을 시뮬레이션할 수 있습니다.

    GPT-4는 복잡한 수학적, 과학적 개념을 이해하고 처리하는 능력을 크게 향상했는데요. 복잡한 방정식을 푸는 능력과 미적분, 대수학, 기하학과 같은 다양한 수학적 연산을 수행할 수 있습니다.

    게다가, GPT-4는 물리학, 화학, 생물학, 그리고 천문학과 같은 과학 과목들도 다룰 수 있습니다. 실제로 올림피아드의 경우, ChatGPT는 31%에 랭크되었지만 GPT-4는 99%로 상위 1%에 랭크되었습니다.

    기술이 계속 발전함에 따라 GPT-4는 문제 해결력을 강화하고 더 넓은 범위의 주제와 작업에 훨씬 더 능숙해질 것으로 예측됩니다.


    6. 안전성

    도메인별 50명의 전문가 피드백을 바탕으로 진행한 인간 피드백형 강화학습 (RLHF), 보상 모델(RBRMs)을 활용하여 안전성을 높였습니다.

    GPT-4는 GPT-3.5보다 허용되지 않는 질문에 대한 요청에 응답할 가능성이 82% 낮아진 대신 민감하지만 답변할 수 있는 질문에 대한 응답 가능성은 29% 증가했습니다. 또한 사실에 입각한 응답을 할 가능성이 40% 더 높아졌다” 발표되었습니다.


    7. 조향성

    OpenAI는 GPT-4는 ‘성격’을 가지고 있다 밝혔습니다. 조향성(Steerability, 통제 가능 정도)은 필요에 따라 행동을 바꿀 수 있는 능력을 가리키는 개념인데요. 이전엔 고정된 어조나 스타일을 가진 GPT-3.5였지만 GPT-4는 사용자의 필요에 따라 변경 가능합니다.

    아래 예시는 사용자가 GPT-4에게 해적의 어조로 말해달라 요청한 사진입니다. AI는 요구를 반영하며 해적의 말투로 재치있게 답변을 합니다.


    결론

    GPT-4의 놀라운 성능에도 불구하고, GPT-4는 이전 GPT모델과 비슷한 한계를 지니고 있습니다. 앞서 말씀드렸다시피 GPT-4는 사실에 대한 환각(Hallucination)을 일으키고 추론에서 오류를 범하기에 아직까진 GPT를 완전히 신뢰할 수 없는 단계입니다.

    하지만 인간 피드백형 강화학습(RLHF), 보상 모델(RBRMs)을 통해 환각 현상을 지속적으로 줄이는 동시 출력하는 모달(데이터 형태) 또한 확장한다면 다양한 분야에 큰 영향을 끼치는 도구로 자리 잡을 것 같습니다.

    마지막으로 ChatGPT-4는 월 20달러의 유료 서비스인 ChatGPT-Plus를 통해 사용할 수 있으며 무료로 사용하고 싶으신 분들은 Bing Chat을 통해 GPT-4의 기능을 만날 수 있습니다.

    ChatGPT의 원리나 활용법 등 다양한 관련 내용에 대해 궁금하신 분들은 아래의 버튼을 통해 자세한 내용을 만날 수 있습니다. 


     


     

    GPT-4 자주 묻는 질문

    GPT-4란 무엇인가요?

    GPT-4는 이전 버전인 GPT-3.5보다 10배 더 향상된 모델입니다. GPT-4는 이전 버전보다 맥락을 더 잘 이해하고 뉘앙스를 구별하여 더욱 정확하고 일관된 응답을 얻을 수 있습니다.

    ChatGPT 대비 GPT-4의 주요 개선점은 무엇인가요?

    크게 7가지로 나뉘는데요, 1. 멀티모달 모델 적용, 2. 메모리 성능 향상, 3. 언어 능력 향상, 4. 환각 현상 개선 5. 문제 해결력 강화 6. 높아진 안전성 7. 조향성 적용 등이 있습니다.

    멀티모달이란 무엇인가요?

    AI 측면에서 멀티모달(Multimodal)은 사람과 기계가 정보나 의미를 전달하기 위해 음성, 텍스트, 비디오, 이미지와 같은 다양한 형태로 대화하는 환경을 뜻합니다.


    TBWA Datalab 양질의 디지털 마케팅 콘텐츠를 제공하겠습니다.

    향후 과제

    기존 제품/플랫폼과 결합하여, 더욱 개인화된 에이전트 경험을 제공하기 위해서는 인터페이스를 넘어 본질적으로 사용자가 접하는 정보 자체에 대한 신뢰도를 높여야 한다. 현재 사용자는 환각(Hallucination) 현상 등으로 인해서 챗GPT 기술의 응답 결과를 신뢰할 수 없는 경우가 많다. 특히 교육이나 헬스케어 분야에서는 부적절한 정보가 심각한 결과를 초래할 수 있기에 웹 정보 기반의 GPT 결과에 온전히 의존할 수 없다. 이러한 케이스에서는 신뢰할 수 있는 도메인 지식을 쌓아두는 데이터 베이스를 형성하고, 해당 지식을 기반으로 추론 및 응답할 수 있도록 백그라운드 작업을 설계해야 한다. 또한 인터페이스적으로도 신뢰도 높은 정보와 그렇지 않은 정보를 구분할 수 있도록 장치를 마련해 주는 것이 필요하다. 최근 챗GPT와 관련해서 정보의 출처와 근거를 제시하도록 설계하여 정보의 신뢰도와 사용자의 제어를 용이하게 하려는 시도들도 많이 등장하고 있는 것이 이 이유이다.

    다음은 대화 내 문맥을 잘 이해함과 동시에, 사용자 정보 및 대화 이력에 대한 기억을 강화해야 한다. 대화형 에이전트의 경험의 범위가 확장되기 위해서는 주어진 태스크를 잘 수행하는 것을 넘어, 연속적으로 사용자의 작업을 효율적으로 관리하고 적합한 정보, 서비스를 선제적으로 연계하는 것이 필요하다. 현재의 LLM은 대화를 벗어난 사용자의 정보를 저장하고 있지 않기 때문에, 별도의 데이터 베이스를 통해 사용자 정보를 저장하고 서비스 제공 시점에 이를 적절히 그라운딩(Grounding)할 수 있도록 유도해야 한다. 실제로 마이크로소프트 코파일럿의 경우, MS Graph 기능을 통해 마이크로소프트 365 내에서 일어나는 사용자의 활동을 저장하며, 이를 요약적으로 챗GPT에게 제공하여 보다 더 적절한 결과물을 제공할 수 있도록 지원한다.

    마지막으로, 대화형 인터페이스의 한계를 보완하며 연결성 있는 사용자 경험을 보장하기 위해서, 버튼 사진 등 입출력 모달을 확대하여 더욱 풍부한 경험을 가능하게 해야 한다. 버튼, 사진, 미리 정의된 템플릿 등을 활용하는 것은 텍스트 기반의 대화를 직접적으로 연계하여 더욱 풍부하게 만든다. 오히려 불필요하게 대화가 길어지는 것을 막고 텍스트를 입력하는 것에 비해 빠른 인터랙션을 이끌어낼 수 있습니다. 지금까지 대화형 AI 제품 디자인 시 사용자 경험을 극대화하기 위해 고려해야 할 인터페이스 특성과 시나리오 구성, 주의할 점에 대해서 살펴보았다. 확장적인 사용자 경험을 만들어내기 위해서는 AI의 역할에 가치를 줄 수 있는 부분을 뚜렷하게 정의하고, 사용자 의도와 그 소통 방식에 맞춰 정보를 제공하는 본질적인 고민이 꾸준히 필요하다.

     

    반응형

     

    SMALL

    태그:

    #CHATGPT #GPT-4챗GPT  #AI #보이스피싱 #Deepfake #ChatGPT-5 #코디 #미국국방부 #해리슨포드 #인공지능뉴스 #멀티모달 #메타버스 #몸+마음, 가상+현실, #예술+기술

     

     

    반응형
    LIST
Designed by Tistory.