오픈AI, 음성비서 GPT-4o 공개 “감정까지 전달”

글씨가 잘 안보이시나요?

여러분이 잠든사이 오늘 새벽 2시, 오픈AI가 ‘봄맞이 업데이트’를 전격 단행했습니다. 챗GPT와 GPT-4.0 모두 업데이트했는데요. 궁금해서 안볼 수 없었습니다. 오픈AI는 GPT-4라는 대규모 언어 모델을 갖고 있지만, 아직도 적자가 심합니다.

때문에, 오픈AI는 그동안 AI 분야에서 핫한 스타트업의 비즈니스 모델을 꾸준히 벤치마크 하면서 다양한 실험을 벌였는데요. 오늘은 음성에 도전하는 모습을 보여줬습니다. 새벽에 어떤 발표를 했는지. 짧고 굵게 살펴 드리겠습니다.

오늘의 에디션

GPT 업데이트한 오픈AI
에너지에 투자하는 빅테크
AI안전 회담 여는 G2

편지 제대로 읽는 방법: 볼딕으로 된 단어에는, URL이 포함돼 있습니다. 클릭하면 세부 내용이 연결됩니다. 미라클레터는 인스타그램(링크)을 운영하고 있어요. 질문하고 싶으면 클릭!

GPT-4o: 미라 무라티 CTO(왼쪽)와 그 동료들이 챗GPT와 실시간 대화를 하고 있다.

플래그십 모델 GPT-4o

오픈AI가 드디어 GPT-4o를 발표했습니다. 우리말 발음은 ‘지피티 포오’인데요. 수주에 걸쳐 순차로 배포한다고 합니다. 한국에서 사용해 보려면 최소 2주는 걸릴 것 같은 생각이 듭니다. GPT-4o는 GPT-4 업데이트 버전인데요. 텍스트 비전 오디오 통합 멀티모달(Multi-Modal)입니다. 멀티모달은 다양한 AI 엔진, 예를 들어 언어모델, 비디오 모델, 음성 모델을 통합한 AI 에이전트(비서)입니다.

네이티브 멀티모달

오픈AI는 GPT-4o를 가리켜 ‘네이티브 멀티모달’이라고 소개했습니다. 본토박이 멀티모달이라고 해석해도 될지 모르겠습니다. 참! GPT-4o에서 o는 “모든”이라는 뜻을 가진 ‘옴니’의 약자입니다. 즉 해석하면, 타고난 모든 멀티모달 정도 되겠네요.

이날 발표는 샘 올트먼 CEO가 할 줄 알았는데요. 미라 무라티 오픈AI 최고기술책임자(CTO)가 무대에 올라 마이크를 잡았습니다. 그는 먼저 이런 말을 꺼냈습니다. “챗GPT는 오늘날 1억명이 사용하는 AI 솔루션입니다. 오늘날 97% 세계 시민을 커버하는 50개 언어로 제공되는데요. 15개 언어를 추가했습니다. 또! GPT-4o API는 GPT-4 보다 2배 더 빠르고 가격은 2배 쌉니다.” 아울러 챗GPT의 새로워진 UI를 선보인다고 발표했습니다.

GPT-4o의 가장 큰 핵심 기능은 음성입니다. 그동안 챗GPT에도 음성 기능이 없지는 않았습니다. 텍스트를 음성으로 변환하는 음성 모드를 제공했는데요. 이제는 AI와 실시간 대와하는 수준으로 진화했습니다. 마크 첸 엔지니어가 무대에 올라 챗GPT와 대화를 시연 했습니다. (챗GPT는 서비스 이름이고, GPT는 AI 엔진 이름입니다.)

너무나도 놀라운 음성기능

마크: 안녕, 챗GPT!
챗GPT: 안녕 마크! 난 잘 지내, 넌 어떻게 지내니.
마크: (이어서 ) 후하 후하 (소리만 냅니다.)
챗GPT: 와우 왜 이렇게 깊은 소리를 내. 진정해

말하는 이의 감정을 읽은 것입니다. 이어 대화를 합니다.

마크: 안녕 로봇과 사랑에 빠진 이야기를 들려줘,
GPT: 오 스토리! 내가 바로 들려줄게. 기다려봐.
마크: 아니 그거 말고 다른 스토리를 들려줘
GPT: 물론이지!
마크: 아니 그거 말고 좀 더 감정을 실어서 들려줘
GPT: 물론이지. 음악으로도 들려줄 수 있어. (갑자기 오페라 형태로 대화를 하는 GPT)

시각 장애인의 택시잡기: GPT-4o를 이용하는 시각장애인 시연

감정을 실어 말하는 AI

수많은 AI 에이전트가 등장을 했습니다. 하지만 감정을 잘 전달하진 못했는데요. 새벽에 시연한 GPT-4o 기반 챗GPT는 매우 풍부한 목소리를 냈습니다. 슬프거나, 기쁘거나, 또는 흥분된 목소리를 냅니다. 정말 감정이 풍부한 사람과 대화하는 느낌이었습니다. 다만 감정이 튀어 나올 때는, 중간 중간 AI 특유의 노이즈가 섞였있는 것이 흠이었습니다.

수학문제에서 길안내까지

이러한 AI 에이전트는 다양한 응용이 가능합니다. 오픈AI는 수학 문제를 실시간 촬영하는 영상을 시연했는데요. 챗GPT가 문제를 보고 조언을 해줬습니다. 물론 고차원 수학문제까지 풀 수 있을지는 미지수입니다. 다만 응용 분야가 무궁무진한 것은 맞습니다. 이미지나 영상을 촬영해 올리고, 조언을 받을 수 있게 됐기 때문입니다.

예를 들어 소프트웨어 엔지니어라면 코드를 입력해, 이상 유무를 실시간 음성으로 교정 받을 수 있습니다. 마치 옆에 있는 비서처럼 말입니다. 아울러 차트에 대한 해석도 부탁할 수 있습니다. 오픈AI 엔지니어는 평균, 최소, 최대 온도 그래프의 이미지를 업로드하고, 이에 대한 해석을 음성으로 듣는 시연을 했습니다.

마크: 다음 그래프를 보고, 가장 뜨거운 날을 알려줘.
GPT: 그건 7월20일인데, 그날의 온도는...

얼마나 실시간인지가 관건이었는데요. 짧으면 232밀리초 평균 320밀리초라는 것이 오픈AI 설명입니다. 1밀리초는 1000분의 1초이기 때문에, 이정도 속도면 사람과 실시간 대화하는 것과 다름없습니다. 종전 챗GPT 음성 모드는 GPT-3.5가 5.4초, GPT-4가 2.8초 걸렸는데요. 그 속도를 매우 크게 깬 것입니다.

외국어 교사 필요 없어질까

듣다보니, 토익 듣기 평가가 생각이 나더라고요. 이제 외국어 공부는 챗GPT와 본격적으로 하는 시대가 펼쳐지지 않을까 하는 생각마저 들었습니다. 물론 어느정도 교정을 해줄지는 테스트를 해봐야겠네요.

아울러 이런 음성 기능 강화는 증강현실(AR) 글래스를 크게 발전시킬 것으로 보입니다. 현재도 AR 글래스를 중심으로 메타가 AI 에이전트 접목을 시도하고 있는데요, 향후 충돌이 예상됩니다. 또 시각장애인을 위한 AR 글래스가 충분히 태동할 단계에 온 듯 합니다. 오픈AI는 시각장애인이 새 챗GPT를 활용해 주변을 설명 듣는 영상(좌표)을 선보였습니다.

크게보기

가장 궁금한 것은? 네 무료입니다! 다만 유료 사용자는 사용할 수 있는 용량이 다섯 배 더 크다고 했습니다. 음성을 미리 듣고 싶다면 블로그(좌표) 하나 적어드리겠습니다. 다만 현재는 음성만 들을 수 있습니다. 다만 시장에서 크게 기대를 모았던 구글에 대항하는 AI 검색은 등장하지 않았습니다.

마크 저커버그: 메타 CEO가 "에너지에 투자하세요"라는 팻말을 들고 있는 AI상상도

저커버그, AI는 에너지다

메타의 창업자 마크 저커버그가 인공지능 발전에 에너지가 걸림돌이 될 것이라고 주장했습니다. 특히 그는 "장기간 지속된 GPU 가뭄이 기본적으로 끝났으며, 앞으로는 에너지 제약이 IT 산업의 다음 병목 현상이 될 것"이라고 말했습니다. 무슨 뜻이냐고요.

그동안 엔비디아를 중심으로 GPU 수요가 폭증했는데, 현재 단계는 기업들이 그 GPU를 갖고 데이터센터를 지으려고 한다고 합니다. 하지만 정작 에너지 부족난에 직면해 어렵지 않을까 하는 메시지입니다.

“데이터센터 1개는 곧 10만가구”

저커버그는 일반 데이터센터가 50~100메가와트(MW)를 소비하는데, 대규모 데이터센터는 150MW를 쓴다고 했습니다. 또 AI 학습과 추론이 폭증하면서 1개 데이터센터가 300~500MW를 쓰는 것을 넘어. 몇몇 곳은 1기가와트(GW)까지 쓸 것으로 내다봤습니다.

1기가 와트는 약 10만 가구가 쓸 전력양입니다. 원자력 발전소 1기 수준입니다. 하지만 발전소를 급하게 늘리는 것은 매우 어렵습니다. 인허가에서 건설까지 상당한 과정이 필요하죠. 통상 화력 발전소는 3~5년, 원자력은 15년, 수력은 10년 정도 시간이 필요합니다.

에너지 분야에 투자해라

저커버그는 " 때문에 에너지를 생성하는데 투자할 가치가 있다"고 강조했습니다. 때문에 클라우드 사업을 하는 빅테크 기업을 중심으로 에너지 투자가 잇따르고 있습니다. 알파벳, 아마존, 마이크로소프트가 대표적인데요. 올 1~3월 이들이 에너지에 투자한 금액만 총 400억달러에 달한다고 합니다.

미국 유틸리티 기업인 도미니언에너지의 CEO 밥 블루는 "클라우드 업체들이 찾아와 몇 기가씩 에너지를 요구하는 경우가 많다"고 했습니다. JP모건은 아마존 마이크로소프트 구글 메타가 소모하는 전력량이 2022년 기준 콜롬비아 전력 소모량인 90테라와트시(TWH)에 맞먹는다고 분석했고요.

크게보기

전체 전력에서 데이터센터가 차지하는 비중 역시 커질 전망입니다. 컨설팅 기업 BCG는 미국 전력 소모에서 데이터센터가 차지하는 비중이 7.5%에 달할 것으로 분석. 역설적인 것은 이들은 자사의 브랜드를 위해 에너지 투자와 함께 탈탄소 분야에도 막대한 투자를 하고 있다고 합니다. 블룸버그는 탈탄소 분야 투자액이 2022년 3000억달러에서 2050년 8000억 달러로 커질 것으로 전망했습니다.

AI 전투기: 프랭크 켄달 미국 공군 장관이 에드워드 공군기지 상공에서 X-62A VISTA 자율 전투기 조종석에서 실험 비행을 하고 있다. 출처는 미국 공군 via AP.

미국·중국, AI안전 회담연다

미국과 중국이 14일 제네바에서 '인공지능 위험'을 주제로 첫 고위급 회담을 엽니다. 카운트 파트너는 미국 국무부·국가안보위원회와 중국 외교부·국가발전개혁위원회! 다만 회담 성격에 대해선, 살짝 온도차가 있습니다. 바이든 행정부 관계자는 "우리는 양측이 위험과 안전을 어떻게 정의하는지에 초점을 맞추고 있다"고 말했는데요. 반면 중국은 생각이 다소 다릅니다.

류펑위 주미중국대사관 대변인은 성명을 통해 "미국과 중국의 AI 관련 대화가 양국뿐 아니라 다른 국가들의 미래에도 영향을 미칠 것"이라면서 "양측은 솔직한 대화를 나눌 책임이 있다"고 말했습니다. 안전 외에도 다양한 논의를 나누자는 메시지입니다. 미국은 작년 10월 AI 칩의 중국 수출을 규제했는데요. 때문에 중국은 대규모 언어 모델 학습에 필요한 엔비디아 H100 수입이 막혔습니다.

미국은 "불필요한 기대는 하지말라"는 메시지를 확실히 보냈습니다. 특히 바이든 행정부는 "국가 안보 조치는 협상 대상이 아니다"고 일축. 브루킹스 연구소는 군사적으로 허용되는 AI 사용에 대한 이해를 높이고, AI 모델 훈련을 위해 국경을 넘어 어떤 종류의 데이터를 공유할 수 있는지에 대한 합의를 도출할 수 있을 것이라고만 분석했습니다.

크게보기

미국 공군은 2028년까지 인공지능(AI) 파일럿이 조종하는 전투기 1000대를 실천 배치 계획인데요. 프랭크 켄달 미국 공군 장관은 이달 캘리포니아 에드워즈 공군기지에서 AI 파일럿이 조종하는 F-16 전투기에 탑승해 주목을 끌었습니다.

분명 다른 장면도 있어요. 작년 말 UN은 인공지능(AI)이 표적을 파악하는 데 그치지 않고 치명적인 공격을 가하는 선택까지 내리는 '치명적 자율무기 시스템'(Lethal Autonomous Weapon Systems)의 위협에 국제사회가 적극 대응해야 한다는 결의안을 처리. 하지만 강제조항은 없었습니다.

미라클레터 오픈AI 특집

오픈AI에 대해 더 궁금하다면, 아래 제목을 누르고 읽어보세요!

맺음말

오늘은 새벽에 벌어진 오픈AI 이벤트와 앞으로 다가올 이슈들을 짧고 굵게 점검했는데요. 내일은 IT 업계에 또 다른 빅 이벤트가 열립니다. 바로 구글 I/O입니다. 구글은 작년 I/O에서 제미나이를 선보였고, 검색, 구글 지도 등을 업데이트했습니다.

올해는 어떤 내용이 발표 되냐고요? 역시 AI일 것이라는 기대감이 큽니다. 현장에서는 구글이 래빗R1이나 휴메인AI처럼 디바이스형 AI를 출시할 것으로 전망! 물건 사진을 찍어 사용법을 묻거나, 길 안내를 받는 등 멀티모달이 한층 강화될 것으로 예상하고 있습니다.

다음 현장 소식은 이덕주 특파원이 생생하게 전달해 드릴 예정입니다. 늘 최신 소식으로 독자님들의 지식을 한층 업데이트해 드리도록 노력하겠습니다. 독자님의 힘찬 하루를 응원합니다.

진심을 다합니다

이상덕 드림

오픈AI, 음성비서 GPT-4o 공개 “감정까지 전달”

댓글 쓰기

Recent Posts

Facebook

대전 성심당 본점 빵 직접 먹어본 후기

이 황금기 스타들은 은퇴 후에도 여전히 멋진 활약을 펼치고 있다

Latest Posts

Popular Posts

대전 성심당 본점 빵 직접 먹어본 후기

그녀는 여전히 '완벽'하다

전문가들이 말하는 지금 당장 끊어야 할 해로운 걷기 습관 6가지

행동이 자동화되면 무언가가 습관이 됩니다.

체중 감량을 위한 동기를 부여하는 방법

문의하기 양식