수많은 AI 에이전트가 등장을 했습니다. 하지만 감정을 잘 전달하진 못했는데요. 새벽에 시연한 GPT-4o 기반 챗GPT는 매우 풍부한 목소리를 냈습니다. 슬프거나, 기쁘거나, 또는 흥분된 목소리를 냅니다. 정말 감정이 풍부한 사람과 대화하는 느낌이었습니다. 다만 감정이 튀어 나올 때는, 중간 중간 AI 특유의 노이즈가 섞였있는 것이 흠이었습니다.
수학문제에서 길안내까지
이러한 AI 에이전트는 다양한 응용이 가능합니다. 오픈AI는 수학 문제를 실시간 촬영하는 영상을 시연했는데요. 챗GPT가 문제를 보고 조언을 해줬습니다. 물론 고차원 수학문제까지 풀 수 있을지는 미지수입니다. 다만 응용 분야가 무궁무진한 것은 맞습니다. 이미지나 영상을 촬영해 올리고, 조언을 받을 수 있게 됐기 때문입니다.
예를 들어 소프트웨어 엔지니어라면 코드를 입력해, 이상 유무를 실시간 음성으로 교정 받을 수 있습니다. 마치 옆에 있는 비서처럼 말입니다. 아울러 차트에 대한 해석도 부탁할 수 있습니다. 오픈AI 엔지니어는 평균, 최소, 최대 온도 그래프의 이미지를 업로드하고, 이에 대한 해석을 음성으로 듣는 시연을 했습니다.
- 마크: 다음 그래프를 보고, 가장 뜨거운 날을 알려줘.
- GPT: 그건 7월20일인데, 그날의 온도는...
얼마나 실시간인지가 관건이었는데요. 짧으면 232밀리초 평균 320밀리초라는 것이 오픈AI 설명입니다. 1밀리초는 1000분의 1초이기 때문에, 이정도 속도면 사람과 실시간 대화하는 것과 다름없습니다. 종전 챗GPT 음성 모드는 GPT-3.5가 5.4초, GPT-4가 2.8초 걸렸는데요. 그 속도를 매우 크게 깬 것입니다.
외국어 교사 필요 없어질까
듣다보니, 토익 듣기 평가가 생각이 나더라고요. 이제 외국어 공부는 챗GPT와 본격적으로 하는 시대가 펼쳐지지 않을까 하는 생각마저 들었습니다. 물론 어느정도 교정을 해줄지는 테스트를 해봐야겠네요.
아울러 이런 음성 기능 강화는 증강현실(AR) 글래스를 크게 발전시킬 것으로 보입니다. 현재도 AR 글래스를 중심으로 메타가 AI 에이전트 접목을 시도하고 있는데요, 향후 충돌이 예상됩니다. 또 시각장애인을 위한 AR 글래스가 충분히 태동할 단계에 온 듯 합니다. 오픈AI는 시각장애인이 새 챗GPT를 활용해 주변을 설명 듣는 영상(좌표)을 선보였습니다.
크게보기
가장 궁금한 것은? 네 무료입니다! 다만 유료 사용자는 사용할 수 있는 용량이 다섯 배 더 크다고 했습니다. 음성을 미리 듣고 싶다면 블로그(좌표) 하나 적어드리겠습니다. 다만 현재는 음성만 들을 수 있습니다. 다만 시장에서 크게 기대를 모았던 구글에 대항하는 AI 검색은 등장하지 않았습니다.