Table of Contents
오픈AI는 최근 봄철 업데이트 이벤트에서 새로운 멀티모달 모델인 ‘GPT-4o‘를 공개했습니다. 이 모델은 텍스트, 이미지, 오디오를 실시간으로 처리할 수 있는 강력한 기능을 자랑합니다. 또한, 화제를 모았던 정체불명의 ‘gpt2-챗봇’이 바로 이 모델이라는 사실도 확인되었습니다.
GPT-4o의 주요 기능
- 멀티모달 지원: GPT-4o는 텍스트, 이미지, 오디오를 통합하여 실시간으로 처리할 수 있습니다. 이는 사용자가 구두로 질문을 하면 최소 232밀리초, 평균 320밀리초 안에 오디오로 응답할 수 있어, 사람의 반응 속도와 유사합니다.
- 향상된 성능: GPT -4o는 GPT-4 터보보다 두 배 더 빠르고 비용은 절반 수준입니다. 이는 텍스트, 이미지, 음성을 통합하여 하나의 모델로 운영함으로써 가능해졌습니다. 미라 무라티 CTO는 “모델 3개가 함께 작동하면 많은 지연 시간이 발생하지만, 하나의 모델이 있으면 모든 대기 시간을 줄일 수 있다”고 설명했습니다.
- 다국어 지원: GPT-4o는 50개 이상의 언어를 지원하며, 한국어를 포함한 20개 언어에서는 토크나이저 압축을 통해 성능이 크게 향상되었습니다. 거의 즉각적으로 다른 언어로 번역이 가능해져 국제적인 사용자들에게도 유용합니다.
- 음성 어시스턴트 기능: 이번 업데이트로 음성 어시스턴트 기능이 강화되었습니다. 노래로 대화 내용을 표현하거나, 휴대폰 두 대가 상호작용하는 모습도 시연되었습니다. 이 기능은 애플의 시리와 통합될 것으로 예상됩니다.
- 이미지 처리: GPT -4o는 이미지 처리에서도 뛰어난 성능을 보였습니다. 예를 들어, 종이에 적힌 수학 문제를 보여주고 답을 풀어내는 과정도 공개되었습니다.
벤치마크 및 성능 평가
GPT- 4o는 텍스트, 추론, 코딩 지능에서 GPT-4 T 수준을 능가하며, 다국어와 오디오, 비전 기능에서도 새로운 최고 수준을 달성했습니다. 이는 GPT- 4o가 최신 AI 기술의 정점에 있음을 나타냅니다.
추가 발표 및 앞으로의 계획
오픈AI는 향후 몇 주 안에 GPT -4o를 정식 출시할 예정입니다. 또한, 개발자를 위한 API는 이미 공개되었습니다. 이번 발표에서는 GPT-4o가 무료 사용자에게도 제공될 것임을 밝혔습니다. 이는 AI의 접근성을 크게 높이는 중요한 결정입니다.
샘 알트먼 CEO는 스트리밍 중 “영화에 나오는 AI 같은 느낌이다. 그리고 그것이 현실이라는 것이 아직도 나에게는 조금 놀랍다”고 언급하며, 인간 수준의 응답 시간과 표현력을 갖추게 된 것은 큰 변화라고 강조했습니다.
또한, 오픈AI는 ‘gpt2-챗봇’이 자사의 모델임을 확인했습니다. 이 모델은 챗봇 아레나에서 뛰어난 성능을 보여주며 큰 주목을 받았지만, 과도한 트래픽으로 인해 현재는 내려간 상태입니다.
앞으로 오픈AI는 AI 검색 제품, 동영상 생성 AI ‘소라’, 그리고 가장 중요한 ‘GPT-5‘의 공개를 준비하고 있습니다. 알트먼 CEO는 “우리는 곧 공유할 내용이 더 많아질 것”이라고 밝혔습니다.
GPT-4o는 기술적으로나 상업적으로 큰 도약을 이룬 모델로, AI의 새로운 가능성을 열어주고 있습니다. 이 모델이 앞으로 어떻게 발전할지 기대가 됩니다.