OpenAI GPT-4 중순 2023년 도착 예정

gpt-4-640b66db8c60d-sej-1520x800.jpg

Microsoft 독일 CTO인 안드레아스 브라운은 GPT-4가 2023년 3월 9일 이후 일주일 이내에 출시될 것이라고 확인하고, 이제 다중모달 기능을 제공할 것이라고 밝혔습니다. 다중모달 인공지능은 비디오, 이미지, 음성과 같은 여러 종류의 입력에서 작동할 수 있는 능력을 갖게 될 것입니다.

업데이트: GPT-4는 2023년 3월 14일에 출시되었습니다.

OpenAI가 2023년 3월 14일에 GPT-4를 발표했습니다. 이는 이미지와 텍스트 프롬프트를 받아들이는 다중모달 모델입니다.

모달은 기계 학습에서 텍스트와 같은 형태의 입력을 나타내는 구문으로 사용됩니다. 또한 소리, 시각, 냄새 등과 같은 감각도 포함됩니다.

OpenAI의 공지에서는 GPT-4의 진보에 대한 규모를 설명했습니다:

"...수많은 실생활 상황에서 인간보다 능력이 떨어지지만, 여러 전문적이고 학문적인 기준에 대해 인간 수준의 성능을 보여줍니다.

예를 들어, 시뮬레이션된 변호사 시험에서 상위 10% 수준의 점수를 받으며, 반면 GPT-3.5의 점수는 하위 10% 수준이었습니다."

"우리는 적대적 테스트 프로그램과 ChatGPT에서의 경험을 통해 GPT-4를 6개월간 반복 조정하였으며, 결과적으로 우리의 가장 우수한 결과를 보여주었습니다(비록 완벽하진 않지만), 신뢰성, 조종성 및 가드레일 외부로의 이탈을 거부하는 측면에서 말이죠."

다중 모달 대형 언어 모델

발표에서 가장 중요한 사실은 GPT-4가 다중 모달인 것입니다 (SEJ는 2023년 1월 GPT-4가 다중 모달임을 예측하였습니다).

Modalities(현실감)은 (이 경우에는) 대규모 언어 모델이 다루는 입력 유형에 대한 참조입니다.

멀티모달은 텍스트, 음성, 이미지, 비디오를 포함할 수 있습니다.

GPT-3와 GPT-3.5는 오직 텍스트 모드에서만 작동합니다.

독일 뉴스 보도에 따르면, GPT-4는 이미지, 소리 (청각), 텍스트 및 비디오와 같은 최소한 네 가지 모드로 작동할 수 있을 것입니다.

드 안드레아스 브라운, CTO Microsoft 독일은 다음과 같이 인용되었습니다:

"다음 주에 GPT-4를 소개할 것입니다. 거기에는 완전히 다른 가능성을 제공하는 다중 모달 모델 - 예를 들어 비디오 - 이 있을 것입니다..."

GPT-4에 대한 보고는 구체적인 정보가 부족하여 GPT-4의 다중 모달리티에 대해 공유된 내용이 GPT-4에 특정한 것인지 아니면 일반적인 내용인지 알 수 없습니다.

마이크로소프트 비즈니스 전략 디렉터 홀거 켄은 마이크로 소프트 GPT-4의 다중모드 또는 일반적인 다중모드 중 어떤 것을 언급하고 있는지에 대한 보고가 불명확하여 설명하였습니다.

나는 그가 다중모드에 대한 언급이 GPT-4에 특정되었다고 믿습니다.

뉴스 보고서에는 다음과 같이 전해진 내용이 있습니다:

“켄은 다중모달 인공지능이 무엇인지 설명했습니다. 이는 텍스트를 이미지로만이 아니라 음악과 비디오로도 번역할 수 있습니다.”

또 다른 흥미로운 사실은 Microsoft가 AI를 더 신뢰할 수 있는 방식으로 사실에 근거를 둘 수 있도록 "신뢰 지표"에 대해 연구하고 있다는 것입니다.

마이크로소프트 Kosmos-1

미국에서는 잘 알려지지 않았지만, Microsoft는 2023년 3월 초에 Kosmos-1이라는 멀티모달 언어 모델을 출시했습니다.

독일 뉴스 사이트인 Heise.de에 따르면:

“ ...팀은 사전 훈련된 모델을 다양한 테스트에 적용하여, 이미지의 분류, 이미지 내용에 대한 질문에 대한 답변, 이미지의 자동 레이블 지정, 광학 문자 인식 및 음성 생성 작업에 대해 좋은 결과를 얻었습니다.

…시각적인 추론, 즉 중간 단계로 언어를 사용하지 않고 이미지에 대한 결론을 내리는 것이 여기에 핵심인 것 같습니다…

Kosmos-1는 텍스트와 이미지의 모드를 통합한 다중 모달입니다.

GPT-4는 Kosmos-1보다 더욱 진보한데, 영상이라는 제 3의 형태를 더해주며, 소리 형태도 포함하고 있는 것 같습니다.

여러 언어에서 작동

GPT-4는 모든 언어에서 작동하는 것으로 보입니다. 독일어로 질문을 받아 이탈리아어로 답변할 수 있다고 설명되었습니다.

그런 것은 다소 이상한 예제입니다. 왜냐하면 누가 독일어로 질문을 하고 이탈리아어로 답변을 원할까요?

확인된 내용은 다음과 같습니다:

"...기술은 이제까지 왔으며 이제 "모든 언어로 작동합니다": 독일어로 질문하고 이탈리아어로 대답을 받을 수 있습니다."

다중 모드로 인해 Microsoft(-OpenAI)는 '모델을 포괄적으로 만들 것입니다'."

나는 이 혁신의 핵심이 다른 언어 간에 지식을 추출하는 능력으로 언어를 초월한다는 것입니다. 따라서, 답이 이탈리아어로 되어 있다면 이를 알고 질문이 온 언어로 답변을 제공할 수 있을 것입니다.

이는 구글의 멀티모달 인공지능인 MUM과 비슷한 목표를 갖게 될 것입니다. MUM은 일본어와 같이 다른 언어로만 데이터가 존재하는 경우에도 영어로 답변을 제공할 수 있다고 합니다.

GPT-4 응용

현재 GPT-4가 어디에 출시될지에 대한 공지는 없습니다. 그러나 Azure-OpenAI가 명시적으로 언급되었습니다.

구글은 경쟁 기술을 자사의 검색 엔진에 통합함으로써 마이크로소프트를 따라잡기 위해 고군분투하고 있습니다. 이러한 발전은 구글이 뒤처지고 소비자 지향 인공지능 분야에서 리더십을 갖지 못하고 있다는 인식을 더욱 악화시킵니다.

구글은 이미 구글 렌즈, 구글 지도 및 기타 사용자가 구글과 상호작용하는 영역에서 AI를 다양한 제품에 통합하고 있습니다. 이 방식은 AI를 보조 기술로 활용하여 사람들을 작은 일에 도움을 주는데 사용하는 것입니다.

마이크로소프트가 이를 구현하는 방식은 더욱 시각적이며, 결과적으로 구글이 뒤처지고 고난을 겪고 있다는 이미지를 강화시키고 있습니다.

오픈AI GPT-4의 공식 출시 공지를 여기에서 확인하세요.

독일 원문 기사는 여기에서 확인하세요:

GPT-4는 다음 주에 출시될 예정입니다 - 그리고 이번에는 멀티모달을 지원한다고 Microsoft Germany가 말했습니다.

관련 기사

더 보기 >>

HIX.AI로 AI의 힘을 발휘해보세요!