OpenAI의 U-턴: API 고객 데이터로 GPT-4를 훈련시키지 않음

OpenAI는 이전과는 다른 혁신적인 방침을 내놓고, GPT-4와 같은 방대한 언어 모델을 훈련시키기 위해 고객 데이터를 더 이상 API를 통해 사용하지 않을 것이라고 발표했습니다.

이 변경은 OpenAI의 CEO인 Sam Altman에 의해 최근 CNBC와의 인터뷰에서 확인되었다.

OpenAI의 사용자 데이터에 대한 새로운 접근 방식

OpenAI의 정책 변경은 2023년 3월 1일에 시행되었으며, 이 회사는 조용히 서비스 약관을 업데이트하여 사용자의 개인정보 보호에 대한 새로운 약속을 반영하였습니다.

알트먼은 말했다. "고객들은 분명히 우리가 그들의 데이터에 대해 학습하지 않기를 원하는 것이고, 그래서 우리는 계획을 변경하였다: 우리는 그렇게 하지 않을 것이다."

API, 또는 응용 프로그램 프로그래밍 인터페이스,는 고객이 OpenAI의 소프트웨어에 직접 연결할 수 있는 기술적인 프레임워크입니다.

알트만은 오픈AI가 모델 훈련에 API 데이터를 "한동안" 사용하지 않았다고 말했다. 이는 공식 발표가 기존의 실천을 공식적으로 확립하는 것을 시사한다.

OpenAI의 이동은 특히 Microsoft, Salesforce 및 Snapchat과 같은 거대 기업 고객에게 큰 영향을 미칩니다.

이러한 기업들은 OpenAI의 API 기능을 자주 활용하기 때문에, 프라이버시와 데이터 보호의 변화가 그들에게 특히 중요합니다.

그러나 새로운 데이터 보호 조치는 회사의 API 서비스를 이용하는 고객에게만 적용됩니다. OpenAI의 업데이트된 이용 약관에는 다음과 같은 내용이 기재되어 있습니다. "API 이외의 서비스에서 콘텐츠를 사용할 수 있습니다."

따라서, ChatGPT와 같은 인기있는 챗봇으로 입력된 텍스트와 같은 다른 형태의 데이터는 API를 통해 공유되지 않는 한 OpenAI에서 여전히 활용될 수 있습니다.

OpenAI의 정책 변화는 산업들이 인간에 의해 전통적으로 만들어져 온 자료를 대체할 수 있는 OpenAI의 ChatGPT와 같은 대형 언어 모델의 잠재적 영향에 대처하는 상황에서 이루어졌습니다.

예를 들어, 미국 작가 협회는 최근 작가 협회와 영화 스튜디오 간의 협상이 결렬된 후 파업을 시작했습니다. 작가 협회는 OpenAI의 ChatGPT를 대본 생성이나 수정에 사용하는 것에 제한을 두기를 주장하고 있었습니다.

OpenAI의 고객 데이터를 훈련에 사용하지 않는 결정은 데이터 프라이버시와 AI에 관한 지속적인 대화에서 중요한 이정표이다. 기업들은 AI 기술의 한계를 탐색하고 넓혀가면서, 사용자의 개인정보 보호와 신뢰 유지는 이러한 논의의 중심에 계속될 것으로 예상된다.

중요한 점은 OpenAI의 고객 데이터를 교육에 사용하지 않는 약속이 최신 언어 모델인 GPT-4에 적용된다는 것입니다. GPT-4은 2023년 3월 14일에 출시되었습니다.

GPT-4는 선배 모델인 GPT-3에 비해 여러 가지 개선 사항을 도입했습니다. ChatGPT의 3,000단어 제한에 비해 일정 크기의 단어 제한 수(25,000)에서 크게 증가하였으며, 더 큰 문맥 윈도우 크기와 향상된 추론 및 이해 능력을 갖추고 있습니다.

GPT-4의 또 다른 주목할만한 특징은 멀티 모달리티입니다. 즉, 텍스트뿐만 아니라 이미지에서도 정보를 이해하고 추론할 수 있는 능력을 갖추고 있습니다. 이 최신 모델은 이모지와 같은 기능을 사용하여 더욱 인간적인 텍스트를 생성하여 개인적인 느낌을 더합니다.

그러나 GPT-4의 정확한 크기와 아키텍처는 비공개되어 있어, 모델의 세부 사항에 대한 추측이 있습니다.

이런 루머들에도 불구하고, OpenAI의 CEO는 모델의 크기에 대한 구체적인 주장들을 부인했습니다.

성능 측면에서 GPT-4는 텍스트 생성에 있어서 강점을 보였지만 일부 한계도 있습니다. 예를 들어, GPT-4의 GRE Writing 시험 점수는 54 백분위에 머물렀으며, AP Calculus BC 시험에서는 43-59 백분위에 해당하는 성적을 내었습니다.

또한, 이는 쉬운 Leetcode 코딩 과제에서는 잘 수행되었지만, 과제 난이도가 증가함에 따라 성능이 저하되었습니다.

GPT-4의 훈련 과정에 대한 구체적인 내용은 공식적으로 문서화되어 있지 않지만, GPT 모델들은 일반적으로 다양한 종류의 인터넷 텍스트로 광범위한 규모의 기계 학습을 포함하고 있습니다.

OpenAI의 데이터 사용 정책 변경으로 인해, 언어 모델 훈련에 사용되는 데이터에는 사용자가 명시적으로 기여하기 위해 API를 통해 공유한 정보가 포함되지 않습니다.

이 기술이 개선되고 우리 일상에서 더 중요한 역할을 하게 되는 동안, 회사들이 데이터를 비공개로 유지하고 사람들의 신뢰를 얻기 위한 우려에 대응하고 회전하는 모습은 흥미롭습니다.