OpenAI의 거대한 GPT-3는 AI를 위한 언어 모델의 한계를 시사합니다.

약 1년 전, 샌프란시스코에 본사를 둔 인공지능 회사인 OpenAI가 세계를 놀라게 했습니다. 컴퓨터의 언어 능력이 크게 향상된 것처럼 보여주며, 문장을 완성하거나 긴 텍스트를 만드는 등의 질문을 해결할 수 있었고, 이를 보는 사람들이 꽤 사람스러운 텍스트로 느꼈습니다.

해당 팀의 최신 작업은 OpenAI의 생각이 몇 가지 측면에서 성숙해진 것을 보여줍니다. GPT-3라는 최신 작품은 지난 주에 등장하였으며, 마지막 버전과 같은 저자인 Alec Radford와 Ilya Sutskever를 비롯한 여러 명과 함께, Johns Hopkins University의 과학자들도 함께 참여하여 더 많은 특색과 기능을 갖췄습니다.

그것은 이제 진정한 몬스터 언어 모델이며, 이전 모델보다 100배 더 많은 텍스트를 흡수하고 있습니다.

그런 큰 것이 더 좋다는 장난 속에서도 OpenAI 팀은 어떤 심도 있는 진실에 접근하고 있는 것 같습니다. 마치 영화 2001의 끝에서 Dr. David Bowman이 알려진 한계에 다가가는 것처럼요.

72페이지의 논문인 언어 모델은 페워샷 학습자들은 지난 주에 arXiv 사전인쇄 서버에 게시된 결론 부분에 매우 눈에 띄는 인정이 있습니다.

"본 논문에서 설명한 일반적인 접근 방식의 보다 근본적인 한계는, 자유로운 분포적 모형(autoregressive or bidirectional)을 확장하는 것이라고 할 수 있습니다. 이러한 확장은 사전훈련 목표의 한계에 부딪히거나 이미 한계에 도달하고 있을 수도 있다"라고 저자들은 쓰고 있습니다.

저자들이 말하고 있는 것은, 아무 문장이나 구에 다음 단어의 확률을 예측하는 신경망을 만드는 것에는 한계가 있을 수 있다는 것입니다. 그것을 더 강력하게 만들고 더 많은 텍스트로 채워 넣는다 해도 더 좋은 결과를 얻을 수 없을지도 모릅니다. 이는 주로 컴퓨팅 파워를 문제에 더 투입하는 업적을 경축하는 논문 속에서 중요한 인정이라고 할 수 있습니다.

gpt-3-versus.jpg

저자들의 결론이 왜 그렇게 중요한지 이해하기 위해서는 우리가 여기에 도달한 방식에 대해 생각해봐야 합니다. OpenAI의 언어에 대한 연구 역사는 점차 진화해온 특정 방식의 역사와 연결되었으며, 기술이 점점 커지고 커지고 커짐에 따라 성공도 더욱 증가했습니다.

원래의 GPT와 GPT-2는 모두 2017년 Google에서 개발한 Transformer의 적용이다. Transformer는 attention이라고 불리는 함수를 사용하여 주변 단어가 주어졌을 때 단어가 나타날 확률을 계산한다. OpenAI는 GPT-2의 가장 큰 버전에 대한 소스 코드를 공개하지 않겠다고 밝힘으로써 논란이 일어났다. 그 이유는 그 코드가 잘못된 손에 넘어가거나 가짜 뉴스와 같은 것으로 사람들을 오도할 우려가 있기 때문이다.

새로운 논문은 GPT를 더욱 크게 만들어 다음 수준으로 이끌었습니다. GPT-2의 가장 큰 버전인 소스로 게시되지 않은 버전의 파라미터는 15억개였습니다. GPT-3는 1750억개의 파라미터를 가지고 있습니다. 파라미터는 신경망에서 계산되는 것으로, 데이터의 특정 측면에 대해 더 크거나 작은 가중치를 적용하여 전체 데이터의 계산에 그 측면을 더 크게 또는 작게 반영하는 역할을 합니다. 이러한 가중치는 데이터에 형태를 부여하고, 신경망에 데이터에 대한 학습된 관점을 제공합니다.

시간이 지남에 따라 가중치를 높이는 것은 GPT 프로그램 패밀리 및 Google의 BERT와 같은 다른 대형 Transformer 파생체의 놀라운 표준 테스트 결과를 이끌었으며, 이러한 결과는 항상 매우 인상적이었습니다.

많은 사람들이 언어 모델 중 어느 하나도 실질적인 의미에서 언어를 이해하는 것 같지 않다고 지적하였지만 실제로는 이러한 언어 모델들은 테스트를 통과하는 데에서 최고점을 받고 있으며, 그것은 무언가 의미가 있는 일입니다.

최신 버전은 다시 양적인 진보를 보여줍니다. GPT-2와 기타 Transformer 기반 프로그램과 마찬가지로 GPT-3는 웹에서 스크랩된 거의 1조 단어의 텍스트로 구성된 Common Crawl 데이터 세트에서 훈련됩니다. 작성자는 "데이터 세트와 모델 크기는 GPT-2에 사용된 것보다 2개 자리 숫자 크기입니다."라고 설명합니다.

GPT-3는 1750억 개의 매개변수를 가지고 있어, 저자가 "메타-러닝"이라고 묘사한 것을 달성할 수 있습니다. 메타-러닝이란 GPT 신경망이 문장 완성과 같은 작업을 수행하기 위해 다시 훈련되지 않는다는 것을 의미합니다. 예를 들어, 불완전한 문장과 완성된 문장의 예제가 주어지면, GPT-3는 주어진 어떤 불완전한 문장이라도 완성할 수 있습니다.

GPT-3는 한 가지 도움말만으로도 작업을 학습할 수 있습니다. 특정 작업만을 수행하기 위해 세밀하게 조정된 Transformer의 이전 버전보다 어떤 경우에는 더 나은 결과를 보여줍니다. 따라서 GPT-3은 모든 작업에 대한 승리입니다. 그저 이상적인 가중치를 갖도록 방대한 양의 텍스트를 입력하면, 더 이상의 개발 없이도 여러 개의 특정 작업을 잘 수행할 수 있습니다.

그곳은 새로운 논문에서 이야기가 눈에 띄는 마무리를 이룹니다. GPT-3의 언어 작업에서의 놀라운 결과를 문장 완성부터 명제의 논리를 추론하는 것, 언어 간 번역까지 다양하게 소개한 후, 저자들은 단점을 언급합니다.

"GPT-3에 대한 강력한 양적 및 질적 개선에도 불구하고, 특히 GPT-2와 비교할 때 여전히 주목할 만한 약점들이 있습니다."

그러한 약점은 적대적 NLI(자연어 추론)에서 상당한 정확도를 달성하지 못한다는 점을 포함한다. NLI는 프로그램이 두 개의 문장 사이의 관계를 결정해야 하는 테스트이다. 페이스북과 북캐롤라이나 대학교의 연구원들은 이러한 문제를 해결하기 어려운 문장 쌍을 인간이 생성한 적대적인 버전을 도입했다.

GPT-3는 "적대적 NLI 같은 것에서 운이 좋은 것보다 조금 나은 결과를 보여줍니다."라고 저자들은 씁니다. 더욱이, 시스템의 처리 능력을 1750억 개의 가중치로 늘렸음에도 불구하고, 저자들은 왜 어떤 작업에서 실패했는지 정확히는 모르고 있습니다.

그들은 위에서 인용된 결론에 따라, 아마도 거대한 기계에 거대한 텍스트 코퍼스를 단순히 입력하는 것이 궁극적인 해결책이 아닐 수도 있다고 결론을 내리게 됩니다.

놀랍게도 그 다음 관찰은 더욱 놀라울 수 있습니다. 언어에 대해 무슨 일이 일어날지 예측하려는 전체적인 시도는 잘못된 접근일지도 모른다고 저자들은 적습니다. 그들은 잘못된 곳을 목표로 하고 있을 수도 있습니다.

"자기 자문 목표로 인해, 작업 명세는 원하는 작업을 예측 문제로 강제하는 데에 의존합니다," 그들은 쓰고 있습니다, "그러나 궁극적으로 유용한 언어 시스템 (예: 가상 비서)은 단순히 예측을 하는 것보다 목표 지향적인 작업을 수행하는 것으로 생각하는 것이 더 나을 수 있습니다."

저자들은 이 꽤 흥미로운 새로운 방향을 어떻게 다룰 것인지는 나중에 다루기로 합니다.

더 큰 것이 결코 항상 최상의 선택이 아닐 수 있다는 인식에도 불구하고, GPT-3의 많은 작업에서의 향상된 결과는 더욱 크고 큰 신경망에 대한 열망을 줄이지 않고 오히려 촉진할 것으로 예상됩니다. 1750억 개의 매개변수로 GPT-3은 잠시동안 대형 신경망의 왕이 됩니다. AI 칩 회사인 Tenstorrent의 4월 프레젠테이션에서는 앞으로 1조 개 이상의 매개변수를 가진 신경망에 대해 설명되었습니다.

기계 학습 커뮤니티의 상당 부분에 있어서, 더 큰 언어 모델링이 최신 기술로 유지될 것입니다.

관련 기사

더 보기 >>

HIX.AI로 AI의 힘을 발휘해보세요!