이 새로운 기술은 GPT-4와 유사한 모든 것을 날려버릴 수 있습니다

대화형 AI 프로그램으로 알려진 ChatGPT 및 후속 기술인 GPT-4에 대한 열정에도 불구하고, 이 프로그램들은 결국 소프트웨어 애플리케이션에 불과합니다. 그리고 모든 애플리케이션과 마찬가지로, 성능을 떨어뜨릴 수 있는 기술적인 한계가 있습니다.

3월에 발표된 논문에서 스탠포드 대학교와 캐나다의 인공지능 연구소인 MILA는 GPT-4나 그와 유사한 기술보다 훨씬 효율적일 수 있는 기술을 제안했습니다. 이 기술은 대량의 데이터를 소화하고 답으로 변환하는 데 있어서 매우 우수할 수 있습니다.

또한: 이전에 애플에서 일한 직원들은 이 기기로 스마트폰을 대체하고자 합니다.

하이에나로 알려져 있는 이 기술은, 질문에 대한 답변과 같은 벤치마크 테스트에서 동등한 정확도를 달성할 수 있으면서도 컴퓨팅 파워의 일부만 사용합니다. 일부 경우에는 하이에나 코드가 GPT 스타일의 기술에서 메모리 부족으로 인해 작동에 실패하는 텍스트 양을 처리할 수 있습니다.

""작성자들은 10억개 이하의 매개변수 규모에서의 약속된 결과가 모든 것이 필요하지는 않을지도 모른다고 말한다,"라고 저자들은 씁니다. 그 비평은 'Attention is all you need'라는 2017년의 의미있는 AI 보고서의 제목을 참조합니다. 그 논문에서 구글 과학자인 아시쉬 바스와니(Ashish Vaswani)와 동료들이 구글의 Transformer AI 프로그램을 세계에 소개했습니다. Transformer는 최근의 대형 언어 모델의 기초가 되었습니다."

그러나 트랜스포머에는 큰 결함이 있습니다. 그것은 "어텐션"이라고 하는 것을 사용합니다. 컴퓨터 프로그램은 단어와 같은 기호 그룹의 정보를 가져와서 챗지피티에서 보는 답변과 같은 새로운 기호 그룹으로 이동시킵니다.

또한:GPT-4는 무엇인가요? 여기에서 알아야 할 모든 것이 있습니다

그 유무한 언어 프로그램, ChatGPT와 GPT-4를 포함한 대형 언어 프로그램의 필수 도구인 그 '주의 (attention)' 작업은 "이차" 계산 복잡도(계산의 "시간 복잡도"에 대한 위키)를 가지고 있습니다. 이 복잡도는 ChatGPT가 입력으로 주어진 데이터 양의 제곱에 비례하여 답변을 생성하는 데 걸리는 시간이 증가한다는 것을 의미합니다.

특정 시점에서, 데이터가 너무 많으면 - 프롬프트에 너무 많은 단어나 프로그램과의 대화 문자열이 수 시간에 걸쳐 계속되는 경우 - 프로그램이 답변을 제공하는 데 버겁거나, 더 빠르게 실행하기 위해 더 많은 GPU 칩이 필요하게 되어 컴퓨팅 요구량이 급증합니다.

새 논문 '하이에나 등급제: 더 큰 컨볼루션 언어 모델로'은 arXiv 사전 인쇄 서버에 게시되었으며, 주 저자 스탠포드 대학교의 마이클 폴리와 동료들은 Transformer의 어텐션 기능을 서브-이차적인 방식으로 대체하려는 하이에나를 제안합니다.

또한:Auto-GPT란 무엇인가요? 다음 세대의 강력한 AI 도구에 대해 알아보는 모든 것

작가들은 이름에 대해 설명하지 않지만, "하이에나" 프로그램에 대해 여러 이유를 상상할 수 있습니다. 하이에나는 아프리카에 서식하는 동물로서 수많은 거리를 사냥할 수 있습니다. 어떤 의미에서 매우 강력한 언어 모델은 하이에나와 같을 수 있으며, 먹이를 찾기 위해 수많은 거리를 사냥할 수 있습니다.

그러나 제목에서 암시하는대로 작가들은 "계급 제도"에 대해 심각하게 우려하고 있으며, 하이에나 가족은 지방 하이에나 부족의 구성원들이 지배력을 확립하기 위해 다양한 단계의 계급을 갖고 있다. 어떤 유사한 방식으로, 하이에나 프로그램은 여러분이 보게 될 것처럼 매우 간단한 연산을 반복적으로 적용하여 데이터 처리의 종류 형태로 결합될 수 있도록 한다. 이 조합적 요소가 프로그램에 하이에나 이름을 부여한다.

또한:Ben Goertzel은 ChatGPT의 앞으로 나올 버전이 오늘날 사람들이 하는 대부분의 일을 대체할 수 있다고 말합니다.

이 논문의 공헌 저자 중에는 인공지능 분야의 저명 인사인 요수아 벵주(Yoshua Bengio)도 포함되어 있습니다. 벵주는 MILA의 과학적 책임자로서 2019년 튜링상(Turing Award)을 수상한 바 있으며, 컴퓨팅 분야의 노벨상으로 평가되고 있습니다. 벵주는 어텐션 매커니즘의 개발에 기여한 것으로 광범위하게 인정받고 있으며, 이를 변형하기 전에 바스와니(Vaswani)와 그의 팀이 채용한 것입니다.

또한 저자들 중에는 최근 AI를 "소프트웨어 2.0"으로 진전시키는 데 도움이 된 Stanford 대학교 컴퓨터 과학 부교수인 Christopher Ré도 포함되어 있습니다.

서브-이차 함수로 대안을 찾기 위해, Poli와 팀은 주의 매커니즘이 무엇을 하는지 연구하여 그 작업을 더 효율적으로 수행할 수 있는지를 알아보았습니다.

인공지능 과학에서 최근에 나타난 기법인 메커니스틱 해석가는 신경망의 깊은 곳, 주의의 계산 "회로" 내부에서 무슨 일이 일어나는지에 대한 통찰을 제공합니다. 소프트웨어를 시계나 PC를 분해하여 부품을 확인하고 작동 방식을 이해하는 것처럼 생각할 수 있습니다.

또한:ChatGPT를 사용하여 12개의 최고 프로그래밍 언어로 동일한 루틴을 작성했습니다. 수행한 결과는 다음과 같습니다.

폴리와 팀에 의해 인용된 다른 작품은 AI 스타트업 Anthropic의 연구원 넬슨 엘하지가 수행한 실험 세트입니다. 이 실험들은 어텐션(attention)이 어떤 역할을 하는지 알아보기 위해 Transformer 프로그램을 분석합니다.

본질적으로, Elhage와 팀이 발견한 바는 주의는 매우 간단한 컴퓨터 작업인 최근 입력에서 단어를 복사하여 출력에 붙여넣기 하는 것으로 기능합니다.

예를 들어, ChatGPT와 같은 대형 언어 모델 프로그램에 "해리 포터와 마법사의 돌"에서 "더즐리 씨는 그러닝스라는 기업의 사장이었어요..."라는 문장을 타이핑한다면, "D-u-r-s"라고 입력하는 것만으로도, 이전의 "마법사의 돌"에서 그 이름을 본 적이 있기 때문에 "더즐리"라는 이름을 자동으로 완성해줄 수도 있습니다. 시스템은 "l-e-y"라는 문자열을 메모리에서 가져와 문장을 자동완성할 수 있습니다.

또한:미래학자는 챗지피티는 사람의 뇌보다 '외계 지능'에 가깝다고 말합니다

그러나 단어의 수가 증가함에 따라 주의 작업은 이차 복잡도 문제에 직면합니다. 더 많은 단어는 주의 작업을 실행하기 위해 더 많은 "가중치" 또는 매개변수가 필요합니다.

저자들은 다음과 같이 쓰고 있습니다: "Transformer 블록은 시퀀스 모델링에 강력한 도구이지만, 단점도 없는 것은 아닙니다. 가장 주목할 만한 단점 중 하나는 입력 시퀀스의 길이가 증가할수록 계산 비용이 급격히 증가한다는 것입니다."

오픈AI에서는 ChatGPT와 GPT-4의 기술적인 세부 사항을 공개하지 않았지만, 이들은 1조 개 이상의 파라미터를 가질 가능성이 있다고 예상됩니다. 이러한 파라미터를 실행하기 위해서는 Nvidia로부터 더 많은 GPU 칩이 필요하므로, 컴퓨팅 비용이 증가할 것으로 예상됩니다.

그 이차 계산 비용을 줄이기 위해, Poli와 팀은 주목 연산을 "합성곱(convolution)"이라고 불리는 것으로 대체했습니다. 이것은 인공지능 프로그램에서 오래된 연산 중 하나로, 1980년대에 개선되었습니다. 합성곱은 디지털 사진의 픽셀이든 문장의 단어든 데이터에서 항목을 선택할 수 있는 필터입니다.

또한:ChatGPT의 성공은 인공지능 분야에서 비밀주의로의 악화를 유발할 수 있다고 AI 개척자인 Bengio씨는 말합니다.

Poli와 팀은 스탠포드 연구원인 Daniel Y. Fu와 팀이 단어 시퀀스에 합성곱 필터를 적용하는 작업을 가져와, 프로그램이 필터 크기를 실시간으로 변경할 수 있게 하는 Vrije Universiteit Amsterdam의 학자인 David Romero과 동료들의 연구를 결합합니다. 이 유연한 적응 능력은 비용이 많이 드는 매개변수 또는 가중치를 프로그램이 가지고 있어야 하는 수를 줄여 줍니다.

매시업의 결과는 점점 더 많은 데이터를 복사하기 위해 점점 더 많은 매개변수를 필요로하지 않고 무제한 텍스트에 합성곱을 적용할 수 있다는 것입니다. 저자들이 말하는 대로 "주의력이 필요 없는" 접근법입니다.

“하이에나 오퍼레이터들은 규모에 따라 주의를 기울이며 품질 격차를 크게 줄일 수 있습니다,” Poli와 팀은 씁니다. “더 작은 계산 예산으로도 유사한 이해도와 하류 성능을 달성할 수 있습니다.” 펄플렉시티는 ChatGPT와 같은 프로그램이 생성하는 정교함을 나타내는 기술 용어입니다.

Hyena의 능력을 증명하기 위해, 저자들은 프로그램을 다양한 AI 작업에 얼마나 능숙하게 수행하는지 결정하는 일련의 벤치마크에 대해 테스트합니다.

또한: 스탠퍼드 인공지능 교수 Chris Ré는 '소프트웨어에서 이상한 새로운 일이 일어나고 있다'고 말합니다.

하나의 시험은 Eleuther.ai라는 비영리 AI 연구조직이 2020년에 구성한 825 기가바이트짜리 텍스트 모음인 "더 파일(The Pile)"입니다. 이 텍스트들은 PubMed, arXiv, GitHub, 미국 특허청 등 "고품질"의 출처에서 수집되었으므로 Reddit 토론처럼 다소 타당성이 낮은 소스들과는 달리 보다 엄격한 형태를 가지고 있습니다.

프로그램의 주요 도전 과제는 새로운 문장들을 입력으로 받았을 때 다음 단어를 생성하는 것이었습니다. Hyena 프로그램은 OpenAI의 2018년 원본 GPT 프로그램과 같은 점수를 달성했으며, 연산량을 20% 더 적게 사용했습니다 -- "GPT 품질과 일치하는 첫번째 attention-free, convolution 구조"로서 연구진이 기술합니다.

다음으로 저자들은 프로그램을 SuperGLUE라고 불리는 추론 과제들에 대해 테스트했습니다. SuperGLUE는 2019년에 뉴욕대학교, 페이스북 AI 연구소, 구글의 딥마인드 팀, 그리고 워싱턴 대학교의 학자들에 의해 개발되었습니다.

예를 들어, 문장 "내 몸은 잔디 위에 그림자를 내리고 있다"가 주어지고, 그 원인으로 "해가 떠오르고 있었다" 또는 "잔디가 베어졌다"라는 두 가지 대안이 주어진 경우, 프로그램은 "해가 떠오르고 있었다"를 적절한 출력으로 생성해야 합니다.

여러 작업에서, Hyena 프로그램은 훈련 데이터 양이 절반도 되지 않는 상태에서 GPT의 한 버전과 유사한 점수를 달성했습니다.

또한: 새로운 Bing의 사용 방법 (ChatGPT와의 차이점 포함)

더 흥미로운 것은 글자의 길이를 늘렸을 때 발생한 일입니다: 더 많은 단어는 성능 향상에 더 큰 효과를 가져왔습니다. 2,048개의 '토큰'으로 생각할 수 있는 길이에서, Hyena는 언어 작업을 완료하는 데 에서 시간이 적게 걸립니다.

64,000 토큰에서, 저자들은 "하이에나 속도 증가는 100배에 이릅니다"라고 밝혔습니다 -- 100배의 성능 개선입니다.

Poli와 팀은 혜나(Hyena)에 대해 단순히 다른 접근법을 시도한 것이 아니라고 주장합니다. 그들은 "이차적 장벽을 깨다"라며, 프로그램이 결과를 계산하는 데 얼마나 어려운지에 대한 질적인 변화를 일으켰다고 말합니다.

그들은 또한 도로로 내려가면서 품질에서도 중대한 변화가 있을 수 있다고 제안한다: "이차 방정식 장벽을 깨는 것은 전체 교과서를 문맥으로 사용하거나, 길이가 긴 음악을 생성하거나, 기가픽셀 규모의 이미지를 처리하는 등의 심층 학습에 대한 새로운 가능성을 위한 중요한 단계입니다,"라고 그들은 쓴다.

하이에나가 수천 개의 단어에 효과적으로 끼워 넣을 수 있는 필터를 사용할 수 있다는 점을 저자는 말하고 있습니다. 이는 언어 프로그램에 대한 질문의 "문맥"에 거의 제한이 없다는 의미입니다. 이것은 실제로 현재의 대화 주제와는 거리가 먼 텍스트나 이전 대화의 요소를 상기시킬 수 있다는 것을 의미합니다 - 마치 멀리까지 사냥하는 하이에나처럼요.

또한: 최고의 AI 챗봇: ChatGPT와 다른 재미난 대안들

"하이에나 연산자는 제한이 없는 문맥을 가지고 있습니다." 라고 써 있습니다. "다시 말해, 예를 들어, 국소성과 같이 인위적으로 제한되지 않으며, [입력]의 어떤 요소들 사이의 장거리 종속성을 학습할 수 있습니다."

또한, 단어뿐만 아니라 이미지 및 가능하다면 비디오와 소리와 같은 다양한 형태의 데이터에도 이 프로그램을 적용 할 수 있습니다.

논문에 나온 Hyena 프로그램은 GPT-4 또는 심지어 GPT-3에 비해 크기가 작다는 것을 유념해야합니다. GPT-3는 1750억 개의 매개변수 또는 가중치를 가지고 있는데, Hyena의 가장 큰 버전은 단지 13억 개의 매개변수만 가지고 있습니다. 따라서, GPT-3 또는 4와의 직접적인 비교에서 Hyena가 어떻게 성과를 내는지는 아직 알 수 없습니다.

하지만, 만약 성능 향상이 Hyena 프로그램의 더 큰 버전에서도 유지된다면, 지난 10년 동안 주목받아온 것과 마찬가지로 새로운 패러다임이 될 수 있습니다.

Poli와 팀은 다음과 결론을 내렸습니다: "Hyena와 같은 간단한 하위 이차원 설계는 간단한 지침에 의해 영감을 받고 기계적으로 해석 가능한 기준에 따라 평가되므로 효율적인 대규모 모델의 기초가 될 수 있습니다."

이 새로운 기술은 GPT-4와 그와 비슷한 모든 것을 뒤로 남길 수 있습니다.

관련 기사