ChatGPT 워터마크의 작동 방식 및 제거할 수 있는 이유

OpenAI의 ChatGPT는 자동으로 콘텐츠를 생성하는 방식을 도입했지만 이를 쉽게 감지할 수 있도록 워터마킹 기능을 도입할 계획이어서 일부 사람들을 불안하게 만들고 있다. 이것은 ChatGPT 워터마킹이 작동하는 방식이며 이를 물리칠 수 있는 방법이 있을 수 있는 이유입니다.

ChatGPT는 온라인 게시자, 제휴사 및 SEO가 동시에 좋아하고 두려워하는 놀라운 도구입니다.

일부 마케팅 담당자는 콘텐츠 개요, 개요 및 복잡한 기사를 생성하는 데 사용할 수 있는 새로운 방법을 발견하고 있기 때문에 이를 좋아합니다.

온라인 게시자는 AI 콘텐츠가 검색 결과에 범람하여 사람이 작성한 전문 기사를 대체할 가능성을 두려워합니다.

따라서 ChatGPT로 작성된 콘텐츠를 감지할 수 있는 워터마킹 기능에 대한 소식도 불안과 희망을 안고 기대됩니다.

암호화 워터마크

워터마크는 이미지에 삽입되는 반투명 마크(로고 또는 텍스트)입니다. 워터마크는 작품의 원저자가 누구인지를 나타냅니다.

주로 사진과 비디오에서 점점 더 많이 볼 수 있습니다.

ChatGPT의 워터마킹 텍스트는 비밀 코드의 형태로 단어, 문자 및 구두점의 패턴을 포함하는 형태의 암호화를 포함합니다.

Scott Aaronson과 ChatGPT 워터마킹

Scott Aaronson이라는 영향력 있는 컴퓨터 과학자는 AI 안전 및 정렬 작업을 위해 2022년 6월 OpenAI에 고용되었습니다.

AI 안전은 AI가 인간에게 해를 끼칠 수 있는 방법을 연구하고 그러한 종류의 부정적인 혼란을 방지하는 방법을 만드는 연구 분야입니다.

OpenAI와 제휴한 저자가 포함된 Distill 과학 저널은 AI 안전을 다음과 같이 정의합니다.

"장기적인 인공 지능(AI) 안전의 목표는 고급 AI 시스템이 인간의 가치와 안정적으로 일치하도록, 즉 사람들이 원하는 일을 안정적으로 수행하도록 하는 것입니다."

AI Alignment는 AI가 의도한 목표와 일치하는지 확인하는 것과 관련된 인공 지능 분야입니다.

ChatGPT와 같은 대규모 언어 모델(LLM)은 OpenAI에서 정의한 AI Alignment의 목표인 인류에게 도움이 되는 AI를 만드는 것과 반대되는 방식으로 사용될 수 있습니다.

따라서 워터마킹을 하는 이유는 AI가 인류에게 해를 끼치는 방식으로 오용되는 것을 방지하기 위함입니다.

Aaronson은 ChatGPT 출력을 워터마킹하는 이유를 다음과 같이 설명했습니다.

"이것은 학술적 표절을 방지하는 데 도움이 될 수 있지만, 예를 들어 선전의 대량 생성..."

ChatGPT 워터마킹은 어떻게 작동하나요?

ChatGPT 워터마킹은 통계적 패턴, 코드를 단어 선택 및 문장 부호에 삽입하는 시스템입니다.

인공 지능으로 생성된 콘텐츠는 상당히 예측 가능한 단어 선택 패턴으로 생성됩니다.

인간과 AI가 쓴 단어는 통계적 패턴을 따릅니다.

생성된 콘텐츠에 사용된 단어의 패턴을 변경하는 것은 시스템이 텍스트가 AI 텍스트 생성기의 제품인지 쉽게 감지할 수 있도록 텍스트를 "워터마크"하는 방법입니다.

AI 콘텐츠 워터마킹을 감지할 수 없게 만드는 비결은 단어 분포가 여전히 일반 AI 생성 텍스트와 유사한 임의의 모양을 갖는다는 것입니다.

이를 의사 무작위 단어 분포라고 합니다.

의사 난수는 실제로 무작위가 아닌 통계적으로 임의의 일련의 단어 또는 숫자입니다.

ChatGPT 워터마킹은 현재 사용되지 않습니다. 그러나 OpenAI의 Scott Aaronson은 그것이 계획되어 있다고 기록하고 있습니다.

현재 ChatGPT는 프리뷰로 OpenAI가 실제 사용을 통해 "오정렬"을 발견할 수 있습니다.

아마도 워터마킹은 ChatGPT의 최종 버전 또는 그보다 더 빨리 도입될 수 있습니다.

Scott Aaronson은 워터마크 작동 방식에 대해 다음과 같이 썼습니다.

“지금까지 나의 주요 프로젝트는 GPT와 같은 텍스트 모델의 출력을 통계적으로 워터마킹하는 도구였습니다.
기본적으로 GPT가 긴 텍스트를 생성할 때마다 단어 선택에 눈에 띄지 않는 비밀 신호가 있기를 원합니다. 나중에 이를 사용하여 GPT에서 온 것임을 증명할 수 있습니다.”

Aaronson은 ChatGPT 워터마킹이 어떻게 작동하는지 자세히 설명했습니다. 하지만 먼저 토큰화의 개념을 이해하는 것이 중요합니다.

토큰화는 기계가 문서의 단어를 가져와 단어 및 문장과 같은 의미 단위로 분해하는 자연어 처리에서 발생하는 단계입니다.

토큰화는 텍스트를 기계 학습에 사용할 수 있는 구조화된 형식으로 변경합니다.

텍스트 생성 프로세스는 이전 토큰을 기반으로 다음에 어떤 토큰이 올지 추측하는 기계입니다.

이것은 다음 토큰이 될 확률을 결정하는 수학적 함수, 즉 확률 분포로 수행됩니다.

다음에 어떤 단어가 나올지는 예상되지만 무작위입니다.

워터마크 그 자체는 특정 단어나 구두점 표시에 대한 수학적 이유가 있지만 여전히 통계적으로 임의적이라는 점에서 Aaron이 의사 무작위라고 설명하는 것입니다.

다음은 GPT 워터마킹에 대한 기술적 설명입니다.

“GPT의 경우 모든 입력 및 출력은 단어일 수도 있고 구두점, 단어의 일부 등이 될 수도 있는 일련의 토큰입니다. 총 약 100,000개의 토큰이 있습니다.
핵심적으로 GPT는 이전 토큰의 문자열에 따라 생성할 다음 토큰에 대한 확률 분포를 지속적으로 생성합니다.
신경망이 분포를 생성한 후 OpenAI 서버는 실제로 해당 분포 또는 '온도'라는 매개변수에 따라 일부 수정된 분포 버전에 따라 토큰을 샘플링합니다.
그러나 온도가 0이 아닌 한 일반적으로 다음 토큰 선택에 임의성이 있습니다. 동일한 프롬프트로 계속 실행할 수 있으며 매번 다른 완료(예: 출력 토큰 문자열)를 얻을 수 있습니다. .
따라서 워터마크를 사용하려면 다음 토큰을 무작위로 선택하는 대신 OpenAI에만 키가 알려진 암호화 의사 난수 기능을 사용하여 의사 난수로 선택하는 것이 좋습니다.”

단어 선택이 다른 모든 단어의 무작위성을 모방하기 때문에 워터마크는 텍스트를 읽는 사람들에게 완전히 자연스럽게 보입니다.

다음은 기술적인 설명입니다.

“예를 들어, GPT가 똑같이 가능성이 있다고 판단한 가능한 토큰이 많이 있는 특별한 경우에 g를 최대화하는 토큰을 선택하면 됩니다. 키를 모르는 사람에게는 선택이 균일하게 무작위로 보이지만 키를 아는 사람은 나중에 모든 n-gram을 합산하여 비정상적으로 큰 것을 볼 수 있습니다.”

워터마킹은 프라이버시 우선 솔루션입니다.

일부 사람들이 OpenAI가 생성하는 모든 출력을 기록하고 탐지에 사용할 수 있다고 제안한 소셜 미디어에 대한 토론을 본 적이 있습니다.

Scott Aaronson은 OpenAI가 그렇게 할 수 있다고 확인했지만 그렇게 하면 개인 정보 보호 문제가 발생합니다. 가능한 예외는 그가 자세히 설명하지 않은 법 집행 상황입니다.

ChatGPT 또는 GPT 워터마킹 감지 방법

아직 잘 알려지지 않은 흥미로운 점은 Scott Aaronson이 워터마킹을 무효화하는 방법이 있다고 언급했다는 것입니다.

그는 워터마킹을 물리치는 것이 가능하다고 말하지 않고, 물리칠 수 있다고 말했습니다.

“자, 이 모든 것은 충분한 노력으로 패배시킬 수 있습니다.
예를 들어, 다른 AI를 사용하여 GPT의 출력을 의역한 경우 — 좋습니다. 우리는 그것을 감지할 수 없을 것입니다.”

워터마킹은 적어도 위와 같은 발언이 나온 11월부터는 무산될 수 있을 것 같습니다.

워터마킹이 현재 사용 중이라는 표시가 없습니다. 그러나 그것이 사용되기 시작했을 때 이 허점이 닫혔는지 알 수 없을 수 있습니다.

소환

여기에서 Scott Aaronson의 블로그 게시물을 읽어보세요.

ChatGPT 워터마크가 작동하는 방식과 이를 제거할 수 있는 이유

암호화 워터마크

Scott Aaronson과 ChatGPT 워터마킹

ChatGPT 워터마킹은 어떻게 작동하나요?

워터마킹은 프라이버시 우선 솔루션입니다.

ChatGPT 또는 GPT 워터마킹 감지 방법

소환

관련 기사