IT트렌드 알아보기 - 생성형AI를 겨냥한 독, 나이트쉐이드(Nightshade)

 창작자들이 본인의 창작물을 AI가 학습하지 못하도록 막는 툴인 나이트쉐이드에 대한 이야기를 하려고 합니다. ChatGPT로 시작된 생성형 AI의 시대인 지금, AI는 텍스트뿐만 아니라 그림, 도면, 음악 등 정말 다양한 창작물들을 학습하고, 생성해내고 있습니다. 심지어 그 퀄리티마저도 너무나 뛰어나기 때문에 많은 놀라움을 주고 있습니다.

 하지만, 뛰어난 능력을 보이는 생성형 AI의 어두운 이면에는 저작권 문제가 공존하고 있습니다. 과연 저작권이 존재하는 창작물을 AI학습에 사용하는 것이 정당한 것인지에 대한 논란은 지속되고 있으며, AI윤리 측면에서나 사회적인 법제도 측면에서 다양한 논의들이 진행되고 있는 상태입니다.


 그러나 당장 현시점에서 보자면, 무분별한 학습으로 인해 특정 창작자의 스타일과 유사한 AI생성물들이 많이 유통되고 있는 것도 사실입니다. 이런 상황에서 창작자들 스스로 본인의 창작물의 저작권을 지키기 위한 툴로써 등장한 것이 바로 나이트쉐이트(Nightshade)입니다.

생성형AI로부터 저작권을 보호하려는 아티스트들을 위한 툴, 나이트쉐이드에 대한 포스팅 섬네일
IT트렌드 알아보기, 생성형AI를 겨냥한 독 나이트쉐이드(Nightshade)


반응형

1. 등장배경

 최근 주요 AI기업들은(Open AI, Meta, Google, Stability AI 등) 저작권 및 개인정보 침해에 대한 소송을 받고 있습니다. 특히나 온라인을 통해 자신의 작품을 공유, 유통하는 아티스트들의 경우에는 AI학습에 본인들의 작품이 학습되는 것에 크게 반발하고 있는 상황입니다.

 실제로도 대표적인 이미지 에이전시인 게티이미지(Gettyimages)는 스태빌리티AI(Stability AI)를 대상으로 저작권 및 상표권 침해 소송을 제기했으며, 제기한 손해배상 금액만 해도 무려 1조 8천억 달러(약 2,300조 원)에 이르는 대규모 소송입니다.

 게티이미지는 스태빌리티AI가 출시한 Stable Diffusion 모델은 약 5억 개 이상의 학습데이터를 통해 학습이 이루어졌으며, 최소 1,200만 개에 이르는 게티이미지의 자료도 포함되었으나 이를 허가한 적이 없다고 밝혔습니다. 또한 무단 사용에 대한 증거물로 제출한 Stable Diffusion 모델로 생성된 출력물에는 게티이미지의 자료와 유사한 그림이거나 워터마크 형체가 남아있는 것을 확인할 수 있었습니다.

게티이미지가 스태빌리티AI를 상대로 제기한 소송의 증거물로 제출한 사진. 왼쪽이 게티이미지의 콘텐츠, 오른쪽이 스테이블디퓨전으로 만든 결과물이며, 우측 이미지에 게티이미지의 워터마크까지 유사하게 생성된 것을 확인할 수 있다.

 이렇게 생성형 AI 모델들이 웹상에 등록된 다양한 이미지를 학습하게 됨으로써, 아티스트들은 자신의 창작물이나 자신만의 스타일, 아이덴티티 등을 보호하기 위하여 자신의 창작물을 온라인 플랫폼에 등록하지 않는 상황에까지 이르렀습니다.

 이런 상황에서 아티스트들이 자신의 창작물을 보호하기 위한 다양한 기술들이 등장하기 시작했으며, 대표적인 것이 바로 나이트쉐이드(Nightshade)와 글레이즈(Glaze)라고 할 수 있습니다.


2. 나이트쉐이드(Nightshade)란?

  나이트쉐이드(Nightshade)는 AI가 이미지를 제대로 학습하지 못하도록 이미지를 변조하는 도구입니다. 인간의 눈으로는 인식할 수 없지만 AI가 인식할 수 있는 수준으로 이미지의 픽셀을 미묘하게 변경하는 방식으로 작동하는 나이트쉐이드는 AI로 하여금 대상 이미지가 다른 객체라고 인식하게끔 왜곡시키는 기능이라고 이해할 수 있겠습니다.

  또한 나이트쉐이드는 적용된 이미지를 AI가 학습할 때 기존 모델의 파라미터까지 오작동을 하게 만들 수 있게 하기 때문에 생성형 AI에게는 치명적인 독으로 작용할 수가 있습니다.

 나이트쉐이드의 작동 방식은 대상 이미지를 다른 이미지로 인식하게끔 미묘하게 변질시킴으로써 AI가 잘못된 학습을 할 수 있게 오염시키는 것입니다.

 예를 들면, 아래 그림과 같이 원본 이미지인 '개' 이미지를 고양이 이미지와 시각적 특징이 일치하도록 미묘하게 변질시켜 AI로 하여금 고양이로 인식하게 만드는 방식이라고 할 수 있습니다.

개 이미지에 나이트쉐이드를 적용시켜, AI가 고양이로 인식하게끔 미묘한 왜곡을 가하게되면 학습데이터를 오염시킬수 있다.
개 이미지에 나이트쉐이드를 적용시켜, AI가 고양이로 인식하게끔 미묘한 왜곡을 가하게되면 학습데이터를 오염시킬수 있다.

 이러한 나이트쉐이드(Nightshade)의 작동 방식 때문에, 생성형 AI에 대한 치명적인 독이라고 표현할 수 있는 것입니다. 나이트쉐이드가 적용된 이미지(오염된 학습데이터)를 통해 AI가 지속적으로 학습하게 된다면, 기존에 학습된 데이터셋을 신뢰할 수 없는 수준으로 만들 수 있습니다..

 아래 그림은 나이트쉐이드로 변조된 개 이미지들로 학습한 생성형 AI 모델의 출력 결과입니다. 최초 모델의 경우 개의 이미지를 정확히 출력하지만 50개 이상 변조된 데이터를 학습한 이후부터는 유의미한 왜곡현상을 발견할 수 있습니다. 또한 300개를 넘어가게 되면서는 생성 결과가 고양이에 가깝게 되는 것을 볼 수 있습니다.

나이트쉐이드가 적용된 이미지를 많이 학습할 수록 점차 왜곡된 결과물이 생성된다.
나이트쉐이드가 적용된 이미지를 많이 학습할 수록 점차 왜곡된 결과물이 생성된다.

 또한 생성형 AI 입장에서 더 치명적인 점은 단순히 대상 단어의 데이터셋만 오염되는 것이 아니라는 점입니다. 위에 예시를 들었던 '개'라는 단어를 오염시킨다면 이와 연관된 '강아지', '늑대', 허스키' 등과 같은 단어까지 영향을 미칠 수 있습니다.

 예를 들어, 만약 AI가 'Fantasy art'에 대한 이미지를 학습할 때 나이트쉐이드가 적용된 이미지들을 학습하게 된다면, 'Fantasy art'와 연관된 단어인 'A Dragon', 'A catle in the Lord of the Rings'와 같은 단어의 생성결과도 오염시킨다는 것입니다.

손상된 모델은 대상 데이터셋뿐만 아니라 연관된 다른 데이터셋까지도 영향을 끼친다.
손상된 모델은 대상 데이터셋뿐만 아니라 연관된 다른 데이터셋까지도 영향을 끼친다.

 


3. 변화모습

 앞서 말씀드렸던 것처럼, AI기업들은 자사의 생성형 AI 모델 학습에 온라인 플랫폼에 등록된 다양한 콘텐츠들을 학습시킴으로써 범용적인 AI모델을 만들 수 있었습니다. 그 과정에서 창작물을 만들어내는 아티스트들을 비롯한 다양한 저작권자들의 저작권을 침해한다는 윤리적인 문제들이 대두되어 사회적인 논쟁이 발생하는 상황입니다.

 이제는 저작권자를 보호하기 위한 나이트쉐이드 기술이 등장함에 따라서 AI회사입장에서는 생성형 AI 모델의 데이터셋을 지키기 위해서라도 과거와 같이 온라인 플랫폼의 콘텐츠들을 광범위하게 학습하기에는 많은 리스크를 감수해야 할 수밖에 없습니다.

만약 오염된 이미지를 지속적으로 학습하게 된다면, 과거 MS의 채팅봇 테이(Tay)와 같은 결말이 날 수 있습니다.
테이(Tay)는 일부 사용자가 각종 욕설이나 인종/성별 등의 차별적인 메시지를 지속적으로 주입시키면서, 그 결과를 학습한 채팅봇이 부적절한 발언을 하게 됨으로써 16시간 만에 서비스가 중단됨.

 앞으로 AI기업들은 고품질의 데이터를 선별하고 학습하여 생성형 AI 모델을 고도화시킬 것으로 예상되고 있습니다. 이런 이유로 저작권이 있는 높은 품질의 데이터를 어떻게 확보하고 학습할 것인지가 중요해질 것이라 생각합니다.

 또한, 최근에는 생성형 AI 모델 학습에 활용되는 데이터들의 저작권을 인정하는 분위기가 형성되면서 AI기업과 콘텐츠 저작권을 보유한 회사 간의 협력이나 계약이 발생하고 있습니다. 대표적인 AI기업인 Open AI는 언론사인 AP통신, 그리고 이미지 에이전시인 셔터스톡과 학습데이터 활용을 위한 계약을 체결하기도 했습니다.

 뿐만 아니라 최근에는 콘텐츠를 보유한 기업에서 스스로 생성형 AI 서비스를 제공하는 케이스도 나타나고 있습니다. 앞서 AI기업에 소송을 제기한 게티이미지는 본인들의 콘텐츠를 학습한 생성형 AI 서비스를 제공하기 시작했습니다. 서비스를 시작하면서 게티이미지는 "AI 시스템을 훈련시키는 데 도움을 준 아티스트들에게 저작권료를 지급할 것"이라고 밝혔는데요. 과연 앞으로 생성형 AI와 아티스트들이 공존하는 건전한 생태계를 만들 수 있을지 주목할 필요가 있습니다.

참고자료
1) 그림 생성 초거대 AI 모델에 대한 법적 이슈 (법률신문, 2023.11)
2) [AI 저작권 논란]③ "저작권 침해했다" 1조 8천억 달러 소송에 AI 운명 달려 (아이뉴스24, 2023.06)
3) How Nightshade is poisoning AI to protect artists (GarageFarm) 
4) '사진 저작권 괴물' 게티, AI 생성 이미지 시장 출사표 (서울경제, 2023.09)
반응형