[세션7] [Youth] AI 학습데이터 투명성 확보를 위한 저작물 포함 여부 판별 메커니즘과 거버넌스 수립 방안

◎ 제안 취지 및 주요쟁점

2023년 12월, 뉴욕타임즈는 OpenAI와 Microsoft를 상대로 저작권 침해 소송을 제기했다. 소송의 핵심 쟁점은 GPT 계열 모델이 뉴욕타임즈의 수백만 건에 달하는 기사를 무단으로 학습 데이터에 포함시켰다는 것이다. 소장에는 AI 모델이 해당 기사를 거의 그대로 재현한 출력 결과물이 증거로 첨부됐다. 뉴욕타임즈 측은 이 학습 행위가 복제권 및 2차적저작물작성권을 침해하며, AI 서비스가 유료 구독 없이도 동일한 정보를 제공함으로써 언론사의 핵심 수익 시장을 대체한다고 주장하였다. 반면 OpenAI는 해당 학습이 공정이용(Fair Use)에 해당한다고 맞섰다. 이 사건으로부터 비롯된 문제는 저작권자의 출처 공시 요구와 AI 기업의 영업비밀 보호 사이의 정면충돌이다. 저작권 침해를 주장하려면 침해자가 해당 저작물을 실제로 학습에 사용했다는 ‘의거성’을 입증해야 한다. 그러나 AI 모델의 학습 데이터셋은 기업의 핵심 영업비밀로 철저히 비공개로 관리된다. 더불어 저작물은 모델 내부에서 수조 개의 파라미터 속에 수치화되어 압축 저장되므로, 특정 저작물의 포함 여부를 외부에서 역추적하는 것은 기술적으로도 사실상 불가능하다. 결국 저작권자는 침해 사실을 알고 있어도 법적으로 입증할 수 없고, AI 기업은 공정이용을 주장하며 면책의 여지를 반복적으로 확보한다. 이는 현행 법체계가 AI라는 새로운 기술 환경을 전제하지 않은 데서 비롯된 구조적 불균형이다. 우리나라 저작권법은 이러한 충돌에 대한 최소한의 균형 설계를 갖추고 있다. 저작권법 제16조부터 제22조는 저작권자에게 복제권, 2차적저작물작성권 등 배타적 독점권을 인정하며, 제35조의5의 공정이용 조항은 예외적 면책의 여지를 열어두는 방식으로 양측의 이해를 조율한다. 2025년 6월, 문화체육관광부와 한국저작권위원회가 발간한 「생성형 인공지능 결과물에 의한 저작권 분쟁 예방 안내서」에서는 기존의 ‘의거성’과 ‘실질적 유사성’ 판단 기준을 AI 결과물에도 적용한다는 원칙을 명시하고, 저작권자에게는 robots.txt 설정과 학습 이용 금지 문구 표기를, AI 사업자에게는 기술적 필터링 도입과 적법한 데이터 확보를 각각 권고하였다. 그러나 해외 주요국과 비교하면 이 균형은 여전히 불완전하다. EU는 AI Act 제53조를 통해 AI 모델 제공자에게 학습 데이터 요약본 공개를 법적으로 의무화하고, CDSM 지침 제4조에 근거하여 저작권자가 기계 판독 가능한 방식으로 학습 거부 의사를 표시하면 AI 기업이 이를 기술적으로 확인하고 준수해야 하는 법적 구속력 있는 옵트아웃 체계를 운영한다. 일본은 저작권법 제30조의4를 통해 저작물의 ‘향유’를 목적으로 하지 않는 이용은 원칙적으로 허용하되, 특정 작가를 표적으로 한 집중 학습이나 유료 데이터베이스 무단 수집은 명시적으로 예외로 두어 저작권자를 보호한다. 반면 한국은 AI 학습을 위한 별도의 TDM 면책 조항이 입법 논의 단계에 머물러 있으며, 학습 데이터 공개를 강제하는 조항도, 옵트아웃에 법적 구속력을 부여하는 조항도 없다. 가이드라인 수준의 권고에 그치고 있어 실효적 집행이 어렵고, 저작권자가 블랙박스로 운영되는 AI 학습 데이터의 내부를 스스로 증명해야 하는 구조적 불균형은 완화되지 않은 채 남아 있다. 이러한 구조적 불균형은 단순 입법 공백의 문제가 아니다. 현재의 구조는 누가 데이터를 통제하고 누가 검증 권한을 가지며 어떤 방식으로 책임을 분담할 것인가라는 거버넌스 차원의 질문으로 이어진다. 특히 학습데이터 접근권과 검증 권한이 기업 내부에 집중된 상황에서는 기업 내부의 자율적 공개만으로 실질적인 투명성과 책임성을 확보하기 어렵다는 한계가 분명하다. 이에 따라 최근에는 데이터 출처 공시와 학습데이터 검증 절차를 담당할 제3의 독립 감사기구 또는 공공 기반 검증체계의 필요성이 함께 논의되고 있다. 그러나 독립기구의 설립 자체가 곧 문제 해결을 의미하는 것은 아니다. 실제로 어떤 기관이 검증 권한을 가지는지, 기업의 영업비밀과 이용자 권리 사이에서 어느 수준까지 접근권을 허용할 것인지, 감사에 필요한 기술 인력·재원·시간을 어떻게 확보할 것인지에 대한 현실적 논의가 함께 이루어져야 한다. 특히 특정 정부나 기업 중심 구조로 운영될 경우 또 다른 권력 집중 문제를 초래할 가능성도 존재한다. 따라서 독립 감사체계 역시 투명성과 책임성을 어떻게 분산·조정할 것인가의 거버넌스 문제로 함께 논의될 필요가 있다. AI 학습데이터 투명성 문제는 특정 기업이나 저작권자만의 문제가 아니라 데이터를 기반으로 작동하는 디지털 사회 전체의 신뢰 구조와 연결된다. 이에 따라 정부의 공시 기준 마련과 제도 설계, 기업의 데이터 관리 및 책임성 확보, 시민사회의 감시와 참여, 청년·미래세대의 거버넌스 참여 방식 등을 어떻게 조율해야 하는지에 대한 논의가 필요하다. 특히 학습데이터 공시, 옵트아웃 체계, 독립 감사기구, 외부 검증 가능성 등의 쟁점은 기술적 문제를 넘어 플랫폼 권력과 디지털 신뢰의 문제로도 이어진다. 본 세션은 이러한 문제의식을 바탕으로, AI 학습데이터 투명성과 검증가능성을 둘러싼 다양한 이해관계자의 입장을 살펴보고, 한국 사회에서 실질적으로 작동 가능한 거버넌스 방향이 무엇인지 이번 워크숍을 통해 논의하고자 한다.

◎ 패널 구성

■ 사회자 : 금소담(이화여자대학교)

■ 발제자 : EG@IG 지식재산권과 사이버보안팀

■ 토론자 :

안상수(중앙대)

장승우(청년)

신용수(법무법인 지평)

이창범(김앤장)

강태욱(법무법인 태평양)

* 패널의 의견은 그 단체 또는 소속의 의견이 아님을 알려드립니다.

◎ 발표 자료

AI 학습데이터 투명성 확보를 위한 저작물 포함 여부 판별 메커니즘과 거버넌스 수립 방안 발표자료_최종

[세션7] [Youth] AI 학습데이터 투명성 확보를 위한 저작물 포함 여부 판별 메커니즘과 거버넌스 수립 방안

No Comments Yet

댓글 남기기 응답 취소

2026 KrIGF