많은 AI 회사가 .txt 봇 예외를 무시하고 허가 없이 콘텐츠를 복사한 것으로 알려졌습니다.

많은 AI 회사들이 로봇 배제 프로토콜(robots.txt)을 우회하여 허가 없이 웹사이트에서 콘텐츠를 추출하고 있다고 콘텐츠 라이선스 스타트업인 TollBit이 보고했습니다. 로이터. 이 문제는 AI 회사와 출판사 사이에 분쟁으로 이어졌고, Forbes는 Perplexity가 콘텐츠를 훔쳤다고 비난했습니다.

Reuters가 입수한 TollBit이 게시자에게 보낸 서한에 따르면 많은 AI 에이전트가 사이트 일부가 크롤링되는 것을 방지하는 데 사용되는 robots.txt 표준을 무시하는 것으로 나타났습니다. 회사의 분석에 따르면 많은 AI 시스템이 승인 없이 교육용 데이터를 사용하는 등 광범위한 비준수 패턴이 나타나고 있습니다. Forbes는 특히 AI 연구 스타트업인 Perplexity가 적절한 귀속이나 허가 없이 AI 생성 요약에 자사의 조사 스토리를 사용했다고 비난했습니다. Al-Hira는 이러한 주장에 대해 언급하지 않았습니다.

robots.txt 프로토콜은 1990년대 중반에 만들어졌으며 웹 크롤러가 웹 사이트를 오버로드하는 것을 방지하기 위해 고안되었습니다. 법적 적용은 없지만 전통적으로 지금까지 널리 존중되어 온 것 같습니다. 게시자는 이 프로토콜을 사용하여 콘텐츠를 스크랩하여 알고리즘을 훈련하고 요약을 생성하는 AI 시스템의 콘텐츠 무단 사용을 방지합니다.

로이터 통신에 따르면 톨빗은 “실질적으로 이것이 의미하는 바는 여러 소스(단지 한 회사가 아님)의 AI 에이전트가 robots.txt 프로토콜을 우회하여 사이트에서 콘텐츠를 검색하기로 결정했다는 것입니다.”라고 썼습니다. “우리가 수집하는 게시자 기록이 많을수록 이러한 패턴이 더 많이 나타납니다.”

New York Times와 같은 일부 출판사는 저작권 침해로 AI 회사를 상대로 법적 조치를 취했습니다. 다른 사람들은 라이센스 계약을 협상하기로 결정했습니다. 진행 중인 이 논쟁은 생성 AI를 훈련하기 위해 콘텐츠를 사용하는 것의 가치와 적법성에 대한 상충되는 견해를 강조하며, 많은 AI 개발자는 지불 없이 콘텐츠에 액세스하는 것은 물론 유료 콘텐츠가 아닌 이상 법률을 위반하지 않는다고 주장합니다.

이 문제는 인공지능으로 생성된 뉴스 요약이 확산되면서 매우 중요해졌습니다. 검색어에 대한 응답으로 요약을 생성하는 Google의 인공 지능 제품은 게시자의 우려를 더욱 악화시켰습니다. Google AI에서 콘텐츠가 사용되는 것을 방지하기 위해 게시자는 robots.txt 파일을 사용하여 콘텐츠를 차단합니다. 하지만 이렇게 하면 콘텐츠가 검색결과에서 삭제되고 온라인 가시성에 영향을 미칩니다. 한편, AI가 robots.txt를 무시한다면, 콘텐츠 소유자가 아무런 영향 없이 이를 사용하는 것이 무슨 의미가 있을까요? 그리고 온라인 가시성이 상실되었나요?

TollBit은 또한 AI 및 편집 콘텐츠 경쟁에서 선두를 달리고 있으며 AI 회사와 게시자 간의 중개자 역할을 하며 콘텐츠 사용에 대한 라이선스 계약을 체결하는 데 도움을 줍니다. 이 스타트업은 출판사 사이트에 대한 AI 트래픽을 추적하고 프리미엄 콘텐츠를 포함한 다양한 유형의 콘텐츠에 대한 수수료 협상에 대한 분석을 제공합니다. TollBit은 5월 현재 자사 서비스를 사용하는 웹사이트가 50개 있다고 주장하지만 그 이름은 공개하지 않았습니다.