9월 20, 2024

Wpick

지상에서 한국의 최신 개발 상황을 파악하세요

Google은 공개 데이터가 AI 교육을 위한 공정한 게임이라고 말합니다 • The Register

Google은 공개 데이터가 AI 교육을 위한 공정한 게임이라고 말합니다 • The Register

Google은 인터넷에서 공개 데이터를 스크랩하여 AI 모델 및 서비스(챗봇 Bard 및 이제 쿼리에 대한 빠른 답변을 제공하는 검색 엔진 포함)를 훈련하도록 개인 정보 보호 정책을 업데이트했습니다.

그만큼 좋은 인쇄 현재 연구 및 개발 중인 항목은 다음과 같습니다. Google Translate, Bard 및 Cloud AI와 같은 제품 및 기능을 빌드합니다.”

공개적으로 사용 가능한 정보를 사용하여 Google AI 모델을 교육하고 제품 및 기능을 만드는 데 도움을 줍니다.

재미있게, 등록 미국 이외의 직원은 위 링크에서 인용된 텍스트를 볼 수 없습니다. 하지만 이것은 PDF 파일입니다 Google의 정책 버전에는 다음과 같이 명시되어 있습니다. “Google은 Google AI 모델을 교육하고 Google 번역 기능, Bard 및 Cloud AI와 같은 제품 및 기능을 구축하는 데 도움이 되도록 온라인 또는 기타 공개 소스에서 공개적으로 사용 가능한 정보를 수집할 수 있습니다.”

변경 사항은 AI 교육에 대한 Google의 범위를 정의합니다. 이전에는 정책이 ‘언어 모델’만 언급했으며 Google 번역을 언급했습니다. 그러나 “인공 지능 모델”을 포함하고 클라우드 플랫폼에서 응용 프로그램으로 구축된 Bard 및 기타 시스템을 포함하도록 문구가 변경되었습니다.

구글 대변인은 말했다. 통나무 업데이트가 AI 모델을 훈련시키는 방식을 근본적으로 바꾸지는 않았습니다.

“Google은 Google 번역과 같은 서비스의 언어 모델을 교육하기 위해 공개 웹에서 공개적으로 사용 가능한 정보를 사용한다는 점에서 개인정보 보호정책은 오랫동안 투명했습니다. 이 최신 업데이트는 Bard와 같은 최신 서비스도 포함되어 있음을 보여줍니다. 우리는 개인정보 보호 원칙과 개인정보 보호 장치를 AI 원칙에 따라 AI 기술 개발”이라고 대변인은 성명에서 밝혔다.

개발자들은 수년 동안 AI 시스템을 위한 훈련 데이터를 수집하기 위해 인터넷, 사진 앨범, 책, 소셜 네트워크, 소스 코드, 음악, 기사 등을 긁어왔습니다. 그러나이 프로세스는 일반적으로 자료가 저작권, 사용 조건 및 라이센스로 보호되기 때문에 논란의 여지가 있으며 모든 것이 소송으로 이어졌습니다.

어떤 사람들은 자신의 콘텐츠가 자신의 작업을 복제하는 기계 학습 시스템을 구축하는 데 사용되어 잠재적으로 생계를 위협할 뿐만 아니라 모델의 출력이 변경되지 않은 교육 데이터를 역류시켜 저작권 또는 라이선스 침해에 매우 근접한다는 사실에 불만을 나타냅니다.

AI 개발자는 자신의 노력이 공정 사용에 해당하며 모델의 출력이 새로운 형태의 작업이며 실제로 원본 교육 데이터의 사본이 아니라고 주장할 수 있습니다. 뜨겁게 논의되고 있는 문제입니다.

예를 들어, Amnesty International은 스톡 이미지 웹사이트에서 수백만 개의 이미지를 수집하고 오용하여 텍스트를 이미지로 변환하는 도구를 훈련시킨 혐의로 Getty Images에 의해 고소당했습니다. 한편, OpenAI와 그 소유주인 Microsoft는 “인터넷에서 3천억 단어”와 “동의 없이 얻은 개인 정보를 포함하여 책, 기사, 웹 사이트 및 출판물”을 부적절하게 스크랩하고 조작했다고 비난하는 여러 소송에 시달렸습니다. 퍼블릭 리포지토리의 소스 코드를 다운로드하여 AI 쌍 프로그래밍 도구 GitHub Copilot을 만듭니다.

Google 대변인은 광고 및 검색 대기업이 공개 저작권 데이터, 라이선스 데이터 또는 소셜 미디어 게시물을 폐기하여 시스템을 교육할지 여부에 대해 언급을 거부했습니다.

사람들이 AI 모델을 훈련하는 방법에 대해 더 잘 알고 있기 때문에 일부 인터넷 회사는 개발자에게 데이터 액세스에 대해 비용을 청구하기 시작했습니다. 오버플로 스택, 레딧, 예를 들어 Twitter는 올해 API를 통해 콘텐츠에 액세스하기 위한 새로운 수수료 또는 규칙을 도입했습니다. Shutterstock 및 Getty와 같은 다른 사이트는 AI 모델 제작자에게 이미지 라이선스를 부여하기로 선택했으며 다음과 같은 파트너와 파트너 관계를 맺었습니다. 메타 그리고 엔비디아. ®