OpenAI의 오디오 재생 AI 모델은 작동하는 데 15초의 샘플만 있으면 됩니다.

OpenAI는 자신이 개발한 Voice Engine이라는 텍스트-음성 플랫폼에 대한 제한된 액세스를 제공합니다. 이 플랫폼은 누군가의 음성 15초 클립을 기반으로 합성 음성을 생성할 수 있습니다. AI가 생성한 음성은 요청 시 화자와 동일한 언어 또는 기타 여러 언어로 텍스트 프롬프트를 읽을 수 있습니다. “이러한 소규모 배포는 우리의 접근 방식, 보호 장치 및 음성 엔진이 산업 전반에 걸쳐 더 큰 이익을 위해 사용될 수 있는 방법에 대한 생각을 알리는 데 도움이 됩니다.” OpenAI 그는 자신의 블로그 게시물에서 이렇게 말했습니다..

액세스 권한이 있는 회사에는 교육 기술 회사 Age of Learning, 시각적 스토리텔링 플랫폼 HeyGen, 일선 건강 소프트웨어 제조업체 Dimagi, AI 커뮤니케이션 앱 빌더 Livox 및 건강 시스템 Lifespan이 포함됩니다.

OpenAI가 게시한 샘플에서 다음 내용을 들을 수 있습니다. 학습시대 이 기술은 미리 작성된 오디오 콘텐츠를 생성하고 GPT-4가 작성한 학생들의 “실시간 개인 응답”을 읽도록 조작되었습니다.

첫째: 영어로 된 참조 오디오:

다음은 해당 샘플을 기반으로 AI가 생성한 세 가지 오디오 클립입니다.

OpenAI는 2022년 말에 음성 엔진 개발을 시작했으며 이 기술은 이미 텍스트 음성 변환 API 및 ChatGPT의 소리내어 읽기 기능을 위해 미리 만들어진 음성을 지원했다고 밝혔습니다. 와의 인터뷰에서 테크크런치Voice Engine용 OpenAI 제품 팀의 일원인 Jeff Harris는 “이 모델은 라이선스가 부여된 데이터와 공개적으로 사용 가능한 데이터의 조합”에 대해 훈련되었다고 말했습니다. OpenAI는 이 모델이 약 10명의 개발자에게만 제공될 것이라고 간행물에 말했습니다.

AI를 활용해 텍스트-음성 변환을 생성하는 것은 계속 진화하는 생성 AI 영역이다. 대부분이 악기 소리나 자연스러운 소리에 중점을 두는 반면, 부분적으로 OpenAI에서 인용한 질문으로 인해 소리 생성에 초점을 맞춘 사람은 더 적습니다. 이 공간의 일부 이름에는 AI 오디오 복제 기술 및 도구를 제공하는 Podcastle 및 ElevenLabs와 같은 회사가 포함됩니다. 수직 전송 작년에 탐색해 보세요.

OpenAI에 따르면 파트너는 동의 없이 음성 생성을 사용하여 사람이나 조직을 사칭하지 않는다는 사용 정책을 준수하기로 동의했습니다. 또한 파트너는 개별 사용자가 자신의 목소리를 만들 수 있는 방법을 구축하는 것이 아니라 원어민으로부터 “명시적이고 사전 동의”를 얻어야 하며, 음성이 인공 지능에 의해 생성된다는 사실을 청취자에게 공개해야 합니다. OpenAI는 또한 오디오 클립에 워터마크를 추가하여 원본을 추적하고 오디오가 효과적으로 사용되는 방식을 모니터링합니다.

OpenAI는 은행 계좌 접근을 위한 음성 기반 인증의 단계적 폐지, AI에서 사람의 목소리 사용을 보호하기 위한 정책, AI 딥페이크에 대한 교육 강화 등 이러한 도구와 관련된 위험을 제한할 수 있다고 믿는 몇 가지 단계를 제안했습니다. 추적 시스템의. 인공지능 콘텐츠용.