랩 모나리자? 새로운 Microsoft AI는 사진에서 얼굴에 애니메이션을 적용합니다.

Ana Ryu/Visual China Group/Getty Images

2023년 3월 19일 워싱턴 주 시애틀에 있는 회사 본사에 Microsoft 간판이 보입니다.

뉴욕
CNN
—

이제 Microsoft의 새로운 AI 기술 덕분에 Mona Lisa는 단순히 웃는 것 이상의 일을 할 수 있습니다.

지난주 마이크로소프트 연구원들은 얼굴 스틸 이미지와 말하는 사람의 오디오 클립을 촬영하고 자동으로 그 사람이 말하는 모습을 사실적으로 보이는 비디오를 생성할 수 있는 새로운 AI 모델을 자세히 설명했습니다. 실제 얼굴은 물론 캐리커처나 예술 작품으로 제작할 수 있는 비디오는 설득력 있는 립싱크와 자연스러운 얼굴 및 머리 움직임으로 완성됩니다.

한 실험 비디오에서 연구원들은 여배우 앤 해서웨이(Anne Hathaway)의 코미디 랩 노래를 낭송하기 위해 모나리자에 애니메이션을 적용하는 방법을 보여주었습니다.

AI 모델의 출력을 바사-1, 현실에서는 재미 있고 다소 모순됩니다. 마이크로소프트는 이 기술이 교육에 사용될 수 있고 “의사소통에 어려움이 있는 개인의 접근성을 향상”하거나 인간을 위한 가상 동반자를 만드는 데 사용될 수 있다고 말했습니다. 하지만 이 도구가 어떻게 남용되고 실제 사람을 사칭하는 데 사용될 수 있는지 쉽게 알 수 있습니다.

이는 Microsoft를 넘어서는 우려 사항입니다. 매력적인 AI 생성 이미지, 비디오 및 오디오 클립을 만들기 위한 더 많은 도구가 등장함에 따라 전문가들은 우려하고 있다 그리고 이를 오용하면 새로운 형태의 잘못된 정보가 발생할 수 있습니다. 일부 사람들은 기술이 영화에서 광고에 이르기까지 창조 산업을 더욱 혼란에 빠뜨릴 수 있다고 우려합니다.

현재 마이크로소프트는 VASA-1 모델을 대중에게 즉시 출시할 계획은 없다고 밝혔다. 이러한 움직임은 Microsoft 파트너인 OpenAI가 주변 문제를 해결하는 방식과 유사합니다. 인공지능이 생성한 영상 도구Sora: OpenAI는 지난 2월 Sora를 놀렸지만 지금까지는 테스트 목적으로 일부 전문 사용자와 사이버 보안 교수에게만 제공되었습니다.

마이크로소프트 연구원들은 블로그 게시물을 통해 “실제 사람들에게 오해의 소지가 있거나 유해한 콘텐츠를 만드는 모든 행위에 반대한다”고 밝혔다. 그러나 그들은 회사가 “해당 기술이 적절한 규정에 따라 책임감 있게 사용된다는 것을 보장할 때까지” 제품을 공개적으로 출시할 계획이 없다고 덧붙였습니다.

연구원들은 마이크로소프트의 새로운 AI 모델이 말하는 동안 사람들의 얼굴이 담긴 여러 영상을 학습했으며, 특히 입술 움직임, (입술이 아닌) 표정, 시선, 눈 깜박임 등 자연스러운 얼굴과 머리 움직임을 인식하도록 설계됐다고 밝혔습니다. ” 다른 것들”. 그 결과 VASA-1이 정지 이미지를 패닝할 때 더욱 사실적인 비디오가 생성됩니다.

예를 들어, 비디오 게임을 하는 동안 동요한 것처럼 보이는 누군가의 클립으로 설정된 한 테스트 비디오에서 말하는 얼굴은 눈썹을 찌푸리고 입술을 오므렸습니다.

AI 도구를 활용해 피사체가 특정 방향을 바라보거나 특정 감정을 표현하는 영상을 제작할 수도 있다.

자세히 살펴보면 간헐적인 깜박임, 과장된 눈썹 움직임 등 영상이 기계로 생성된 징후가 여전히 남아 있습니다. 그러나 마이크로소프트는 자신의 모델이 다른 유사한 도구보다 “상당히 뛰어난 성능을 발휘”하고 “인간의 대화 행동을 모방하는 실물과 같은 아바타와의 실시간 상호 작용을 위한 길을 닦는다”고 말했습니다.