수요일에는 OpenAI 발표하다 DALL-E 3는 ChatGPT와 완벽하게 통합된 AI 이미지 합성 모델의 최신 버전입니다. DALL-E 3는 이전 모델에서는 어려웠던 복잡한 설명을 면밀히 따르고 이미지 내 텍스트 생성(라벨, 태그 등)을 처리하여 이미지를 표시합니다. 현재 연구 미리 보기 단계이며, 10월 초 ChatGPT Plus 및 Enterprise 고객에게 제공될 예정입니다.
이전 제품과 마찬가지로 DALLE-3은 프롬프트라고 하는 서면 설명을 기반으로 새로운 이미지를 생성하는 텍스트-이미지 생성기입니다. OpenAI는 DALL-E 3에 대한 기술적 세부 사항을 공개하지 않았지만 이전 버전의 DALL-E의 핵심인 AI 모델은 인간 예술가와 사진 작가가 만든 수백만 장의 이미지를 기반으로 훈련되었으며 그 중 일부는 재고에서 라이선스를 받았습니다. Shutterstock과 같은 사이트. DALL-E 3는 동일한 공식을 따르지만 새로운 훈련 기술과 더 긴 계산 훈련 시간을 사용합니다.
OpenAI가 홍보 블로그에서 제공한 샘플로 판단하면 DALL-E 3는 다음 프롬프트 측면에서 사용할 수 있는 다른 어떤 것보다 근본적으로 더 유능한 포토 몽타주 모델인 것으로 보입니다. OpenAI의 예제는 효율성을 위해 신중하게 선택되었지만 왜곡을 최소화하면서 객체를 렌더링하기 위한 빠른 지침을 충실하고 설득력 있게 따르는 것으로 보입니다. OpenAI는 DALL-E 2와 비교하여 DALL-E 3가 손과 같은 작은 세부 사항을 보다 효과적으로 최적화하여 해킹이나 빠른 엔지니어링 없이도 사실상 매력적인 이미지를 생성한다고 말합니다.
이에 비해 다른 벤더의 경쟁 AI 이미지 합성 모델인 Midjourney는 사실적인 디테일을 잘 표시하지만 여전히 이미지 출력을 제어하기 위한 프롬프트와 함께 상당한 양의 비직관적인 조작이 필요합니다.
DALL-E 3는 또한 이전 제품이 처리할 수 없었던 방식으로 이미지 내의 텍스트를 처리하는 것으로 보입니다(Stable Diffusion XL 및 딥 플로이드 그들은 점점 더 잘하게 됩니다.) 예를 들어, 캐릭터의 명언을 담은 아보카도 만화가 완벽하게 만들어졌고, 중간에 분화구 크기의 구멍이 있고 치료사의 의자에 앉아 ‘내 속이 너무 공허해’라고 말하는 아보카도의 그림. ” 말풍선에 캡슐화되어 있습니다.
특히 OpenAI는 DALL-E 3가 ChatGPT에 “기본적으로 구축”되었으며 ChatGPT Plus의 통합 기능으로 출시되어 AI 도우미를 브레인스토밍 파트너로 사용하는 방식으로 이미지 대화를 개선할 수 있다고 말합니다. 이는 또한 ChatGPT가 현재 대화의 맥락을 기반으로 이미지를 생성할 수 있다는 것을 의미하며, 이는 새로운 기능으로 이어질 수 있습니다. 역시 OpenAI 기술을 기반으로 구축된 Microsoft의 Bing Chat AI 도우미는 3월부터 채팅에서 이미지를 생성할 수 있게 되었습니다.
폭풍을 일으킨 찻주전자
DALL-E의 원본 버전 등장 2021년 1월, OpenAI는 2022년 4월에 훨씬 더 강력한 속편을 출시하여 초기 비공개 베타 테스터를 사로잡을 만큼 놀라운 팡파르로 AI 생성 이미지의 새로운 시대를 열었습니다. DALL-E 모델은 다음과 같은 기술을 사용합니다. 잠재 확산 이는 데이터 세트에 대한 교육과 벡터의 지침을 통해 얻은 지식을 통해 노이즈를 이미지로 “인식”하는 방식으로 정제합니다. 동일한 기술을 통해 작년 8월 Stable Diffusion 개방형 중량 모델이 등장했습니다.
DALL-E가 인간이 생성한 예술 작품의 대규모 데이터 세트를 마이닝하여 훈련 중 이미지에 대한 개념을 학습하는 방식을 고려할 때 AI 이미지 생성 기술은 지난해 도입된 이후 큰 논란을 불러일으켰습니다. 이 기술은 자신의 방법을 비윤리적으로 대체하거나 복제할 것을 우려하는 예술가들의 항의, 저작권자와 협의 없이 훈련 데이터로 사용된 훔친 이미지를 기반으로 한 저작권 침해에 대한 소송, 저작권청의 새로운 저작권 판결을 촉발시켰습니다. . 지방법원 판사.
이러한 논란에 대해 OpenAI는 DALL-E 3가 라이브 아티스트 스타일의 이미지를 요청하는 요청을 거부하도록 설계되었다고 말합니다. 오픈AI도 모델을 제공합니다 제작자는 향후 모델을 교육하는 데 자신의 이미지가 사용되는 것을 거부할 수 있습니다. 이러한 조치는 AI 교육이 기본적으로 이미지 데이터 세트에 포함되는 것이 아니라 선택적으로만 이루어져야 한다고 일반적으로 믿는 아티스트를 만족시키지 못할 것 같습니다.
현재 미국 저작권 정책에는 AI가 만든 작품만 저작권 보호를 받을 수 없다고 명시되어 있으므로 기술적으로 DALL-E 3로 만든 모든 이미지는 공개 도메인에 속하게 됩니다. OpenAI는 이를 명시적으로 인정하지는 않지만 “DALL-E 3로 생성한 이미지는 귀하가 사용할 수 있는 것이며 이를 재인쇄, 판매 또는 마케팅하는 데 우리의 허가가 필요하지 않습니다”라고 말합니다. 이는 OpenAI가 출시된 작년에 비해 눈에 띄는 변화입니다. 이미지 DALE-2의 제한된 사용 OpenAI가 “모든 세대를 소유”한다고 명시한 라이선스를 기반으로 합니다.
안전 측면에서 OpenAI는 DALL-E 2와 마찬가지로 DALL-E 3에도 키워드 및 이미지 감지 필터를 구현하여 폭력적, 성적 또는 증오성 콘텐츠를 생성하는 기능을 제한했다고 밝혔습니다. 이 시스템은 또한 유명 인사의 이름을 기준으로 사진을 생성하는 요청을 거부하도록 프로그래밍되어 있습니다. 이로 인해 라이벌 AI 기반 사진 생성기 Midjourney가 도널드 트럼프의 가짜 체포 사진을 생성할 때 문제가 발생했습니다.
OpenAI는 해로운 편견이나 선전 및 잘못된 정보 생성과 같은 잠재적 위험을 식별하고 완화하기 위해 “레드팀”으로 알려진 전문가와 협력했다고 밝혔습니다. OpenAI는 이를 수행하는 도구의 잠재력에 대해 어떠한 언급도 하지 않았습니다. 역사적 기록을 굽히다 그러나 얇게 위장된 비방을 사용하여 이미지가 DALL-E 3에서 생성되었는지 여부를 결정하는 데 도움이 될 수 있는 “소스 분류기” 도구를 실험하고 있다고 말합니다.
현재로서는 테스트를 위해 DALL-E 3에 액세스할 수 없지만 OpenAI는 AI 이미지 생성기가 현재 비공개 테스트를 받고 있다고 말합니다. ChatGPT Plus 및 Enterprise 고객은 “10월에 API를 통해 그리고 올 가을 말에 Labs에서” 사용할 수 있도록 할 계획입니다.
“맥주 괴짜. 사악한 대중 문화 닌자. 평생 커피 학자. 전문 인터넷 전문가. 육류 전문가.”
More Stories
Microsoft는 Call of Duty: Black Ops 6가 “출시일에 Game Pass 가입자 추가” 수에 대한 기록을 세웠다고 밝혔습니다.
Call of Duty: Black Ops 6 다운로드로 인터넷 사용 극대화
어둠 속에서 전화기를 빛나게 하는 것은 아무것도 없습니다.