OpenAI의 새로운 AI 이미지 생성기는 빠른 디테일과 해상도로 한계를 뛰어넘습니다

수요일에는 OpenAI 발표하다 DALL-E 3는 ChatGPT와 완벽하게 통합된 AI 이미지 합성 모델의 최신 버전입니다. DALL-E 3는 이전 모델에서는 어려웠던 복잡한 설명을 면밀히 따르고 이미지 내 텍스트 생성(라벨, 태그 등)을 처리하여 이미지를 표시합니다. 현재 연구 미리 보기 단계이며, 10월 초 ChatGPT Plus 및 Enterprise 고객에게 제공될 예정입니다.

이전 제품과 마찬가지로 DALLE-3은 프롬프트라고 하는 서면 설명을 기반으로 새로운 이미지를 생성하는 텍스트-이미지 생성기입니다. OpenAI는 DALL-E 3에 대한 기술적 세부 사항을 공개하지 않았지만 이전 버전의 DALL-E의 핵심인 AI 모델은 인간 예술가와 사진 작가가 만든 수백만 장의 이미지를 기반으로 훈련되었으며 그 중 일부는 재고에서 라이선스를 받았습니다. Shutterstock과 같은 사이트. DALL-E 3는 동일한 공식을 따르지만 새로운 훈련 기술과 더 긴 계산 훈련 시간을 사용합니다.

OpenAI가 홍보 블로그에서 제공한 샘플로 판단하면 DALL-E 3는 다음 프롬프트 측면에서 사용할 수 있는 다른 어떤 것보다 근본적으로 더 유능한 포토 몽타주 모델인 것으로 보입니다. OpenAI의 예제는 효율성을 위해 신중하게 선택되었지만 왜곡을 최소화하면서 객체를 렌더링하기 위한 빠른 지침을 충실하고 설득력 있게 따르는 것으로 보입니다. OpenAI는 DALL-E 2와 비교하여 DALL-E 3가 손과 같은 작은 세부 사항을 보다 효과적으로 최적화하여 해킹이나 빠른 엔지니어링 없이도 사실상 매력적인 이미지를 생성한다고 말합니다.

OpenAI에서 제공한 DALL-E 3 이미지: “중앙에 구멍 크기의 구멍이 있고 ‘내 안이 너무 공허해’라고 말하는 치료사의 의자에 앉아 있는 아보카도 그림. 치료사, 숟가락, 낙서 노트.”

오픈AI
OpenAI가 제공한 DALL-E 3 이미지: “완전히 다양한 고기로 이루어진 광활한 풍경이 보는 사람 앞에 펼쳐진다. 얇고 육즙이 풍부한 로스트 비프 언덕, 닭다리 나무, 베이컨 강, 돼지고기 바위 초현실적인 장면을 만들어 보세요.” 하지만 그 광경은 식욕을 돋웁니다. 하늘은 페퍼로니의 태양과 살라미 구름으로 장식되어 있습니다.”

오픈AI
OpenAI에서 제공한 DALL-E 3 이미지: “실내 식물로 장식된 카페의 썸네일. 나무 기둥이 위를 가로지르며 작은 병과 컵이 있는 차가운 음료 스테이션을 강조합니다.”

오픈AI
OpenAI에서 제공한 DALL-E 3 이미지: “습한 모래 속에 자리잡은 소라게의 클로즈업. 근처에 바다 거품이 있고 껍질과 모래 질감의 세부 사항이 강조되어 있습니다.”

오픈AI
OpenAI에서 제공한 DALL-E 3 이미지: “종이 공예 예술은 소녀가 고양이를 부드럽게 안고 있는 모습을 묘사합니다. 둘 다 화분 가운데 앉아 있고, 고양이는 만족스럽게 가르랑거리고 소녀는 웃고 있습니다. 장면은 수제 종이로 장식되어 있습니다. 꽃과 나뭇잎.”

오픈AI
OpenAI에서 제공한 DALL-E 3 이미지: “Telegraph Hill에 우뚝 솟은 Coit Tower의 픽셀 아트 뷰, 아래 도시의 탁 트인 전망, 새들이 날아다니는 모습.”

오픈AI
OpenAI에서 제공한 DALL-E 3 이미지: “작은 감자 왕은 장엄한 왕관을 쓰고, 왕좌에 앉아, 감자 테마와 감자 성이 가득한 광대한 감자 왕국을 감독합니다.”

오픈AI
OpenAI에서 제공한 DALL-E 3 이미지: “투명한 유리로 만들어진 인간의 심장이 폭풍우가 치는 바다 한가운데 받침대 위에 서 있는 그림. 햇빛이 구름을 뚫고 심장을 비추고 내부의 작은 우주를 드러냅니다. .” “‘당신 안의 우주를 찾으세요’라는 문구가 지평선 너머에 굵은 글씨로 새겨져 있습니다.”

오픈AI
OpenAI에서 제공한 DALL-E 3 이미지: “아시아계 중년 여성, 그녀의 검은 머리는 은색 줄무늬가 있고 부서지고 금이 가며 깨진 도자기 바다에 복잡하게 박혀 있습니다. 도자기는 흩뿌려진 페인트로 반짝입니다. 패턴 파란색 “밝고 무광택, 녹색, 주황색, 빨간색이 조화롭게 혼합된 그녀의 춤은 움직임과 고요함의 초현실적인 병치로 포착됩니다. 밝은 도자기 색조인 그녀의 피부색은 그녀의 형태에 거의 신비로운 특성을 더합니다.”

오픈AI

이에 비해 다른 벤더의 경쟁 AI 이미지 합성 모델인 Midjourney는 사실적인 디테일을 잘 표시하지만 여전히 이미지 출력을 제어하기 위한 프롬프트와 함께 상당한 양의 비직관적인 조작이 필요합니다.

DALL-E 3는 또한 이전 제품이 처리할 수 없었던 방식으로 이미지 내의 텍스트를 처리하는 것으로 보입니다(Stable Diffusion XL 및 딥 플로이드 그들은 점점 더 잘하게 됩니다.) 예를 들어, 캐릭터의 명언을 담은 아보카도 만화가 완벽하게 만들어졌고, 중간에 분화구 크기의 구멍이 있고 치료사의 의자에 앉아 ‘내 속이 너무 공허해’라고 말하는 아보카도의 그림. ” 말풍선에 캡슐화되어 있습니다.

특히 OpenAI는 DALL-E 3가 ChatGPT에 “기본적으로 구축”되었으며 ChatGPT Plus의 통합 기능으로 출시되어 AI 도우미를 브레인스토밍 파트너로 사용하는 방식으로 이미지 대화를 개선할 수 있다고 말합니다. 이는 또한 ChatGPT가 현재 대화의 맥락을 기반으로 이미지를 생성할 수 있다는 것을 의미하며, 이는 새로운 기능으로 이어질 수 있습니다. 역시 OpenAI 기술을 기반으로 구축된 Microsoft의 Bing Chat AI 도우미는 3월부터 채팅에서 이미지를 생성할 수 있게 되었습니다.

폭풍을 일으킨 찻주전자

DALL-E 3의 인공 지능이 생성한 이미지 — 확대 / AI가 생성한 이미지 DALL-E 3 “바람 부는 날 창틀에 놓인 커피잔의 3D 렌더링. 창 밖의 폭풍우가 커피에 반사되어 컵 내부에 소형 번개와 난류가 보입니다. 방은 은은한 조명으로 드라마틱한 분위기를 더해줍니다.”

오픈AI

DALL-E의 원본 버전 등장 2021년 1월, OpenAI는 2022년 4월에 훨씬 더 강력한 속편을 출시하여 초기 비공개 베타 테스터를 사로잡을 만큼 놀라운 팡파르로 AI 생성 이미지의 새로운 시대를 열었습니다. DALL-E 모델은 다음과 같은 기술을 사용합니다. 잠재 확산 이는 데이터 세트에 대한 교육과 벡터의 지침을 통해 얻은 지식을 통해 노이즈를 이미지로 “인식”하는 방식으로 정제합니다. 동일한 기술을 통해 작년 8월 Stable Diffusion 개방형 중량 모델이 등장했습니다.

DALL-E가 인간이 생성한 예술 작품의 대규모 데이터 세트를 마이닝하여 훈련 중 이미지에 대한 개념을 학습하는 방식을 고려할 때 AI 이미지 생성 기술은 지난해 도입된 이후 큰 논란을 불러일으켰습니다. 이 기술은 자신의 방법을 비윤리적으로 대체하거나 복제할 것을 우려하는 예술가들의 항의, 저작권자와 협의 없이 훈련 데이터로 사용된 훔친 이미지를 기반으로 한 저작권 침해에 대한 소송, 저작권청의 새로운 저작권 판결을 촉발시켰습니다. . 지방법원 판사.

이러한 논란에 대해 OpenAI는 DALL-E 3가 라이브 아티스트 스타일의 이미지를 요청하는 요청을 거부하도록 설계되었다고 말합니다. 오픈AI도 모델을 제공합니다 제작자는 향후 모델을 교육하는 데 자신의 이미지가 사용되는 것을 거부할 수 있습니다. 이러한 조치는 AI 교육이 기본적으로 이미지 데이터 세트에 포함되는 것이 아니라 선택적으로만 이루어져야 한다고 일반적으로 믿는 아티스트를 만족시키지 못할 것 같습니다.

확대 / DALL-E 2(왼쪽)와 DALL-E 3(오른쪽)가 만든 “성운 폭발로 묘사된 덩크슛을 하는 농구 선수의 표현력이 풍부한 유화” 비교.

오픈AI

현재 미국 저작권 정책에는 AI가 만든 작품만 저작권 보호를 받을 수 없다고 명시되어 있으므로 기술적으로 DALL-E 3로 만든 모든 이미지는 공개 도메인에 속하게 됩니다. OpenAI는 이를 명시적으로 인정하지는 않지만 “DALL-E 3로 생성한 이미지는 귀하가 사용할 수 있는 것이며 이를 재인쇄, 판매 또는 마케팅하는 데 우리의 허가가 필요하지 않습니다”라고 말합니다. 이는 OpenAI가 출시된 작년에 비해 눈에 띄는 변화입니다. 이미지 DALE-2의 제한된 사용 OpenAI가 “모든 세대를 소유”한다고 명시한 라이선스를 기반으로 합니다.

안전 측면에서 OpenAI는 DALL-E 2와 마찬가지로 DALL-E 3에도 키워드 및 이미지 감지 필터를 구현하여 폭력적, 성적 또는 증오성 콘텐츠를 생성하는 기능을 제한했다고 밝혔습니다. 이 시스템은 또한 유명 인사의 이름을 기준으로 사진을 생성하는 요청을 거부하도록 프로그래밍되어 있습니다. 이로 인해 라이벌 AI 기반 사진 생성기 Midjourney가 도널드 트럼프의 가짜 체포 사진을 생성할 때 문제가 발생했습니다.

OpenAI는 해로운 편견이나 선전 및 잘못된 정보 생성과 같은 잠재적 위험을 식별하고 완화하기 위해 “레드팀”으로 알려진 전문가와 협력했다고 밝혔습니다. OpenAI는 이를 수행하는 도구의 잠재력에 대해 어떠한 언급도 하지 않았습니다. 역사적 기록을 굽히다 그러나 얇게 위장된 비방을 사용하여 이미지가 DALL-E 3에서 생성되었는지 여부를 결정하는 데 도움이 될 수 있는 “소스 분류기” 도구를 실험하고 있다고 말합니다.

현재로서는 테스트를 위해 DALL-E 3에 액세스할 수 없지만 OpenAI는 AI 이미지 생성기가 현재 비공개 테스트를 받고 있다고 말합니다. ChatGPT Plus 및 Enterprise 고객은 “10월에 API를 통해 그리고 올 가을 말에 Labs에서” 사용할 수 있도록 할 계획입니다.