Stability AI는 목요일에 개방형 가중치를 갖춘 차세대 이미지 합성 모델인 Stable Diffusion 3을 발표했습니다. 텍스트 생성 시 향상된 품질과 정확성으로 상세한 다중 주제 이미지를 생성하여 이전 버전을 따릅니다. 간략한 발표에는 공개 데모가 수반되지 않았지만 안정성이 떨어졌습니다. 대기자 명단 열기 오늘은 그것을 시도하고 싶은 사람들을위한 것입니다.
Stable은 Stable Diffusion 3 모델 제품군(“프롬프트”라는 텍스트 설명을 가져와 해당 이미지로 변환)의 크기 범위가 8억에서 80억 개에 달하는 매개변수라고 말합니다. 이 규모는 다양한 버전의 모델을 스마트폰부터 서버까지 다양한 장치에서 로컬로 실행할 수 있도록 허용합니다. 매개변수 크기는 생성할 수 있는 세부정보의 양 측면에서 모델의 기능과 대략적으로 일치합니다. 또한 더 큰 모델을 실행하려면 GPU 가속기에 더 많은 VRAM이 필요합니다.
2022년부터 Stable은 AI 이미지 생성 모델의 진화인 Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo 및 현재 3. Stability는 OpenAI의 DALL-E 3과 같은 독점 이미지 합성 모델에 대한 보다 개방적인 대안을 제공하는 것으로 명성을 얻었지만 저작권이 있는 교육 사용으로 인해 논란이 없지는 않습니다. 데이터. 편견과 남용 가능성. (이로 인해 해결되지 않은 소송이 발생했습니다.) 정상 상태 확산 모델은 공개 가중치와 오픈 소스였습니다. 즉, 모델이 로컬에서 실행되고 출력을 변경하도록 조정될 수 있음을 의미합니다.
-
Stable Diffusion 3 Generation(주장 포함): 밤에 산 꼭대기에 있는 마법사가 다채로운 에너지로 만들어진 “Stable Diffusion 3″이라고 말하며 어두운 하늘에 우주 주문을 시전하는 서사적 예술 작품입니다.
-
Stable Diffusion 3에서 제작한 “Go big or go home” 스웨트셔츠를 입고 있는 할머니의 AI 생성 이미지.
-
신속하고 안정적인 3세대 확산: 나무 테이블 위에 투명 유리병 3개. 왼쪽은 빨간색 액체이고 숫자 1입니다. 가운데는 파란색 액체이고 숫자 2입니다. 오른쪽은 녹색 액체이고 숫자 3입니다.
-
Stable Diffusion 3을 사용하여 AI가 생성한 이미지.
-
신속한 3세대 안정 확산: 푸른 잔디와 산을 배경으로 한 들판의 색색 공 위에서 말이 균형을 이루고 있습니다.
-
프롬프트를 통한 3세대 정물 전파: 다양한 호박의 분위기 있는 정물화.
-
Stable Diffusion 3rd Generation with 프롬프트: 투투를 입고 분홍색 우산을 들고 돼지를 탄 우주비행사의 그림, 돼지 옆 바닥에는 모자를 쓴 울새가 있고, 구석에는 'Stable Diffusion'이라는 글자가 있습니다.
-
주장이 있는 안정확산 3세대: 식탁 위에는 'Good Night'라고 적힌 수놓은 천과 수놓은 아기 호랑이가 놓여 있습니다. 천 옆에는 불이 켜진 촛불이 있습니다. 조명은 어둡고 드라마틱합니다.
-
프롬프트가 포함된 Stable Diffusion 3세대: 업무용 책상 위에 있는 90년대 데스크톱 컴퓨터 사진과 컴퓨터 화면에 “안녕하세요”라고 적혀 있습니다. 배경 벽에는 매우 큰 “SD3″이라는 텍스트가 적힌 아름다운 낙서가 보입니다.
기술적 개선과 관련하여 Stability CEO Imad Mushtaq은 다음과 같이 말했습니다. 서적 에
Mostaque가 말했듯이 Stable 제품군은 Diffusion 3을 사용합니다. 확산 변압기의 구조일반적인 이미지 빌딩 블록을 대체하는 인공 지능을 사용하여 이미지를 생성하는 새로운 방법(예: UNET 아키텍처) 이미지의 작은 조각에 작동하는 시스템용입니다. 이 방법은 패턴과 시퀀스를 잘 다루는 변환기에서 영감을 받았습니다. 이 접근 방식은 효율성을 높일 뿐만 아니라 더 높은 품질의 이미지를 생성한다고 합니다.
Stable Diffusion 3도 사용됩니다.”흐름 매칭“는 무작위 노이즈에서 원활하게 구조화된 이미지로 전환하는 방법을 학습하여 이미지를 생성할 수 있는 인공지능 모델을 생성하는 기술입니다. 프로세스의 모든 단계를 시뮬레이션할 필요 없이 이를 수행하고 대신 전체적인 방향이나 흐름에 중점을 둡니다. 이미지 생성이 이어져야 합니다.
우리는 Stable Diffusion 3(SD3)에 접근할 수 없지만 Stable 웹사이트와 관련 소셜 미디어 계정에 게시된 샘플을 보면 Generations가 현재 다른 최신 포토몽타주 모델과 대략 비슷해 보입니다. 앞서 언급한 DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney 및 Google Imagen을 포함합니다.
SD3는 다른 사람들이 제공한 예제에서 텍스트 생성을 매우 잘 처리하는 것으로 보이며, 이는 선별되었을 가능성이 높습니다. 텍스트 생성은 이전 이미지 몽타주 모델의 특별한 약점이었으므로 자유형에서 이 기능을 향상시키는 것은 큰 문제입니다. 또한 속도 정확도(프롬프트의 설명을 얼마나 밀접하게 따르는지)는 DALL-E 3과 유사해 보이지만 아직 직접 테스트하지는 않았습니다.
Stable Diffusion 3은 널리 사용 가능하지는 않지만 Stability에 따르면 테스트가 완료되면 가중치를 무료로 다운로드하여 로컬에서 실행할 수 있습니다. Stability는 “이전 모델과 마찬가지로 이 미리보기 단계는 공개 출시 전에 성능과 안전성을 개선하기 위한 아이디어를 수집하는 데 매우 중요합니다.”라고 썼습니다.
최근 다양한 이미지 몽타주 아키텍처를 통해 안정성이 실험되었습니다. SDXL 및 SDXL Turbo 외에도 회사는 지난주에 발표했습니다. 안정적인 캐스케이드는 3단계 프로세스를 사용하여 이미지에 텍스트를 오버레이합니다.
이미지 목록 기준 Imad Mushtaq(안정성을 위한 AI)
“맥주 괴짜. 사악한 대중 문화 닌자. 평생 커피 학자. 전문 인터넷 전문가. 육류 전문가.”
More Stories
AirPods 4와 이전 세대 구매자 가이드: 모든 업그레이드 비교
Apple의 업데이트 결정은 수백만 명의 iPhone 사용자에게 확실히 나쁜 소식입니다.
Apple은 충돌에 대한 불만으로 iPad Pro M4용 iPadOS 18 운영 체제 출시를 중단했습니다.