9월 20, 2024

Wpick

지상에서 한국의 최신 개발 상황을 파악하세요

애호가들은 AI 생성 이미지에 사용자 정의 글꼴을 삽입하는 방법을 알아냅니다.

애호가들은 AI 생성 이미지에 사용자 정의 글꼴을 삽입하는 방법을 알아냅니다.

확대 / 인공지능이 생성한 예시 사이버펑크 2077 Flux dev를 사용하여 도입된 LoRA.

지난주 아마추어가 새로운 Flux AI 이미지 합성 모델을 실험했습니다. 발견되었습니다 그들은 특별히 훈련된 글꼴 버전을 제공하는 데 예상치 못하게 능숙합니다. 수십 년 동안 컴퓨터 글꼴을 렌더링하는 보다 효율적인 방법이 있었지만 Flux는 세밀한 텍스트 시각화를 렌더링할 수 있고 사용자는 이제 사용자 정의 글꼴로 렌더링된 단어를 AI 이미지 생성에 직접 삽입할 수 있기 때문에 AI 이미지 애호가에게 유용합니다. .

우리는 1980년대(및 연구에서는 1970년대)부터 사용자 정의 모양으로 정확하고 부드러운 컴퓨터로 그린 선을 생성하는 기술을 보유하고 있으므로 AI로 복제된 글꼴을 만드는 것은 그 자체로는 새로운 것이 아닙니다. 그러나 새로운 기술은 실제 레스토랑의 칠판 메뉴나 로봇 여우가 들고 있는 인쇄된 명함 등 AI가 생성한 이미지에 특정 글꼴이 나타나는 것을 볼 수 있음을 의미합니다.

2022년 AI 사진 몽타주 모델이 Stable Diffusion과 같은 주류로 자리잡은 직후 일부 사람들은 궁금하다AI 생성 이미지에 내 제품, 의류 품목, 개성 또는 스타일을 어떻게 포함할 수 있나요? 등장한 대답 중 하나는 기술인 LoRA(low-rankadaption)의 형태로 나왔습니다. 발견되었습니다 2021년에는 사용자가 특별히 훈련된 벤치마크 확장을 통해 AI 기본 모델에 대한 지식을 늘릴 수 있는 AI 기본 모델이 출시되었습니다.

모듈이라고 불리는 이러한 LoRA 모듈을 사용하면 이미지 합성 모델이 기본 모델의 교육 데이터에서 원래 발견되지 않은(또는 제대로 표현되지 않은) 새로운 개념을 생성할 수 있습니다. 실제로 이미지 합성 애호가들은 이를 사용하여 고유한 스타일(예: 영화의 모든 것)을 제공합니다. 초크아트) 또는 주제(상세 이미지 스파이더맨(예를 들어). 각 LoRA는 사용자가 제공한 예제를 사용하여 구체적으로 교육되어야 합니다.

Flux 이전에는 대부분의 AI 이미지 생성기가 장면 내에서 정확한 텍스트를 표시하는 데 능숙하지 않았습니다. Stable Diffusion 1.5에 “치즈”라는 태그를 표시하도록 요청하면 말도 안되는 결과가 표시됩니다. 작년에 출시된 OpenAI의 DALL-E 3는 텍스트 처리를 상당히 잘 수행하는 최초의 주요 모델이었습니다. Flux는 여전히 가끔씩 단어 및 문자 오류를 일으키지만, 지금까지 본 것 중 가장 유능한 “세계 텍스트” AI 모델입니다.

Flux는 다운로드 및 마이크로컨버전이 가능한 개방형 모델이기 때문에 지난 달에 LoRA 라인 트레이닝이 처음으로 적합해졌습니다. 바로 이것이다 최근 Vadim Fedenko라는 AI 애호가(보도 시간까지 인터뷰 요청에 응답하지 않음)가 발견했습니다. Fedenko는 “결과가 나온 방식에 정말 감동받았습니다.”라고 썼습니다. 레딧에 공유“Flux는 특정 스타일/글꼴에서 문자가 어떻게 보이는지 인식하므로 특정 글꼴, 스타일 등으로 Loras를 교육할 수 있습니다. 곧 더 많은 교육을 실시할 예정입니다.”

첫 번째 시도에서 Fedenko는 스파클링 음료를 선택했습니다. “Y2K” 스타일 글꼴 1990년대 후반과 2000년대 초반에 유행했던 모델을 연상케 하는 결과물이 8월 20일 시비타이(Civitai) 플랫폼에 공개됐다. 이틀 후 “AggravatingScree7189″라는 Civitai 사용자가 LoRA 글꼴과 유사한 글꼴을 재현한 두 번째 LoRA 글꼴을 게시했습니다. 사이버펑크 2077 비디오 게임.

“내가 이런 일을 할 수 있을 거라고 생각하기 전에는 대본이 너무 형편없었어요.” 서적 Reddit 사용자는 Y2K 라인에 대한 Fedenko의 게시물에 응답할 때 egg-benedryl이라고 불렀습니다. 다른 Reddit 사용자 서적“Y2K 잡지를 확대해 보기 전까지는 가짜인지 몰랐습니다.”

과장됐나요?

مثال على <em>사이버펑크 2077</em> Flux 개발을 사용하여 렌더링된 LoRA.” src=”https://cdn.arstechnica.net/wp-content/uploads/2024/08/without_with_2-640×357.jpg” width=”640″ height=”357″ srcset= ” https://cdn.arstechnica.net/wp-content/uploads/2024/08/without_with_2.jpg 2x”/></a><figcaption class=
확대 / 적절한 사례 사이버펑크 2077 Flux dev를 사용하여 도입된 LoRA.

단순한 배경에 일반 선을 표시하기 위해 이미지를 합성하기 위해 심층적으로 훈련된 신경망을 사용하는 것은 아마도 과잉일 수 있다는 것이 사실입니다. 문서를 디자인하는 동안 Adobe Illustrator를 대체하기 위해 이 방법을 사용하고 싶지 않을 것입니다.

“좋은 것 같지만 300MB LoRA 파일로 글꼴 아이디어를 재창조한다는 것은 좀 웃깁니다.” 서적 Reddit에 대한 스레드의 댓글 작성자 사이버펑크 2077 세례반.

Generative AI는 환경에 미치는 영향 때문에 종종 비판을 받습니다. 이는 대규모 클라우드 데이터 센터에 대한 정당한 우려 사항입니다. 그러나 우리는 Flux가 RTX 3060에서 로컬로 실행되는 동안 AI 생성 장면에 이러한 라인을 삽입할 수 있다는 것을 발견했습니다. 정량화 (축소된 크기) (전체 개발 모델은 RTX 3090에서 실행될 수 있습니다). 같은 PC에서 비디오 게임을 하는 것과 비슷한 전력 소비량입니다. LoRA:Constructor를 생성할 때도 마찬가지입니다. 사이버펑크 2077 세례반 훈련자 3090 GPU에서 LoRA를 3시간 만에 구현했습니다.

콘텐츠 소유자의 동의 없이 수집된 데이터에 대해 AI 기반 이미지 생성기가 어떻게 훈련되는지 등 AI 기반 이미지 생성기 사용과 관련된 윤리적 문제도 있습니다. 이 기술은 일부 아티스트들 사이에서 의견이 분분하지만, 많은 사람들이 매일 이 기술을 사용하고 있습니다. 온라인으로 결과 공유 Reddit과 같은 소셜 미디어 플랫폼을 통해 이와 같은 기술의 새로운 적용이 가능해졌습니다.

이 글을 쓰는 시점에는 Flux LoRA 전용 라인이 두 개밖에 없지만 이 라인을 작성하면서 더 많은 라인을 만들 계획에 대해 이미 들었습니다. 이 기술은 아직 초기 단계이지만, 앞으로 AI 이미지 합성이 더 광범위하게 배포된다면 필수 기술이 될 수 있습니다. 이미지 합성 모델을 갖춘 Adobe는 이 문제를 계속 주시할 것입니다.