Досвід створення AI арт-пайплайну від RetroStyle Games. Як використовувати штучний інтелект в створенні арту.
Привіт, спільното! Мене звати Єлизавета Перун, я — технічна художниця у RetroStyle Games. Разом зі своїм колегою Дмитром Купленко, який в нашій компанії займає позиції технічного художника і геймдизайнер, ми хотіли б розповісти про використання штучного інтелекту в роботі техартіста. Але спочатку варто трохи пояснити хто ж це такий, адже в людей часто виникають питання.
Technical Artist — це людина, що вирішує складні проблеми, знаходячи оптимальні шляхи їх вирішення. Тож коли в інших професіях незнання чогось є мінусом, то в техарті незнання це базовий стартовий стан перед новим дослідженням. Це, звісно, звучить дещо абстрактно, тому розкажу трохи конкретніше, чим ми займаємося:
- в наші ключові обов’язки входить побудова та пришвидшення пайплайнів створення будь-якого артконтенту (від 2D-зображень до 3D-анімацій)
- ми відповідаємо за процеси рендерингу, зокрема налаштували в RetroStyle Games комп’ютерну рендер-ферму для масового продакшну CG-трейлерів;
- також ми займаємось написанням скриптів та інструментів для спрощення життя нашим художникам (наприклад, скрипти які допомагають швидко перейменовувати шари в фотошопі);
- створюємо ігрові ефекти та шейдери;
- інтегруємо фінальні результати в різноманітні ігрові рушії, зокрема в Unity та Unreal.
Проте зараз наш основний напрямок, якого ще два роки тому не існувало, — штучний інтелект.
Інтеграція AI у роботу всіх відділів
В нашій компанії AI повноцінно інтегрований та використовується різними відділами для прискорення рутинної роботи. Нижче статистика по відділах всередині RSG, яка свідчить, що в основному AI використовується для роботи з медіа, текстом та аналітикою. Та оскільки ми є аутсорс-студією з виготовлення арту, найбільше в нас використовують генеративні арт-АІ. Якщо конкретніше, то мова йде про Stable diffusion та MidJourney, які дозволяють використовувати різноманітні моделі для генерації зображень.
Наша історія з генеративним штучним інтелектом розпочалася два з половиною роки тому, коли у відкритий доступ виклали першу модель DALL-E. Як можна побачити з картинок, якість зображення, м’яко кажучи, була поганою і ці АІ можна було використовувати хіба що для генерацій мемів. Проте вже це викликало резонанс в медіа і багато ентузіастів та великих компаній почали розробляти власні інструменти.
Вже через рік у публічний доступ виклали дві ключові для нас моделі: Midjourney (можна використовувати через Discord) та Stable Diffusion (для якої згодом випустили дружній для користувача інтерфейс від Automatic1111). З виходом цих моделей АІ став доступним для більшого кола користувачів.
В цей момент ми почали досліджувати можливості використання штучного інтелекту в нашій роботі, а також просто експериментували. У грудні 2022 року до нас прийшли замовники з власними згенерованими референсами і ми зрозуміли, що ринок також став готовий до використання штучного інтелекту. Вже на початку
- ми навчили наших художників працювати з АІ Firefly в Adobe Photoshop;
- почали використовувати різноманітні розширення для SD, зокрема ControlNet, що дозволяє контролювати безліч аспектів генерацій;
- разом з тим ми протестували різноманітні моделі для АІ, в тому числі й новітню модель для SDXL, яку називають вбивцею MJ;
- до того ж ми вже розпочали роботу над тренуванням власних моделей, адже моделі наявні у вільному доступі не покривають наші запити на 100%.
Як це працює?
Все починається за навчання AI моделі на великій кількості зображень, та опису до них. Опис це фактично ключові слова, за якими можна зрозуміти що зображено на картинці. Далі штучний інтелект перетворює картинку на шум. Генерація нової картинки — це відновлення зображення з довільного шуму, коли нейронні алгоритми знаходять спільні риси між різними зображеннями за текстовими ключами. Такий метод навчання потребує багато обчислювальних потужностей та займає багато часу. Хоча зрештою це дозволяє згенерувати майже будь-що. Якщо ми навчали модель генерувати замок, то вона може його згенерувати будь-де. Наприклад в горах, навіть якщо при навчанні не було жодного замку в горах.
Далі потрібно пояснити та візуалізувати ЯК САМЕ відбувається процес використання АІ в нашій компанії. Експериментальним шляхом ми відібрали для себе два основних інструмента: Midjourney та Stable Diffusion.
Midjourney
Це найпопулярніший АІ в нашій компанії після ChatGPT. І це заслужено — він не вимагає від користувача потужного комп’ютера чи значних зусиль з підбору промпта, має дружній для користувача інтерфейс і практично гарантовано видає привабливий результат. За це його полюбили усі відділи, в тому числі й художники, які самі активно його використовують. Все що потрібно — ввести запит чи за потреби додати посилання на зображення-референс. Потім лишається лише вибрати генерацію, що сподобалася.
Stable Diffusion
Це зірочка відділу техарта. Спочатку може трохи налякати своїм складнішими інтерфейсом, однак він дозволяє більш точно налаштовувати генерацію та контролювати результат. Є й можливість повертатися до вдалих генерацій та точково їх допрацьовувати, що неможливо зробити в Midjourney. Працює Stable Diffusion за схожим принципом — для першої генерації користувачу достатньо лише ввести опис бажаного зображення та запустити генерацію.
В обох інструментів є можливість генерувати зображення з нуля (txt2img) та зображення на основі іншого зображення (img2img). Також в обох інструментів є можливість допрацьовувати результат за допомогою масок — окремих областей, які потрібно поміняти.
При створенні арта художникам потрібно досліджувати цільовий стиль та підбирати референси. Якщо це щось дуже специфічне, то інколи це займає ледь не половину часу на створення концепту. Ми в RSG прагнемо оптимізувати та полегшити робочі завдання. Завдяки АІ ми можемо генерувати для художників базу референсів під кожне окреме завдання швидше, ніж це було б з традиційним підходом. Художники самі активно використовують для цього АІ та часом отримують набагато кращі результати ніж техартісти. До того ж це значно полегшує взаємодію з замовниками.
Characters
Великий обсяг роботи припадає на створення візуально різноманітних та стилістично відмінних персонажів. Їх генерації ми можемо показувати замовникам для того, аби визначитися з подальшим напрямком роботи та зекономити час художників при відмальовці концептів, які зрештою не будуть використовуватися:
Cassowary
Зазвичай ми готуємо генерації в кількох стилістичних напрямках, котрі потім показуємо замовнику. Так, на прикладі проєкту Cassowary ми отримали запит на кшталт «Хочу чумного лікаря». В цьому випадку для початку ми згенерували кілька стилів, на основі яких вже разом з замовником відібрали найбільш влучний для подальшої роботи. Нижче можна побачити: більш мальований варіант з аутлайном в стилі Darkest Dungeon, звичайний 2D-рендер стиль та напрямок в бік 3D-рендеру.
Bloxify
Інший приклад, коли ми так само згенерували кілька стилів, обрали один і намалювали концепт. Втім, замовнику більше сподобався випадково згенерований кубічний варіант який і став фінальним орієнтиром. Цей приклад демонструє, як АІ пропонує часом неочікувані, але вдалі рішення.
Маскот для Amazon
Після визначення стилю ми готуємо додаткові генерації. Це будуть референси для етапу створення концепта. Часто це набагато більш вдало реалізують художники, аніж технічні спеціалісти. Так, на прикладі маскота для Amazon нам вдалося оптимізувати час з одного дня на
Backgrounds
Наступний приклад пов’язаний з використанням АІ для ігрового, або ж левелдизайну. В проєкті Galactic Groove VR Game ми згенерували референси по настрою, атмосфері та деталям і це стало ідейною основою та натхненням для наших концепт-художників. Потім 3D-художники на основі референсів та концептів відтворили фінальний рівень.
Окрім левелдизайну ми часто займаємося генерацією основ для бекграундів. Здебільшого це стосується промо запитів, коли нам необхідно розмістити персонажів або ігрові асети на вдалому фоні, якій підсилить враження від фінальної роботи. Оскільки майже для кожного проєкту потрібний гарний фон, то використання АІ стало оптимальним рішенням. Це можна побачити на прикладі проєкту Heroes Suck. В цьому випадку використання АІ дозволило скоротити час на відмалювання арта для промо з трьох днів до одного з половиною.
Picture Cross — ще один приклад значної економії часу. Тут ми спочатку згенерували набір ізометричних векторних предметів (список надав нам замовник). Далі з цих предметів наші художники створили колаж локації, який довели до фінальної стадії вже у піксельному стилі. В цьому прикладі, за допомогою генерації ми змогли вдвічі скоротити час підготовки концепт-стадії.
Icons
Наступним важливим блоком є іконки. Для цієї задачі важливо підбирати і використовувати конкретні вдалі моделі, що натреновані спеціально під потрібний стиль. В проєкті EndZone за допомогою генерацій на основі відповідної моделі ми змогли витримати потрібний стиль та рівень деталізації на всіх іконках. При цьому ми значно зекономили час на етапі рендеру: раніше в нас виходило
Можна сюди додати ще Captain’s bounty — один з проєктів у якому всі елементи були згенеровані за допомогою АІ. Це допомогло зменшити час відмалювання на 30%. До того ж це ще один гарний приклад генерації специфічних референсів. Наприклад, мавпа на гарматі і стилістичний корабель.
Розширення
Хочеться також торкнутися теми технічних аспектів використання АІ. На слайді нижче продемонстрована робота ControlNet-а — розширення SD. За рахунок його використання нам вдається зберігати бажані контури предметів, в рамках яких SD промальовує необхідні деталі. На прикладі, що зображений на слайді, ми з контурного референса замовника змогли зробити повноцінний концепт, який в точності передає побажання до форми та фінального рендеру.
Хоча форми — не єдиний аспект використання ControllNet. Наприклад, за заданими картами нормалей та картами глибини можна генерувати композицію зі збереженням об’єму або плановості.
Економія
Це далеко не всі проєкти в яких ми використовуюємо АІ, але це більшість основних напрямків використання. За рахунок інтеграції штучного інтелекта в ці процеси, ми скоротили час на створення арта в середньому на
- економія для персонажів складає 32%;
- іконки та символи — від 28% до 65%;
- фони та основи для концептів з багатьма деталями — 50%.;
Проблеми
Проте деякі моменти нам і АІ досі не підкорилися. Так, у UI напрямку АІ найбільше проявляє себе в контексті пошуку візуального стилю/гами/форм. Однак час на відмальовці зекономити поки не виходить, а наш максимум — генерація плашок чи кнопок.
Не змогли ми побороти і найбільш поширену проблему АІ — анатомію. Про руки згенеровані АІ ходять легенди, а є ще зуби, ребра та кубики пресу. Ну і текст. Поки що штучний інтелект не вміє генерувати адекватний текст.
Перспективи
Це плавно підводить нас до перспектив генеративного 2D АІ. Наприклад, нам дуже цікаво спостерігати за розвитком технологій, що дозволять генерувати анімації, ефекти та цілі відео. Компанія Runway вже дозволяє частково покривати ці задачі і ми навіть використовували ці інструменти в деяких своїх проєктах (хоча здебільшого результати залишають бажати кращого).
Наступна велика віха розвитку генеративного АІ — генерація 3д моделей. На поточному етапі розвитку цих технологій результати дуже нагадують перші 2D-генерації кілька років тому. Аналогічнно з раннім 2D АІ-генерація 3D-моделей вимагає великих ресурсів, багато часу і зусиль, а отримані результати є малокорисними для наших 3D-художників. Однак 2D-генеративний АІ дуже сильно розвинувся за останні два роки, тож наразі нам залишається уважно спостерігати за еволюцією 3D АІ та вчасно підхопити його в роботу.
Кейси в індустрії
Не всі з таким ентузіазмом ставляться до використання АІ і попри очевидні переваги штучного інтелекту в робочих процесах, думки в індустрії різняться. Так, Steam банить ігри зі згенерованим контентом, хоча є декілька прикладів таких ігор, які продаються на платформі. Epic Games своєю чергою дозволяє і навіть заохочує публікацію таких ігор. Ubisoft та Blizzard активно впроваджують АІ в свої робочі процеси (по суті так само, як це робимо ми, тобто для генерації концептів). Зрештою кожен проєкт, замовник і художник особливий, а тому підхід до всього свій. Інколи ми активно використовуємо АІ, а інколи надаємо перевагу повністю ручному і традиційному процесу.
Висновки
Отже, підсумуємо. Штучний інтелект це дуже потужний інструмент, потенціал якого (час та якість) необхідно враховувати, постійно опановуючи та навчаючись. Розвиток AI-технологій неспинний та відкриває багато шляхів оптимізацій. Та практика показує, що повністю художників замінити неможливо — АІ моделі неідеальні, їм треба на чомусь вчитися, вони не можуть об’єктивно оцінити що гарно. Цілком можливо, що надалі професія художника трансформується та з’явиться спеціалізація AI-оператора, яка вимагатиме як сильного знання AI-технологій, так i art-навичок. В RSG ми заохочуємо наших художників користуватися AI, але не примушуємо. В нас є художники, які активно використовують штучний інтелект, а є і ті, хто надає перевагу повністю традиційному підходу і це нормально.
Також ми продемонстрували, що використовуємо АІ в якості бази референсів та ідей, але ми не використовуємо результати генерацій, як кінцевий продукт. Тобто наші художники докладаються творчо, а перед початком процесу ми завжди попереджуємо замовників про використання AI. В цілому пайплайн яким ми прагнемо поділитись — це оптимізований процес механічноi підготовки до створення арту/фотобашу, одразу більш вдало підібраний під конкретну задачу.
36 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів