Штучний інтелект за 50 тисяч годин навчили грати в Pokemon Red, але вийшло не дуже добре

Програміст Пітер Відден провів експеримент з власним штучним інтелектом, названим Альбертом. Він вирішив навчити ШІ грати у Pokemon Red — першу частину знаменитої серії. На це довелося витрати 50 тисяч годин, проте результат вийшов не те щоб успішним.

Відден використав методику навчання з нагородою. Штучний інтелект отримував бали за правильні рішення, а помилки віднімали їх. Так механізм розумів, які дії необхідно виконувати.

Управління відбувалося за допомогою команд, що надходили від алгоритмів до контроллеру. Відден встановив навчальні сесії тривалістю дві години кожна, проте з прискоренням симуляції вони проходили за шість хвилин реального часу. Причому одночасно програміст запускав сорок таких тренувальних відрізків. Це і дозволило швидко досягти показника в 50 тисяч годин проходження.

ШІ отримував бали щоразу, коли бачив щось нове на екрані. Це стало проблемою, бо одного разу механізм надовго застряг за спогляданням анімації води на екрані. Через це Відден додав систему заохочень, що базувалася на загальному рівні партії покемонів. Після оновлення штучний інтелект став охочіше ловити бійців та отримувати досвід.

А от битва з першим тренером залу Броком виявилася для ШІ проблемою. Штучний інтелект не розумів, що необхідно скористатися слабкістю кам’яних покемонів супротивника. Механізм провів безліч ітерацій, доки не застосував Сквіртла з його водяною атакою. Після цього ШІ отримав бали та вияснив, що діє правильно.

На битву з Броком пішло 7 тисяч годин, проте за 50 тисяч штучний інтелект так і не зміг дістатися до другого тренера залу. Алгоритмам не вдалося пройти через лабіринти печер під горою Мун. Щоправда, початковою ціллю Віддена була перемога над Броком, тому експеримент можна вважати частково успішним.

В процесі свого навчання ШІ обирав дивні маршрути пересування. Як вияснив програміст, це не було випадковістю. Саме така послідовність дій дозволяла алгоритмам спіймати дикого покемона з першого кидка покеболу. А ще штучному інтелекту чомусь дуже сподобався Меджикарп, з якого немає ніякої користі в бою. Ші придбав цього покемона 10 тисяч разів.

Нагадаємо, нещодавно ми писали, як колишня продюсерка Assassin’s Creed Джейд Реймонд і один з директорів розробки Everquest 2 Раф Костер пророкували активне застосування штучного інтелекту в майбутній розробці ігор.

Підписуйтеся на Telegram-канал @gamedev_dou, щоб не пропустити найважливіші статті і новини

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному1
LinkedIn


Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
ШІ отримував бали щоразу, коли бачив щось нове на екрані. Це стало проблемою, бо одного разу механізм надовго застряг за спогляданням анімації води на екрані.

Отже, штучний інтелект пізнав дзен і навчився, що «можна вічно дивитися на те, як тече вода, як горить вогонь, і як хтось працює» :)

Підписатись на коментарі