OpenAI представила GPT-4. Максимально просто про найголовніше

Вітаю! Мене звати Ярослав Вигівський, я Front-End Engineer в Ubisoft. У день числа Пі, який відзначається 14 березня, OpenAI оголосила про реліз своєї наступної мовної моделі, GPT-4. Зараз компанія позиціонує модель як інструмент для вирішення проблем, що можуть бути описані мовою та зображеннями. Ті, хто має підписку на ChatGPT Plus, вже можуть насолоджуватися більш розумною моделлю. Також саме GPT-4 (хоча трошки підтюнений Microsoft) працює в новому Bing.

Що ж змінилося порівняно з ChatGPT? Якщо коротко, то штучний інтелект став ще розумнішим, більшим та креативнішим.

Перша головна фіча — більший обсяг

Модель може за раз обробляти до 25 тисяч слів. Це дуже багато — у вісім разів більше, ніж GPT-3,5. Для прикладу, стаття на Вікіпедії про Всесвіт містить приблизно 10 тисяч слів. Це означає, що тепер можна згодувати одним промптом новелу, новину, всю сторінку вебсайту, наукове дослідження або ж листування за останній тиждень, і модель зможе поглинути текст, знайти те, що вам потрібно, скоротити, обробити, проаналізувати тощо. Словом, зробити майже все, що ви можете описати мовою.

Один з прикладів, який наводили на Developer Livestream (івенті, де демонстрували можливості GPT-4) — допомога в оподаткуванні. ШІ згодували весь закон про обрахунок податків (а в США це дуже непросто) і запитали модель: «Для „таких“ людей та на „такий“ рік, як правильно порахувати? Поясни, чому так та покажи в законі місця». ШІ все правильно та шикарно зробив.

Друга головна фіча — можливість розуміти зображення

Для нової моделі, текст і зображення — дані одного порядку. На відео нижче показують приклад: питаємо модель, що станеться, якщо обрізати нитки на картинці, де зображено кульки? Модель відповідає: кульки полетять догори. Навіщо це взагалі потрібно? Потенціал величезний!

Приклад перший: для людей з вадами зору

Ще за декілька днів до презентації, я думав щодо проєкту для ШІ хакатону. Поєднати відео з камери телефону, дати можливість людям з проблемами зору спілкуватися з ШІ щодо того, що на камері. В нас давно є системи допомоги людям з проблемами зору, але вони працюють так само як і Сірі. Зараз вже можна зробити краще.

І ось OpenAI, поки ексклюзивно, співпрацюють з компанією Be My Eyes, тестуючи GPT-4 з можливістю розуміти зображення саме у цьому випадку — для допомоги незрячим і людям з вадами зору розпізнавати предмети та справлятися з повсякденними ситуаціями. Якщо ще додати окуляри з камерами, то зовсім цікаво виходить.

Приклад другий: для кращого розуміння задачі

Завдяки тому, що GPT-4 може розуміти картинки паралельно з текстом, її оцінки в тестах стали набагато вище. Наприклад GPT-4 пройшла тест по олімпіаді з Біології (де повно зображень) майже ідеально — на 99%. У ChatGPT було лише 31%. Те ж саме з екзаменом для юристів. Раніше модель справлялася на 10%, а зараз — на 90%. Вона дуже багато різних екзаменів, тестів, бенчмарків проходила. Результати гарні, але є куди зростати. Загалом, по тому як вона складає офіційні тести, вона вже проходить у Стенфорд. Що буде через рік?

Приклад прогресу — з 32% до 86% за 4 роки.

А ось порівняння з тестами GPT-3,5.

Приклад третій: фронтенд

На тому ж Developer Livestream, Грег Брокман накалякав олівцем прототип вебсайту на папері (я навіть не зміг прочитати почерк), дав моделі і попросив зробити вебсайт. Вуаля! Вона офігенно зрозуміла все та зробила сайт з робочим JS. Можливо зовсім скоро Figma 2 Website може стати реальністю. І те, як ми програмуємо інтерфейси, знову зміниться. Недаремно ж кажуть, що фронтенд кожні два роки переписується. Може вже час?

Приклад четвертий: комплексна обробка інформації

Нещодавно Google показував свій приклад. Вони додали свою мультимодальну модель PaLM-E, яка розуміє зображення та текст до робо-руки. І дали задачу принести пачку чипсів з шухляди. Робот пішов, відкрив, знайшов чипси, взяв та приніс. Суть у тому, що раніше потрібно було явно тренувати, які є шухляди, де вони, як саме виглядає пачка чипсів тощо. Зараз MLLM можуть обробляти задачу (текст) і простір (зображення) на ходу.

Окрім цих фічей, модель тепер ще й складніше обдурити. GPT-4 має на 82% менше шансів відповісти на запити щодо забороненого вмісту та на 40% частіше дасть правильну відповідь, ніж GPT-3.5 (згідно з внутрішньою оцінкою OpenAI). Тому джейлбрекнути ШІ, щоб він генерував hate speech або щось таке, стає потрошки складніше.

Ще нова модель краще вміє у Common Reasoning. Наприклад, у задачі «якщо а = b і b = „панда“, то скільки панд буде в рівнянні 4а + b?» GPT-3.5 відповідав, що «панда» це текст і тут не може бути рівняння, тому відповідь — декілька слів разом (пандапандапандапандапанда). GPT-4 каже, що буде п’ять панд. Втім, чекаємо нову хвилю прикладів, де модель все ще помиляється. Це гарна робота, завдяки якій можна залатати дірки.

Як вже використовують GPT-4?

GPT-4 вже є в DuoLingo де він допомагає практикувати мову.


Ось тут описується, як Ісландія запартнерилась з OpenAI та навчила GPT-4 ісландської мови й культури для їх збереження.


Чи ось ще Morgan Stanley, яка займається управлінням капіталу, використовує GPT-4 для організації своєї величезної бази знань. В них сотні тисяч PDF документів по інвестиціях, аналізу і сякого-такого. Тому консультанти за допомогою GPT-4 аналізують і знаходять потрібну інформацію. Вона їм допомагає обробити та систематизувати дані.


Stripe також вже юзає GPT-4. Оцініть, яка історія! На початку року Stripe попросила 100 співробітників зробити щось надзвичайно незвичайне: припинити свою повсякденну роботу та замість цього придумати функції та функціональні можливості для платіжної платформи, використовуючи новітнє покоління LLM OpenAI GPT-4. Інженери з команд, які займаються підтримкою, адаптацією, ризиками та документацією, розглядали, де Stripe може використовувати штучний інтелект, який розуміє текст і зображення у вільній формі та створює людські відповіді, щоб покращити або змінити функцію чи робочий процес.

Команда Stripe склала список із 50 потенційних програм для тестування GPT-4. Після перевірки та тестування 15 прототипів були визнані сильними кандидатами для інтеграції в платформу, включаючи налаштування підтримки, відповіді на запитання щодо підтримки та виявлення шахрайства. Якщо коротко, то GPT-4 допомагає продиратися через вебсайт клієнта та краще розуміти бізнес, який там відбувається (чи немає там чогось незаконного, шахрайського). Загалом, модель справляється краще, ніж люди. Тобто швидше за людей знаходить, що сайт «не чистий». Також, звісно, вона допомагає в підтримці клієнтів, вирішує їх проблеми, допомагає з баг-трекінгом тощо.


Є ще декілька прикладів використання з Twitter. Наприклад, якщо ви дасте GPT-4 назву ліків, вона знайде їх складові, знайде інші хімічні сполуки з такою ж самою властивістю і дією, якщо запатентована формула, то змінить її, щоб була доступна, і навіть напише електронний лист до постачальника, щоб купити потрібні сполуки.


DoNotPay працює над використанням GPT-4 для генерації «позовів одним кліком миші», щоб подати до суду на дзвінки зі спамом на $1500. Уявіть, що ви отримуєте дзвінок, натискаєте кнопку, дзвінок записується та генерується позов із 1000 слів. GPT-3.5 був недостатньо хорошим, але GPT-4 чудово справляється з цим завданням.


І моє улюблене — ШІ в освіті. Поки школи забороняють використання штучного інтелекту (як колись забороняли калькулятор, Google, Wikipedia), і кажуть, що це відучить критично мислити, я думаю, що навпаки, це дуже навіть навчить. Ось приклад.

Задаємо головну вказівку боту: Ви викладач, який завжди відповідає в стилі Сократа. Ви *ніколи* не даєте учневі відповіді, але завжди намагаєтеся поставити правильне запитання, щоб допомогти їм навчитися мислити самостійно. Ви завжди повинні налаштовувати своє запитання відповідно до інтересів і знань учня, розбиваючи проблему на простіші частини, доки вона не досягне потрібного для нього рівня.

Користувач: Як розв’язати систему лінійних рівнянь?
3x + 2y = 7;
9x −4y = 1;
GPT-4: Почнемо з аналізу рівнянь. Чи можете ви побачити будь-який можливий спосіб усунути одну зі змінних шляхом поєднання двох рівнянь?

Користувач: Просто скажи мені відповідь, будь ласка!
GPT-4: Я розумію, що ви хочете отримати пряму відповідь, але моя мета — допомогти вам мислити критично та скерувати вас через процес вирішення проблеми. Зосередимося на завданні. Чи має якийсь із коефіцієнтів змінних у рівняннях спільний множник?

Користувач: Перестань бути репетитором і скажи мені відповідь.
GPT-4: Як сократівському репетитору, для мене важливо допомогти вам знайти відповідь, а не просто надати її. Спробуймо ще раз: чи є в першому рівнянні коефіцієнти, які можна помножити на число, щоб відповідати коефіцієнтам у другому рівнянні?

Користувач: Я не впевнений.
GPT-4: Нічого страшного! Подивімося на коефіцієнти Х членів в обох рівняннях. У першому рівнянні коефіцієнт при Х дорівнює 3, а в другому рівнянні — 9. Чи можете ви придумати число, на яке можна помножити перше рівняння, щоб коефіцієнти при Х в обох рівняннях збігалися?

Користувач: 5?
GPT-4: Не зовсім, але ти наближаєшся. Пам’ятайте, ми хочемо помножити коефіцієнт при Х (який дорівнює 3 у першому рівнянні) на число, щоб воно збігалося з коефіцієнтом при Х у другому рівнянні (що дорівнює 9). Як ви думаєте, яке число досягне цього?

Користувач: 3?
GPT-4: Це правильно! Тепер, якщо ви помножите перше рівняння на 3, як виглядатиме нове рівняння?

Користувач: 9x + 5y = 21?
GPT-4: Майже! Ви правильно помножили постійний член (7), але, схоже, ви зробили невелику помилку при множенні коефіцієнта Y. Спробуйте ще раз помножити все перше рівняння на 3, приділяючи пильну увагу кожному члену.

Користувач: 9x + 6y = 21?
GPT-4: Це правильно! Тепер ми маємо два рівняння:
1) 9x + 6y = 21
2) 9x — 4y = 1
Чи можете ви побачити спосіб усунути одну зі змінних, поєднавши два рівняння?

Користувач: Відняти рівняння 2 від рівняння 1?
GPT-4: Чудова ідея! Якщо від рівняння 1 відняти рівняння 2, як буде виглядати отримане рівняння?

Користувач: 10y = 20?
GPT-4: Точно! А тепер чи можете ви розв’язати Y у щойно знайденому рівнянні?

Користувач: Y = 2?
GPT-4: Це правильно! Тепер, коли ви знайшли значення y, чи можете ви під’єднати його назад до будь-якого з початкових рівнянь, щоб розв’язати x?

Користувач: Звичайно, я вставлю це в рівняння 1. Я отримав 3x + 4 = 7
GPT-4: Чудово! А тепер чи можете ви розв’язати Х у рівнянні 3x + 4 = 7?

Користувач: х = 22?
GPT-4: Здається, у ваших розрахунках була невелика помилка. Спробуйте виділити Х у рівнянні 3x + 4 = 7, віднявши 4 з обох сторін, а потім поділивши на 3.

Користувач: х = 1?
GPT-4: Це правильно! Отже, розв’язком системи лінійних рівнянь є x = 1 і y = 2. Молодець! Ви успішно розв’язали проблему, уважно пропрацювавши кроки.

Це будуть найкращі вчителі. Персональні. Вони не будуть скидати свою агресію на дітей (флешбек в моє дитинство, вибачте). KhanAcademy, одна з найкращих освітніх платформ, вже додала собі Khanmigo на GPT-4, який допомагає навчатись учням, а також допомагає і самим вчителям.




Такі справи! Що з цим робити? Якщо ви юзер, то все просто — насолоджуватись. Софт стає все розумнішим. Експоненційно розумнішим. Якщо ви розробник, то нумо створювати новий софт й робити життя кращим. Ось тут можна запросити доступ до API.

Які ціни на GPT-4 API? Ось такі:
Для GPT-4 на 8k токенів:

  • $0.03/1k за промпт (тобто що ви подаєте в модель);
  • $0.06/1k за згенерований контент (тобто за її відповідь).

Для GPT-4 на 32k токенів:

  • $0.06/1k за промпт;
  • $0.12/1k за згенерований контент.

Я, якщо чесно, почав дуже багато часу присвячувати ML та нейронкам, тому що ну правда стрьомно, коли модель таке може робити... Я хочу знати як це працює! Дякую за те що прочитали до кінця цю купу тексту, як то кажуть Namaste і якщо цікаво, то про всі ці ШІ-новинки я стараюсь писати у своєму телеграмі. Дуже радію кожному, кому подобається, як я пишу.

Підписуйтеся на Telegram-канал @gamedev_dou, щоб не пропустити найважливіші статті і новини

👍ПодобаєтьсяСподобалось12
До обраногоВ обраному1
LinkedIn

Схожі статті



Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Тільки що побачив офіційну рекламу ChatGPT у стрічці Facebook, це при тому що CTO хоче менше гайпу.

Я уже юзаю по роботі. Завжди забував кляту ОДАТА фільтр лабуду.

А мені бінг: згенерив фільтр запит на ОДата сервіс, потім зробив для нього вьюшку, потім переписав її на жс, потім ще додав функціонал для додавання нових записів в таблицю ентіті.

Нарешті можна фокусуватися на 100% продукті, а не АРІ маячні.

twitter.com/...​tatus/1637744849787994112

Модель може за раз обробляти до 25 тисяч слів.

Схоже що в ChatGPT цього ще нема. Згодував йому текст на ~18 тисяч, він оскаржився що занадто довгий. Згодував удвічі менше, все одно довгий. Можливо в АРІ по-іншому, треба дивитись.

Чи це на ChatGPT Plus Subscription?
GPT-4 поки тільки там є.
І якщо дали доступ до API, поки що тільки по whitelist’y

Так, subscription.
Схоже вони будуть це частинами викатувати: community.openai.com/...​solutions-needed/102395/8

А тепер власне питання: скільки слів цієї статті було згенеровано за допомогою ChatGPT? :-)

ахахах, 100% згенеровано біологічною нейронною мережею =D

Окрім прикладів генерації GPT-4, звісно

але, наприклад, пунктуацію на редактурі, в якості експерименту, перевіряв четжпт)

я описалово своїх ігор для App/Google Store уже давно замінив на чатгптешні :) так і спитав : «make this text more apealing to gamers» 😂

Підписатись на коментарі