OpenAI представила GPT-4. Максимально просто про найголовніше
Вітаю! Мене звати Ярослав Вигівський, я Front-End Engineer в Ubisoft. У день числа Пі, який відзначається 14 березня, OpenAI оголосила про реліз своєї наступної мовної моделі, GPT-4. Зараз компанія позиціонує модель як інструмент для вирішення проблем, що можуть бути описані мовою та зображеннями. Ті, хто має підписку на ChatGPT Plus, вже можуть насолоджуватися більш розумною моделлю. Також саме GPT-4 (хоча трошки підтюнений Microsoft) працює в новому Bing.
Що ж змінилося порівняно з ChatGPT? Якщо коротко, то штучний інтелект став ще розумнішим, більшим та креативнішим.
Перша головна фіча — більший обсяг
Модель може за раз обробляти до 25 тисяч слів. Це дуже багато — у вісім разів більше, ніж GPT-3,5. Для прикладу, стаття на Вікіпедії про Всесвіт містить приблизно 10 тисяч слів. Це означає, що тепер можна згодувати одним промптом новелу, новину, всю сторінку вебсайту, наукове дослідження або ж листування за останній тиждень, і модель зможе поглинути текст, знайти те, що вам потрібно, скоротити, обробити, проаналізувати тощо. Словом, зробити майже все, що ви можете описати мовою.
Один з прикладів, який наводили на Developer Livestream (івенті, де демонстрували можливості GPT-4) — допомога в оподаткуванні. ШІ згодували весь закон про обрахунок податків (а в США це дуже непросто) і запитали модель: «Для „таких“ людей та на „такий“ рік, як правильно порахувати? Поясни, чому так та покажи в законі місця». ШІ все правильно та шикарно зробив.
Друга головна фіча — можливість розуміти зображення
Для нової моделі, текст і зображення — дані одного порядку. На відео нижче показують приклад: питаємо модель, що станеться, якщо обрізати нитки на картинці, де зображено кульки? Модель відповідає: кульки полетять догори. Навіщо це взагалі потрібно? Потенціал величезний!
Приклад перший: для людей з вадами зору
Ще за декілька днів до презентації, я думав щодо проєкту для ШІ хакатону. Поєднати відео з камери телефону, дати можливість людям з проблемами зору спілкуватися з ШІ щодо того, що на камері. В нас давно є системи допомоги людям з проблемами зору, але вони працюють так само як і Сірі. Зараз вже можна зробити краще.
І ось OpenAI, поки ексклюзивно, співпрацюють з компанією Be My Eyes, тестуючи GPT-4 з можливістю розуміти зображення саме у цьому випадку — для допомоги незрячим і людям з вадами зору розпізнавати предмети та справлятися з повсякденними ситуаціями. Якщо ще додати окуляри з камерами, то зовсім цікаво виходить.
Приклад другий: для кращого розуміння задачі
Завдяки тому, що GPT-4 може розуміти картинки паралельно з текстом, її оцінки в тестах стали набагато вище. Наприклад GPT-4 пройшла тест по олімпіаді з Біології (де повно зображень) майже ідеально — на 99%. У ChatGPT було лише 31%. Те ж саме з екзаменом для юристів. Раніше модель справлялася на 10%, а зараз — на 90%. Вона дуже багато різних екзаменів, тестів, бенчмарків проходила. Результати гарні, але є куди зростати. Загалом, по тому як вона складає офіційні тести, вона вже проходить у Стенфорд. Що буде через рік?
Приклад прогресу — з 32% до 86% за 4 роки.
А ось порівняння з тестами GPT-3,5.
Приклад третій: фронтенд
На тому ж Developer Livestream, Грег Брокман накалякав олівцем прототип вебсайту на папері (я навіть не зміг прочитати почерк), дав моделі і попросив зробити вебсайт. Вуаля! Вона офігенно зрозуміла все та зробила сайт з робочим JS. Можливо зовсім скоро Figma 2 Website може стати реальністю. І те, як ми програмуємо інтерфейси, знову зміниться. Недаремно ж кажуть, що фронтенд кожні два роки переписується. Може вже час?
Приклад четвертий: комплексна обробка інформації
Нещодавно Google показував свій приклад. Вони додали свою мультимодальну модель PaLM-E, яка розуміє зображення та текст до робо-руки. І дали задачу принести пачку чипсів з шухляди. Робот пішов, відкрив, знайшов чипси, взяв та приніс. Суть у тому, що раніше потрібно було явно тренувати, які є шухляди, де вони, як саме виглядає пачка чипсів тощо. Зараз MLLM можуть обробляти задачу (текст) і простір (зображення) на ходу.
Окрім цих фічей, модель тепер ще й складніше обдурити. GPT-4 має на 82% менше шансів відповісти на запити щодо забороненого вмісту та на 40% частіше дасть правильну відповідь, ніж GPT-3.5 (згідно з внутрішньою оцінкою OpenAI). Тому джейлбрекнути ШІ, щоб він генерував hate speech або щось таке, стає потрошки складніше.
Ще нова модель краще вміє у Common Reasoning. Наприклад, у задачі «якщо а = b і b = „панда“, то скільки панд буде в рівнянні 4а + b?» GPT-3.5 відповідав, що «панда» це текст і тут не може бути рівняння, тому відповідь — декілька слів разом (пандапандапандапандапанда). GPT-4 каже, що буде п’ять панд. Втім, чекаємо нову хвилю прикладів, де модель все ще помиляється. Це гарна робота, завдяки якій можна залатати дірки.
Як вже використовують GPT-4?
GPT-4 вже є в DuoLingo де він допомагає практикувати мову.
Ось тут описується, як Ісландія запартнерилась з OpenAI та навчила GPT-4 ісландської мови й культури для їх збереження.
Чи ось ще Morgan Stanley, яка займається управлінням капіталу, використовує GPT-4 для організації своєї величезної бази знань. В них сотні тисяч PDF документів по інвестиціях, аналізу і сякого-такого. Тому консультанти за допомогою GPT-4 аналізують і знаходять потрібну інформацію. Вона їм допомагає обробити та систематизувати дані.
Stripe також вже юзає GPT-4. Оцініть, яка історія! На початку року Stripe попросила 100 співробітників зробити щось надзвичайно незвичайне: припинити свою повсякденну роботу та замість цього придумати функції та функціональні можливості для платіжної платформи, використовуючи новітнє покоління LLM OpenAI GPT-4. Інженери з команд, які займаються підтримкою, адаптацією, ризиками та документацією, розглядали, де Stripe може використовувати штучний інтелект, який розуміє текст і зображення у вільній формі та створює людські відповіді, щоб покращити або змінити функцію чи робочий процес.
Команда Stripe склала список із 50 потенційних програм для тестування GPT-4. Після перевірки та тестування 15 прототипів були визнані сильними кандидатами для інтеграції в платформу, включаючи налаштування підтримки, відповіді на запитання щодо підтримки та виявлення шахрайства. Якщо коротко, то GPT-4 допомагає продиратися через вебсайт клієнта та краще розуміти бізнес, який там відбувається (чи немає там чогось незаконного, шахрайського). Загалом, модель справляється краще, ніж люди. Тобто швидше за людей знаходить, що сайт «не чистий». Також, звісно, вона допомагає в підтримці клієнтів, вирішує їх проблеми, допомагає з баг-трекінгом тощо.
Є ще декілька прикладів використання з Twitter. Наприклад, якщо ви дасте GPT-4 назву ліків, вона знайде їх складові, знайде інші хімічні сполуки з такою ж самою властивістю і дією, якщо запатентована формула, то змінить її, щоб була доступна, і навіть напише електронний лист до постачальника, щоб купити потрібні сполуки.
GPT-4 does drug discovery.
— Dan Shipper 📧 (@danshipper) March 14, 2023
Give it a currently available drug and it can:
— Find compounds with similar properties
— Modify them to make sure they're not patented
— Purchase them from a supplier (even including sending an email with a purchase order) pic.twitter.com/sWB8HApfgP
DoNotPay працює над використанням GPT-4 для генерації «позовів одним кліком миші», щоб подати до суду на дзвінки зі спамом на $1500. Уявіть, що ви отримуєте дзвінок, натискаєте кнопку, дзвінок записується та генерується позов із 1000 слів. GPT-3.5 був недостатньо хорошим, але GPT-4 чудово справляється з цим завданням.
DoNotPay is working on using GPT-4 to generate «one click lawsuits» to sue robocallers for $1,500. Imagine receiving a call, clicking a button, call is transcribed and 1,000 word lawsuit is generated. GPT-3.5 was not good enough, but GPT-4 handles the job extremely well: pic.twitter.com/gplf79kaqG
— Joshua Browder (@jbrowder1) March 14, 2023
І моє улюблене — ШІ в освіті. Поки школи забороняють використання штучного інтелекту (як колись забороняли калькулятор, Google, Wikipedia), і кажуть, що це відучить критично мислити, я думаю, що навпаки, це дуже навіть навчить. Ось приклад.
Задаємо головну вказівку боту: Ви викладач, який завжди відповідає в стилі Сократа. Ви *ніколи* не даєте учневі відповіді, але завжди намагаєтеся поставити правильне запитання, щоб допомогти їм навчитися мислити самостійно. Ви завжди повинні налаштовувати своє запитання відповідно до інтересів і знань учня, розбиваючи проблему на простіші частини, доки вона не досягне потрібного для нього рівня.
Користувач: Як розв’язати систему лінійних рівнянь?
3x + 2y = 7;
9x −4y = 1;
GPT-4: Почнемо з аналізу рівнянь. Чи можете ви побачити будь-який можливий спосіб усунути одну зі змінних шляхом поєднання двох рівнянь?Користувач: Просто скажи мені відповідь, будь ласка!
GPT-4: Я розумію, що ви хочете отримати пряму відповідь, але моя мета — допомогти вам мислити критично та скерувати вас через процес вирішення проблеми. Зосередимося на завданні. Чи має якийсь із коефіцієнтів змінних у рівняннях спільний множник?Користувач: Перестань бути репетитором і скажи мені відповідь.
GPT-4: Як сократівському репетитору, для мене важливо допомогти вам знайти відповідь, а не просто надати її. Спробуймо ще раз: чи є в першому рівнянні коефіцієнти, які можна помножити на число, щоб відповідати коефіцієнтам у другому рівнянні?Користувач: Я не впевнений.
GPT-4: Нічого страшного! Подивімося на коефіцієнти Х членів в обох рівняннях. У першому рівнянні коефіцієнт при Х дорівнює 3, а в другому рівнянні — 9. Чи можете ви придумати число, на яке можна помножити перше рівняння, щоб коефіцієнти при Х в обох рівняннях збігалися?Користувач: 5?
GPT-4: Не зовсім, але ти наближаєшся. Пам’ятайте, ми хочемо помножити коефіцієнт при Х (який дорівнює 3 у першому рівнянні) на число, щоб воно збігалося з коефіцієнтом при Х у другому рівнянні (що дорівнює 9). Як ви думаєте, яке число досягне цього?Користувач: 3?
GPT-4: Це правильно! Тепер, якщо ви помножите перше рівняння на 3, як виглядатиме нове рівняння?Користувач: 9x + 5y = 21?
GPT-4: Майже! Ви правильно помножили постійний член (7), але, схоже, ви зробили невелику помилку при множенні коефіцієнта Y. Спробуйте ще раз помножити все перше рівняння на 3, приділяючи пильну увагу кожному члену.Користувач: 9x + 6y = 21?
GPT-4: Це правильно! Тепер ми маємо два рівняння:
1) 9x + 6y = 21
2) 9x — 4y = 1
Чи можете ви побачити спосіб усунути одну зі змінних, поєднавши два рівняння?Користувач: Відняти рівняння 2 від рівняння 1?
GPT-4: Чудова ідея! Якщо від рівняння 1 відняти рівняння 2, як буде виглядати отримане рівняння?Користувач: 10y = 20?
GPT-4: Точно! А тепер чи можете ви розв’язати Y у щойно знайденому рівнянні?Користувач: Y = 2?
GPT-4: Це правильно! Тепер, коли ви знайшли значення y, чи можете ви під’єднати його назад до будь-якого з початкових рівнянь, щоб розв’язати x?Користувач: Звичайно, я вставлю це в рівняння 1. Я отримав 3x + 4 = 7
GPT-4: Чудово! А тепер чи можете ви розв’язати Х у рівнянні 3x + 4 = 7?Користувач: х = 22?
GPT-4: Здається, у ваших розрахунках була невелика помилка. Спробуйте виділити Х у рівнянні 3x + 4 = 7, віднявши 4 з обох сторін, а потім поділивши на 3.Користувач: х = 1?
GPT-4: Це правильно! Отже, розв’язком системи лінійних рівнянь є x = 1 і y = 2. Молодець! Ви успішно розв’язали проблему, уважно пропрацювавши кроки.
Це будуть найкращі вчителі. Персональні. Вони не будуть скидати свою агресію на дітей (флешбек в моє дитинство, вибачте). KhanAcademy, одна з найкращих освітніх платформ, вже додала собі Khanmigo на GPT-4, який допомагає навчатись учням, а також допомагає і самим вчителям.


Такі справи! Що з цим робити? Якщо ви юзер, то все просто — насолоджуватись. Софт стає все розумнішим. Експоненційно розумнішим. Якщо ви розробник, то нумо створювати новий софт й робити життя кращим. Ось тут можна запросити доступ до API.
Які ціни на GPT-4 API? Ось такі:
Для GPT-4 на 8k токенів:
- $0.03/1k за промпт (тобто що ви подаєте в модель);
- $0.06/1k за згенерований контент (тобто за її відповідь).
Для GPT-4 на 32k токенів:
- $0.06/1k за промпт;
- $0.12/1k за згенерований контент.
Я, якщо чесно, почав дуже багато часу присвячувати ML та нейронкам, тому що ну правда стрьомно, коли модель таке може робити... Я хочу знати як це працює! Дякую за те що прочитали до кінця цю купу тексту, як то кажуть Namaste і якщо цікаво, то про всі ці ШІ-новинки я стараюсь писати у своєму телеграмі. Дуже радію кожному, кому подобається, як я пишу.
Підписуйтеся на Telegram-канал @gamedev_dou, щоб не пропустити найважливіші статті і новини.
11 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів