Штучний інтелект знову не впорався з медичною діагностикою

Штучний інтелект знову не впорався з медичною діагностикою

Данські вчені вирішили порівняти здібності GPT-4 з діагностичною майстерністю людей, які належать до категорії постійних читачів спеціалізованої медичної преси.

Дослідники з Данії провели випробування, в якому вони використовували чат GPT-4 для встановлення діагнозу в складних клінічних випадках. Всі клінічні випадки було описано у форматі текстів.

Відповіді чат-бота порівнювалися з 248 614 відповідями читачів медичної періодики.

Програмі пропонувалося визначити діагноз, проаналізувавши повний невідредагований текст зі звіту про клінічний випадок та обравши правильний варіант відповіді із шести запропонованих. Для оцінки відтворюваності кожен випадок представляли GPT-4 по пʼять разів.

Штучний інтелект правильно діагностував 52,7% складних ситуацій — порівняно з 36% читачів медичних журналів. Серед них:

  • 12 випадків інфекційних захворювань (39,5%),
  • 5 випадків ендокринної патології (13,1%)
  • та 4 випадки у ревматології (10,5%).

Попри те, що в дослідженні GPT-4 продемонстрував перспективні результати, він пропускав майже кожен другий діагноз, тож автори дійшли висновку, що на сьогодні штучний інтелект не можна використовувати для медичних завдань.

Кількість правильних відповідей GPT-4 у порівнянні з здогадками та змодельованою сукупністю читачів медичних журналів
Кількість правильних відповідей GPT-4 у порівнянні з здогадками та змодельованою сукупністю читачів медичних журналів

Тим не менш, дослідники прийшли до висновку, що GPT-4 працюватиме краще, ніж 72% читачів-людей.

Очікується, що прогрес у сфері моделей штучного інтелекту продовжить прискорений розвиток, і це сприятиме швидшій діагностиці та покращенню лікування. Коли ці проблеми будуть вирішені й ШІ покращиться, очікується, що суспільство все більше покладатиметься на штучний інтелект як на інструмент підтримки процесу прийняття рішень під наглядом людини, а не як заміну лікарям.