ШІ-огляди Google видають "мільйони брехливих відповідей" щогодини – дослідження
Сьогодні, 17:00 |
Експеримент із функцією AI Overviews в пошуку Google показав, що штучний інтелект видає точні відповіді в 90% випадків. Однак ключовий нюанс полягає в тому, що принаймні 1 з 10 відповідей неправдива. З огляду на кількість запитів, можна говорити про мільйони "брехливих відповідей" на годину, йдеться в дослідженні The New York Times і стартапу Oumi.
AI Overviews – це функція пошукової системи Google, яка використовує штучний інтелект (Gemini) для створення автоматичних та стислих відповідей на запит користувача. Вперше її запустили у 2024 році, а торік з травня вона отримала широке розповсюдження, зокрема й в Україні.
З моменту впровадження Google AI Overviews викликали масу суперечок і скарг, але з часом і запуском нових моделей Gemini стали кращими. В новому експерименті The New York Times спробувало оцінити точність відповідей ШІ на цей час: виявилося, що вони правильні у 90% випадків, тобто принаймні 1 з 10 відповідей помилкова.
Експеримент проводився спільно з ШІ-стартапом Oumi, а для перевірки відповідей використовували SimpleQA – стандартний тест для моделей із 4 тисяч запитань, створений OpenAI у 2024 році.Перші тести Oumi провела торік, коли актуальною була модель Gemini 2.5. – тоді точність AI Overviews становила 85%. Після оновлення до Gemini 3 вона підвищилася до 91%. Водночас якщо екстраполювати рівень помилок на всі пошукові запити, можна говорити промільйони оманливих відповідей на годину і сотні тисяч щохвилини.
У звіті наводять приклади помилок. Зокрема, в запиті про те, коли колишній будинок Боба Марлі став музеєм, Google AI Overviews навів три джерела: два взагалі без дат, а третє – з Вікіпедії – із помилкою. Інший запит в бенчмарку пропонував вказати дату, коли віолончеліст Йо-Йо Ма потрапив до Зали слави класичної музики – ШІ сказав, що такої зали не існує, хоча сам послався на офіційний сайт організації.
Очікувано, в Google розкритикували методологію. Речник Нед Адріанс заявив, що SimpleQA може містити неточності. Натомість компанія використовує власний текст SimpleQA Verified, що базується на меншій, але ретельніше перевіреній вибірці.
"Це дослідження має серйозні прогалини", – сказав АдріансNYT. "Воно не відображає те, що люди насправді шукають у Google".
Оцінювання ШІ залишається складною задачею. Кожна з компаній має власний спосіб демонстрації можливостей, хоча перевірка ускладнюється й тим, що моделі можуть давати різні відповіді на одне й те саме питання.
Ще одна особливість полягає в тому, що AI Overviews не є єдиною моделлю. Google у коментарі для Ars Technica повідомила, що система обирає "найбільш відповідну" для кожного запиту.Найточніші відповіді могла б забезпечити Gemini 3.1 Pro, але вона повільна і дорога, тож частіше використовуються моделі Gemini Flash.
Попри все це, показник правдивості для ШІ у 9 з 10 є для галузі досить непоганим результатом. Раніше Google публікувала тести нових моделей із точністю на рівні 60–80% без доступу до зовнішніх даних. Використання інтернет-джерел покращує результат, але водночас створює іншу проблему: користувачі довіряють ШІ й не йдуть перевіряти інформацію в першоджерелах.
Хоча Google стверджує, що результати експерименту NYT не відповідають дійсності – ми всі бачили, як працює генеративний ШІ й, дійсно, не всі ці результати були правдивими. Навіть сама компанія зазначає внизу кожної із відповідей: "ШІ може помилятися, тому перевірте ще раз".
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.