Нові дослідження виявили суттєві проблеми у тестах, які використовуються для оцінки безпеки та ефективності штучного інтелекту. Цю інформацію оприлюднило видання The Guardian.
Фахівці з Інституту безпеки штучного інтелекту у Великій Британії разом з експертами з університетів Стенфорда, Берклі та Оксфорда проаналізували понад 440 тестів, які оцінюють безпеку AI.
Виявлені недоліки, на їхню думку, «підривають достовірність отриманих результатів», причому майже всі досліджені тести мають «слабкі місця в принаймні одній області», а результати можуть бути «недостовірними або навіть оманливими».
Багато з цих тестів використовуються для оцінки нових моделей ШІ, створених великими технологічними компаніями, зазначив дослідник Ендрю Бін з Оксфордського інституту.
У відсутності загальнонаціонального регулювання ШІ у Великій Британії та США ці тести використовуються для перевірки безпеки нових моделей та їх відповідності інтересам суспільства, а також для оцінки їхніх можливостей у таких сферах, як аргументація, математика та кодування.
«Тести є основою майже всіх заяв про досягнення в галузі штучного інтелекту. Але без єдиних стандартів і надійних методів вимірювання важко зрозуміти, чи дійсно моделі покращуються, чи це лише ілюзія», - підкреслив Бін.
Дослідження охопило загальнодоступні тести, однак провідні компанії в галузі ШІ також мають свої внутрішні тести, які не були проаналізовані.
Бін зазначив, що «шокуючим фактом стало те, що лише 16% тестів використовували оцінки невизначеності або статистичні методи для підтвердження точності критеріїв. У інших випадках, коли встановлювалися критерії для оцінки характеристик ШІ, зокрема його «нешкідливості», визначення часто було суперечливим або нечітким, що знижувало їхню корисність.
У висновках дослідження підкреслюється «нагальна потреба у стандартах та кращих практиках» в галузі ШІ.

6842 image for slide