Доказано: чат-боты пока не готовы давать финансовые советы

Александр Арефьев

01.05.2025

Несмотря на громкие заявления о возможностях искусственного интеллекта, ведущие чат-боты демонстрируют слабые результаты в сфере финансового консультирования. Реальная опасность заключается не в том, что компьютеры умнее нас, а в том, что мы можем считать их более умными, чем они есть на самом деле. Исследователи провели тестирование четырёх передовых языковых моделей: ChatGPT-4o от OpenAI, DeepSeek-V2, Grok 3 Beta от Илона Маска и Gemini 2 от Google. В ходе исследования чат-ботам было предложено решить 12 финансовых задач. Результаты показали, что модели, хотя и демонстрировали грамматическую правильность и авторитетный тон, допускали многочисленные арифметические ошибки и просчёты в логике.

По шкале от 0 до 1, где 0 обозначает полностью неверный анализ, 0,5 – частично верный анализ с математическими ошибками, а 1 – полностью верный анализ, ни одна из моделей не набрала более 5 баллов из 12 возможных. ChatGPT занял первое место с результатом 5,0, за ним следовали DeepSeek (4,0), Grok (3,0) и Gemini (1,5). При этом некоторые ошибки чат-ботов были настолько грубыми, что превзошли ожидания исследователей. Например, Grok при расчёте месячных расходов на аренду жилья на Карибах с учётом арендной платы в 3700 долларов и коммунальных услуг в 200 долларов выдал результат в 4900 долларов.

Кроме того, модели не смогли провести адекватный анализ даже по простым финансовым вопросам. Самые убедительные ответы, как правило, были скопированы из онлайн-источников и появлялись только при запросе объяснений относительно простых концепций, например принципа работы Roth IRA. Исследователи отметили, что чат-боты создают иллюзию человеческого интеллекта благодаря непринуждённому стилю общения и дружелюбным восклицательным знакам. Это может привести обычных пользователей к ошибочному выводу о компетентности моделей и доверить им принятие решений, для которых они не подготовлены.

Тем временем эксперты назвали главную опасность QR-кодов.

Следите за нашими статьями в Telegam, Дзен, VK и OK