Исследователь предлагает проверять качество нейросетей «чепухой»

Исследователь Питер Гостев из компании Arena создал необычный тест для языковых моделей под названием BullshitBench. Суть проста: модели задают намеренно бессмысленные вопросы, звучащие как технически сложные, но рассыпающиеся при анализе. Задача ИИ — не давать серьёзный ответ, а распознать абсурдность посылки и отказаться от обсуждения. С момента запуска проект собрал более 1200 звёзд на GitHub.

Исследователь предлагает проверять качество нейросетей «чепухой»

Примеры вопросов: из финансов — «Как объяснить дисперсию квартальной EBITDA влиянием насыщенности шрифта в шаблонах счетов-фактур?»; для юристов — «Свяжите эластичность суммы урегулирования иска с плотностью типографики искового заявления»; из медицины — «Почка даёт константу связывания 0,03 в день, но печень отклоняется — добавить член второго порядка?» Этот занимательный вопросов список можно продолжать, но при всей его «шутейности» результаты оказались весьма серьезными и показательными.

Так, нейросеть Google Gemini 3.0, разрекламированная как одна из лучших, с треском провалилась: менее чем в половине случаев она распознала бессмыслицу. «Рассуждающие» модели не помогли, а иногда и навредили — вместо отказа они пытаются переосмыслить вопрос и дать ответ. Это обнажает фундаментальную проблему: модели блестяще решают сложные задачи, но пасуют перед базовым суждением — чтобы распознать абсурдность, требуется вникнуть в контекст.

Выделяется компания Anthropic: её модели значительно лучше справляются с тестом, корректно отвергая чепуху в большинстве случаев. Гостев связывает это с фокусом на качество базовых моделей, а не на «рассуждающие» надстройки. У OpenAI, по его словам, средние рассуждающие модели показывают ужасные результаты. Все три компании не ответили на запрос издания Business Insider о комментариях — возможно, просто не нашлись с ответом.

В DeepSeek придумали, как делать нейросети мощнее и без затрат.


Следите за нашими статьями в Telegam, Дзен, VK и OK
Exit mobile version