В DeepSeek придумали, как делать нейросети мощнее и без затрат
Китайская из КНР DeepSeek предложила новый подход к проектированию архитектуры для искусственного интеллекта, который предлагает пересмотр ключевых технических принципов, лежащих в основе современных ИИ-моделей. Эта работа, опубликованная 1 января, вызвала бурное обсуждение в сообществе профессионалов и рассматривается как потенциальный шаг вперёд для области машинного обучения. Метод, получивший название «Manifold-Constrained Hyper-Connections», развивает идею гиперсвязей в остаточных нейронных сетях, которые служат основой для многих алгоритмов обработки языка.
Разработчики DeepSeek утверждают, что их вариант архитектуры способен повысить общую эффективность моделей, не приводя при этом к значительному росту вычислительных затрат. В ходе экспериментального подтверждения новая технология была протестирована на моделях разных уровней, где число параметров варьировалось от 3 до 27 миллиардов, продемонстрировав при этом хорошую масштабируемость. Как подчёркивают авторы, их цель — создание более мощных моделей в условиях ограниченных ресурсов, что особенно важно для исследовательских групп и стартапов, не обладающих гигантскими вычислительными мощностями крупных корпораций. Такой фокус выделяет DeepSeek на фоне общего отраслевого тренда.
Работа привлекла внимание ведущих экспертов, которые считают, что предложенные DeepSeek улучшения могут оказать заметное влияние на архитектуру трансформеров, являющуюся базой для актуальных языковых систем. Оптимизация, представленная китайской командой, уже изменила представления об эффективности подобных конструкций. Примечательно, что DeepSeek ведёт эти исследования как побочный проект в рамках компании, основной деятельностью которой является алгоритмическая торговля.
Обновленный DeepSeek «щелкает как орешки» сверхсложные задачи по математике.




