Основатель DeepSeek раскрыл приоритеты компании в области искусственного интеллекта
Компания DeepSeek на днях представила новое техническое исследование, в котором основатель и генеральный директор Лян Вэньфэн поделился планами развития стартапа в области искусственного интеллекта. Исследование фокусируется на технологии native sparse attention (NSA), которая обещает значительно улучшить эффективность AI-моделей при обработке больших объемов данных.
Новые исследования DeepSeek
В статье, «Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention«, компания делится новыми достижениями в области оптимизации вычислительных ресурсов и повышения производительности ИИ-моделей.
Особое внимание в исследовании уделено технологии native sparse attention (NSA), которая значительно улучшает процесс работы ИИ, позволяя моделям более эффективно обрабатывать большие объемы данных при меньших затратах вычислительных мощностей. Как отмечается в исследовании, NSA ускоряет инференс и снижает затраты на предварительное обучение, не ухудшая при этом производительность.
Особенности технологии NSA
Технология NSA позволяет моделям ИИ эффективнее распознавать шаблоны и делать предсказания, что напоминает способности человеческого мозга. При этом, как показали тесты, NSA может не только конкурировать с моделями, использующими полное внимание (full attention), но и превосходить их по ряду ключевых показателей, таких как выполнение задач с длинными контекстами и решения на основе инструкций.
Кроме того, технология позволяет значительно снижать стоимость разработки крупных языковых моделей (LLM), которые лежат в основе таких сервисов, как ChatGPT, Ernie Bot от Baidu и чат-бот DeepSeek.
Рекрутинг и поддержка крупных китайских корпораций
С увеличением интереса к DeepSeek, компания активно расширяет свою команду, открывая десятки вакансий в области искусственного интеллекта и разработки AGI. Местоположения новых вакансий включают штаб-квартиру в Ханчжоу и офисы в Пекине.
Компания уже заручилась поддержкой крупных китайских телекоммуникационных операторов, таких как China Unicom, China Mobile и China Telecom, а также крупных интернет-компаний, включая Alibaba Group, Huawei Technologies и Tencent Holdings. Эти компании активно используют модели DeepSeek на своих облачных платформах.
Компания DeepSeek продолжает прокладывать путь в области искусственного интеллекта, фокусируясь на оптимизации вычислительных процессов и создании более эффективных решений для работы с данными. Разработанная технология NSA представляет собой значительный шаг в сторону более быстрых и доступных ИИ-моделей, которые могут изменить правила игры в отрасли.
Источник: NEURO-AI
Комментарии