Deepseek: как китайский стартап бросил вызов гигантам AI
В последние недели китайский стартап Deepseek доказал, что разработка передовых AI технологий возможна даже с ограниченным бюджетом. Их модель Deepseek-V3 работает наравне с лучшими мировыми решениями, хотя её обучение обошлось всего в 5,6 миллиона долларов — это лишь малая часть затрат крупных компаний.
В чем секрет эффективности Deepseek-V3
Для обучения Deepseek-V3 понадобилось всего 2,78 миллиона часов GPU-обучения. Это в 11 раз меньше, чем у модели Llama-3 от Meta, которая содержит 405 миллиардов параметров. Более того, Deepseek выпустил модель рассуждений Deepseek-R1, которая уже конкурирует с решениями OpenAI и пока недоступной для рынка Llama-4.
Недавно Марк Цукерберг, генеральный директор Meta*, объявил о планах компании на 2025 год. Meta планирует создать AI-помощника для более миллиарда пользователей, модернизировать Llama 4 и запустить AI-инженера для исследований и разработок. На эти цели выделяется около 60–65 миллиардов долларов.
Реакция индустрии на успех Deepseek
Главный исследователь AI в Meta Ян Лекун считает, что успех Deepseek подтверждает силу открытого исходного кода. Deepseek активно использует общедоступные исследования, добавляя собственные инновации. Он отметил, что их модель Deepseek-V3, запущенная в 2024 году, заслуживает высокой оценки.Однако, согласно утечкам с форума Teamblind, внутри Meta растёт давление на AI-команду. Deepseek-V3 уже превзошёл невыпущенную Llama-4 в тестах, что вызывает критику в сторону бюджетов Meta, где зарплата одного топ-менеджера превышает весь бюджет Deepseek на обучение.
*Meta и её продукты (Facebook, Instagram) запрещены на территории Российской Федерации.