MoE - 方硕资讯网

中国电子云上线DeepSeek-R1/V3全量模型

2月10日，中国电子发布消息称，其所属中国电子云CECSTACK智算云平台正式上线MoE架构的671B全量DeepSeek-R1/V3模型，以及DeepSeek-R1的蒸馏系列Qwen/Llama模型，并提供私有化部署方案。

新闻 2025年02月11日 0 点赞 0 评论 41 浏览

DeepSeek“开源周”，连续掏出两大核心武器

今天是DeepSeek“开源周”第二日，DeepSeek宣布开源DeepEP，第一个用于MoE模型训练和推理的开源EP通信库。昨天，DeepSeek则开源了代码库Flash MLA，这是针对Hopper GPU优化的高效MLA解码内核，针对可变长度序列作了优化。 MoE（混合专家架构）和MLA（多头潜在注意力机制）被认为是DeepSeek以低成本实现杰出表现的核心原因。简单理解，MoE架构是由

军事 2025年02月25日 0 点赞 0 评论 24 浏览

DeepSeek"开源周"，连续掏出两大核心武器

► 文观察者网张广凯今天是DeepSeek“开源周”第二日，DeepSeek宣布开源DeepEP，第一个用于MoE模型训练和推理的开源EP通信库。昨天，DeepSeek则开源了代码库Flash MLA，这是针对Hopper GPU优化的高效MLA解码内核，针对可变长度序列作了优化。MoE（混合专家架构）和MLA（多头潜在注意力机制）被认为是DeepSeek以低成本实现杰出表现的核心原因。简单理

军事 2025年02月26日 0 点赞 0 评论 23 浏览

中信证券研报表示，2025年以来，国内AI大模型通过算法与工程化创新加速技术跃迁，低成本的DeepSeek -R1推理能力比肩OpenAI o1；阿里巴巴发布千亿级MoE架构模型Qwen2.5-Max；豆包依托字节跳动的生态优势提升模型能力；腾讯混元大模型已深度集成于微信等业务场景。AI模型进步+AI需求爆发，推动国内云巨头Capex全面提升。AIDC是AI算力核心底座。当前，环一线城市AIDC稀

新闻 2025年02月26日 0 点赞 0 评论 20 浏览

MoE

首页

MoE

列表

默认

浏览次数

发布日期

中国电子云上线DeepSeek-R1/V3全量模型

DeepSeek“开源周”，连续掏出两大核心武器

DeepSeek"开源周"，连续掏出两大核心武器

中信证券：国内云巨头AI全面加速，AIDC龙头深度受益

MoE 首页 MoE

列表 默认 浏览次数 发布日期

中国电子云上线DeepSeek-R1/V3全量模型

DeepSeek“开源周”，连续掏出两大核心武器

DeepSeek&quot;开源周&quot;，连续掏出两大核心武器

中信证券：国内云巨头AI全面加速，AIDC龙头深度受益

MoE

首页

MoE

列表

默认

浏览次数

发布日期

DeepSeek"开源周"，连续掏出两大核心武器