中国电子云上线DeepSeek-R1/V3全量模型 2月10日,中国电子发布消息称,其所属中国电子云CECSTACK智算云平台正式上线MoE架构的671B全量DeepSeek-R1/V3模型,以及DeepSeek-R1的蒸馏系列Qwen/Llama模型,并提供私有化部署方案。 新闻 2025年02月11日 0 点赞 0 评论 41 浏览
DeepSeek“开源周”,连续掏出两大核心武器 今天是DeepSeek“开源周”第二日,DeepSeek宣布开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。 昨天,DeepSeek则开源了代码库Flash MLA,这是针对Hopper GPU优化的高效MLA解码内核,针对可变长度序列作了优化。 MoE(混合专家架构)和MLA(多头潜在注意力机制)被认为是DeepSeek以低成本实现杰出表现的核心原因。 简单理解,MoE架构是由 军事 2025年02月25日 0 点赞 0 评论 24 浏览
DeepSeek"开源周",连续掏出两大核心武器 ► 文 观察者网 张广凯今天是DeepSeek“开源周”第二日,DeepSeek宣布开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。昨天,DeepSeek则开源了代码库Flash MLA,这是针对Hopper GPU优化的高效MLA解码内核,针对可变长度序列作了优化。MoE(混合专家架构)和MLA(多头潜在注意力机制)被认为是DeepSeek以低成本实现杰出表现的核心原因。简单理 军事 2025年02月26日 0 点赞 0 评论 23 浏览
中信证券:国内云巨头AI全面加速,AIDC龙头深度受益 中信证券研报表示,2025年以来,国内AI大模型通过算法与工程化创新加速技术跃迁,低成本的DeepSeek -R1推理能力比肩OpenAI o1;阿里巴巴发布千亿级MoE架构模型Qwen2.5-Max;豆包依托字节跳动的生态优势提升模型能力;腾讯混元大模型已深度集成于微信等业务场景。AI模型进步+AI需求爆发,推动国内云巨头Capex全面提升。AIDC是AI算力核心底座。当前,环一线城市AIDC稀 新闻 2025年02月26日 0 点赞 0 评论 20 浏览