您的当前位置:首页>科技咨询>资讯详情

不走Transformer路线,彩云科技推出通用大模型

发表于:2024-11-14 22:00:07 浏览:48次 发布者: 网易互联网

文 | 王方玉

编辑 | 苏建勋

目前绝大多数生成式AI产品的底层技术都源于2017年谷歌提出的Transformer模型架构,而国内一家AI创业公司——彩云科技却独辟蹊径,开发出了全新的模型架构DCFormer,并基于此推出新产品。

11月13日,彩云科技在北京总部发布了首款基于DCFormer架构开发的通用大模型云锦天章。

据CEO袁行远介绍,云锦天章可以实现在虚构世界观的基础上,赋予小说人物编程、数学等基础能力,可以高速针对大量文字进行扩写、缩写,针对文章风格进行大容量更换,同时兼具其他模型的问答、数学、编程等基础能力。

除了擅长的应用场景不同,云锦天章与常规大模型最大的差异还在于底层模型。据介绍,通过改进注意力矩阵,在相同训练数据下,DCFormer架构最高可以将算力智能转化率提升至Transformer的1.7到2倍。

此外,DCFormer是在Transformer的基础上进行改进,能够和现有的模型叠加,而不是互斥,因此所有基于Transformer架构的大模型都能在DCFormer的基础上降低成本。

彩云科技关于DCFormer架构成果的相关论文已于今年5月在第41届国际机器学习大会ICML 2024正式发表,该会议是国际机器学习领域的三大顶会之一。此外,DC Former的模型代码、权重和训练数据集,也已经在Github全部开源。

为何选择另辟蹊径采取DCFormer架构?袁行远告诉36氪,AI在运行过程中对能源的巨大需求已成为行业共识,改善模型底层架构以提高效率是应对这一挑战的最佳策略。模型效率的提升,也可以有效地降低人工智能升级迭代的成本,加速AI时代的到来。

虽然DC Former架构可以压缩大模型训练推理的成本,但彩云科技在商业化探索方面相对谨慎,关注投入产出比。

目前彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向C端用户的AI产品,在全球市场获得了超过1000万美元的ARR(年度经常性收入),是国内为数不多能够实现盈利的人工智能公司。其最近一轮融资是由快手前CEO宿华个人投资的B2轮,投前估值达到1.2亿美元。

袁行远告诉36氪,彩云科技对DCFormer架构的研究及应用开发,主要服务于自身业务。目前,彩云小梦基于V3.5模型,在保持逻辑通顺与描写细致的前提下单次可以创作几百字到一千字的内容,未来有望突破到2-5千字的创作,实现更强的智能水平和更高的用户活跃度目标。

猜你喜欢

“听劝”理发师走红,折射美发行业痛点
“听劝”理发师走红,折射美发行业痛点
发表于:2024-11-17 浏览:44 发布者: 环球网
刘强东内部讲话,刷屏!
刘强东内部讲话,刷屏!
发表于:2025-04-15 浏览:13 发布者: 网易互联网
沃尔玛承认减排进展迟缓,预计无法实现明年及20
沃尔玛承认减排进展迟缓,预计无法实现明年及20
发表于:2024-12-20 浏览:32 发布者: 网易互联网
罗永浩为还债入驻百度优选,开辟带货新战场
罗永浩为还债入驻百度优选,开辟带货新战场
发表于:2025-05-22 浏览:3 发布者: 网易互联网
HMD 推出 2024 款诺基亚 110 4G 手机:可拆卸 1000mAh 电池,含经典贪吃蛇游戏
HMD 推出 2024 款诺基亚 110 4G 手机:可拆卸 1000mAh 电池,含经典贪吃蛇游戏
发表于:2024-10-29 浏览:50 发布者: IT之家
对话XREAL创始人徐驰:不想盲目跟风爆火的AI眼
对话XREAL创始人徐驰:不想盲目跟风爆火的AI眼
发表于:2024-12-18 浏览:30 发布者: 网易科技
刚刚,OpenAI推出最贵o1-pro API!千倍于DeepSe
刚刚,OpenAI推出最贵o1-pro API!千倍于DeepSe
发表于:2025-03-20 浏览:14 发布者: 网易互联网
第五届中国跨境电商交易会在福州闭幕
第五届中国跨境电商交易会在福州闭幕
发表于:2025-03-21 浏览:15 发布者: 网易互联网
Manus AI合伙人澄清邀请码机制:服务器容量有限
Manus AI合伙人澄清邀请码机制:服务器容量有限
发表于:2025-03-06 浏览:14 发布者: 网易互联网
马斯克X平台被打瘫三次 奇安信:与春节攻击Deep
马斯克X平台被打瘫三次 奇安信:与春节攻击Deep
发表于:2025-03-11 浏览:14 发布者: 网易互联网