本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议
周末最大的分歧,估计就是算力之争了。
刷屏讨论的DeepSeek-V3模型,消息称只用了极少数卡,就完成了训练。
导致周五的算力板块大跌。
周末复盘,也就中国股市有这反馈,美股根本不为所动。
简单想想,今年字节在算力投入800亿,明年预估1600亿。会因为这一个模型的训练成本变化,就减少投入吗?
更何况,经过周末的调查了解,这个DeepSeek是走了捷径的模型。
相当于走迷宫,直接有了地图,而不需要逐一开图试错的模式。
以调研的结果做个解析:
DeepSeek V3 671B,使用2048块H800训练2个月,而Llama 3.1 405B使用1.6万H100训练80天。
需要注意的是:2048块H800并非全部训练算力投入。
1) 不包括DeepSeek R1模型(对标OpenAI o1)生成的高质量数据消耗的算力。
2) 不包括模型架构的探索调试阶段消耗的算力。
第一条,相当于走迷宫直接开了地图。
第二条,相当于走迷宫之前搭建程序的时间忽略不计。
(关键词:蒸馏。蒸馏过的小模型训练成本本来就是指数级下降。因为前面有大模型踩完了所有的坑,它千辛万苦收敛成功了,它作为一个“teacher”模型去教一个“student”模型如何做个好模型,时间正好就是两个月,几百张卡的事。
可是之前踩的坑 都不算成本是吧?幻方去年底就有超过10000张gpu,囤这么多卡都是为了吃灰?小米的卡都没它多。要做新闻也行,不要玩文字游戏太狠。——来源:小熊跑的快)
11月11日的资金流向数据方面,主力资金净流入1288.99万元,占总成交额9.67%,游资资金净流入258.29万元,占总成交额1.94%,散户资金净流出1547.28万元,占总成交额11.61%。
其实这是客观条件下,有针对性的训练方法。
走这种探索是非常有意义的,能给国内团队启发,在有限的算力条件下,如何更好的压缩硬件的需求。
就冲这一点来说,未来对于应用的开发是大有好处的。
再换一个说法来解释。
好比做一个国产替代的项目。
海外A公司,用了100w成本,但国内的B公司,用了10w的成本。
虽然可能生成的结果不会令人满意,但在一些需求不太高的领域,可能已经够用。
能凑合用,但成本低,这就是中国公司最擅长的地方。
当成本降到足够低之后,再去提升产品的质量,这是大多数中国企业超越外资的路径。
当年的华为,就是这样慢慢积累成功的。
现在的大模型领域,出现了类似的场景,可以说是很正常的结果。
大家看看豆包做的视觉AI降本,也是类似的结果,降到厘时代,当AI的成本已经忽略不计后,一切应用才有爆发成长的空间。
综上,我认为算力之争无需担忧。
资本开支方面,也不会因为国产大模型的成功,而降低需求。
相反,有更多的国产大模型的成功案例,能让更多的中小公司看到希望,而不是被门槛吓住没有进场的机会。
硬件百花齐放之后,开发成本迅速降低,就是软件的大机遇了。
也就是说合规的杠杆股票炒股,明年的AI重点,或许就是软件了。(作者:laoduo)
Powered by 联华证券_在线股票配资开户_正规杠杆配资申请 @2013-2022 RSS地图 HTML地图