合规的杠杆股票炒股 1000字说清周末的“算力之争”

2024-12-30 21:53 点击次数：121

本文系基于公开资料撰写，仅作为信息交流之用，不构成任何投资建议

周末最大的分歧，估计就是算力之争了。

刷屏讨论的DeepSeek-V3模型，消息称只用了极少数卡，就完成了训练。

导致周五的算力板块大跌。

周末复盘，也就中国股市有这反馈，美股根本不为所动。

简单想想，今年字节在算力投入800亿，明年预估1600亿。会因为这一个模型的训练成本变化，就减少投入吗？

更何况，经过周末的调查了解，这个DeepSeek是走了捷径的模型。

相当于走迷宫，直接有了地图，而不需要逐一开图试错的模式。

以调研的结果做个解析：

DeepSeek V3 671B，使用2048块H800训练2个月，而Llama 3.1 405B使用1.6万H100训练80天。

需要注意的是：2048块H800并非全部训练算力投入。

1）不包括DeepSeek R1模型（对标OpenAI o1）生成的高质量数据消耗的算力。

2）不包括模型架构的探索调试阶段消耗的算力。

第一条，相当于走迷宫直接开了地图。

第二条，相当于走迷宫之前搭建程序的时间忽略不计。

（关键词：蒸馏。蒸馏过的小模型训练成本本来就是指数级下降。因为前面有大模型踩完了所有的坑，它千辛万苦收敛成功了，它作为一个“teacher”模型去教一个“student”模型如何做个好模型，时间正好就是两个月，几百张卡的事。

可是之前踩的坑都不算成本是吧？幻方去年底就有超过10000张gpu，囤这么多卡都是为了吃灰？小米的卡都没它多。要做新闻也行，不要玩文字游戏太狠。——来源：小熊跑的快）

11月11日的资金流向数据方面，主力资金净流入1288.99万元，占总成交额9.67%，游资资金净流入258.29万元，占总成交额1.94%，散户资金净流出1547.28万元，占总成交额11.61%。

其实这是客观条件下，有针对性的训练方法。

走这种探索是非常有意义的，能给国内团队启发，在有限的算力条件下，如何更好的压缩硬件的需求。

就冲这一点来说，未来对于应用的开发是大有好处的。

再换一个说法来解释。

好比做一个国产替代的项目。

海外A公司，用了100w成本，但国内的B公司，用了10w的成本。

虽然可能生成的结果不会令人满意，但在一些需求不太高的领域，可能已经够用。

能凑合用，但成本低，这就是中国公司最擅长的地方。

当成本降到足够低之后，再去提升产品的质量，这是大多数中国企业超越外资的路径。

当年的华为，就是这样慢慢积累成功的。

现在的大模型领域，出现了类似的场景，可以说是很正常的结果。

大家看看豆包做的视觉AI降本，也是类似的结果，降到厘时代，当AI的成本已经忽略不计后，一切应用才有爆发成长的空间。

综上，我认为算力之争无需担忧。

资本开支方面，也不会因为国产大模型的成功，而降低需求。

相反，有更多的国产大模型的成功案例，能让更多的中小公司看到希望，而不是被门槛吓住没有进场的机会。

硬件百花齐放之后，开发成本迅速降低，就是软件的大机遇了。

也就是说合规的杠杆股票炒股，明年的AI重点，或许就是软件了。（作者：laoduo）