大模型之战

DeepSeek爆火,LLM大语言模型,大厂是否缴械投降了?

转自知乎个人回答:https://www.zhihu.com/question/12588309114/answer/108894884235

题主问题:为什么现在的软件选择调用DeepSeek而不是开发新模型?

最近关注人工智能领域比较多,自己本身也有计算机、机器学习和人工智能的背景和工作经验。尝试着解答一下。

首先,这个问题的题面只说对了1/3。

现在确实很多企业,包括大型企业都选择接入DeepSeek,但是接入DeepSeek,并不等同于调用DeepSeek。

一般来讲,接入DeepSeek包括两种方式,一是通过API的方式来调用DeepSeek的服务,这种方式适合中小企业网站或者个人网站,不需要本地部署推理模型,成本小,节省资源,但是服务的可用性得不到保证,因为本质上还是DeepSeek的服务器来提供推理服务。

二是在本地部署DeepSeek模型,搭建自有服务器,对外提供服务,我相信像知乎和微信元宝、阿里等大厂应该是使用这种方式接入。这种方式的好处是服务可用性自主可控,可以建立好的客户体验留住客户,当然部署大模型需要资源,但是我相信大厂是负担的起的,部署满血版deepseek-r1模型,需要的算力资源虽然高,但基本上200万的服务器,性能就是不错的。

btw,我自己mac电脑,2C8G M2芯片,本地也部署了一个7B版本的deepseek模型。跑起来很吃力,基本内存打满,其他应用就没法使用。

再来说说自己开发大模型的事情。

首先,这个事情需要大量的资源投入。现在预训练一个LLM模型,动辄几千万美元甚至上亿美元。首先得有这个财力和硬件资源才可以做预模型训练的事情。

大型企业在决策是否进行新模型的开发时,需要掂量掂量,也就是ROI是否能打正。但目前看大厂都有这个实力和技术储备来做这个事情,所以他们并没有停止对大模型的开发,也在同步做着大模型开发的事情,阿里腾讯都发布过基础大模型,并且也在不断迭代优化,持续投入更多资金,因为这是未来战略布局,不投入就吃不上未来的饭。

所以说,全面接入DeepSeek只是一种商业策略,为了吸引用户,留住用户,也就是流量最大化。但不影响大企业自己研发基座大模型,那才是核心竞争力。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注