2024大语言模型能力测评报告
报告显示,2023年下半年,中国百模大战正式拉开帷幕。从头部企业到百模家族,大型语言模型在市场上爆发性增长。受法规的指导,一些产品开始持证上岗。
2023年,中国大语言模型产品从通用产品向多个行业拓展。84.57%的大型模型产品属于非通用行业模型,其中工商业经济、教育医疗的占比均高于通用模型。整体而言,中国大语言模型产品发布时间集中于第二季度和第三季度,占全年的80.32%。
大型模型在不同领域逐渐开始应用探索。从通用大型模型到细分应用赛道,大型模型的应用场景不断涌现。国内主要科技公司除了推出通用大型模型外,还根据企业资源特征、用户使用场景、生态圈层需求等逐渐扩展成覆盖多个应用场景的产品家族,头部厂商也逐渐形成。
大型模型从极客世界走向大众。核心能力得到开发者认可,编程能力的付费率达到了63.5%。上下文能力和多模态能力都有了大幅提升,而知识能力水平则趋同。写作能力表现突出,但逻辑能力仍然是大型模型的主要挑战。编程类题目的表现亮眼,而多模态能力成为头部企业的领先特征。
在大型模型产品格局初步形成的同时,头部企业呈现领先态势。产品能力具有阶段性特征,不同产品之间存在时间差。大型模型产品有望诞生新的超级应用,成为A时代的新用户增长引擎。
2024年,企业级需求的落地将成为重要的行业风向。金融、教育、医疗、能源等行业的许多企业开始意识到大型模型产品的价值,并积极倡导使用这些产品来提高员工的工作效率。随着企业对数字化转型的需求不断增长,大型模型产品在企业级市场的应用场景也在不断拓展。
在应用场景的推进中,大型模型产品的应用已经从简单的客服机器人扩展到智能客服、智能风控、智能推荐等多个领域。这些应用场景的探索不仅为企业带来了更高效、更智能的解决方案,还为整个行业的发展注入了新的活力。
来源:InfoQ
报告内容节选如下: