- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2025-03-11来源:袖染墨凉浏览数:35次
DeepSeek R1的发布引发了新一轮大模型关注热潮,加速了大模型在企业侧的应用。企业在决定采用某个大模型之前,评估是必不可少的工作,这有助于确保所选模型能够满足企业的具体需求,并在实际应用中表现良好。
第一,在进行同类大模型比较时,需要明确是通用大模型还是针对特定任务或上下文的领域大模型。大模型通常分为通用大模型和领域大模型两种类型:
• 通用大模型:通常具有强大的泛化能力,适用于广泛的自然语言理解和生成任务。这些模型没有针对特定行业或任务进行专门训练,因此在内容创作、摘要生成等通用场景中表现出色。通过提示工程,通用大模型就可以提供更大的灵活性和强大的功能。
• 领域大模型:领域大模型通常是在通用大模型的基础之上,经过专门训练或微调,从而在特定行业、任务或领域中获得更深入的知识。它们在编码、翻译、文档理解等特定任务中可能表现更好,并且在一些场景中能更好地符合人类偏好。然而,领域大模型创造力和通用性可能不如通用大模型。
在构建一个大模型驱动的解决方案时,企业可能需要多个模型共同协作,发挥各个模型的特点,并构建路由模型,根据任务需求选择适当的模型。这些模型不仅包括通用大模型和领域大模型,甚至可能包括其他类型的AI模型。
第二,在评估大模型时,应以基准测试和排行榜作为基础,结合企业自己的测试用例进行评估。最终,业务侧指标才是解决方案的最终衡量标准。
基准测试是初步筛选模型的参考,业界有很多基准测试和榜单,由社区驱动或由大模型厂商提供。如果企业选择的是通用大模型,Chatbot Arena排行榜可供参考,它是业界公认的最公正、最权威的榜单之一,该榜单采用匿名方式将大模型两两组队,交给用户进行盲测,用户根据真实对话体验对模型能力进行投票。大模型厂商无法提前知道用户的所有问题,也无法专门针对这些问题训练/微调模型以在排行榜上获得更高的排名。
除了参考基准和排行榜外,企业还需要创建针对特定应用的测试用例:
· 明确定义用例的范围和目的。大模型的响应范围越广,越可能出现企业不希望的行为,因此,——应在合适的场景选择合适的模型;
· 创建测试用例时,应根据大模型在生产环境中的实际使用场景来进行,尽可能使用与生产环境相似或相同的数据(例如,问答对)。
最终,业务侧指标,如聊天机器人的用户满意度得分,才是解决方案的最终衡量标准。
第三,企业需基于实际需求,在模型能力与非功能因素(如成本、合规、部署方式)之间找到平衡点,并通过开源替代方案或动态路由技术优化选择策略。
轻量化大模型和开源大模型正在迅速发展。一些开源模型的性能(例如DeepSeek-V3&R1)已经非常接近或与专有模型相当,这可能会降低基于API的使用成本,为不同的业务场景引入了更多的机会。