中国工业互联网研究院：2023人工智能大模型在工业领域知识问答稳定性评测报告.pdf

人工智能大模型作为实现通用人工智能的重要途径，正在对制造业的产业发展和应用模式产生变革性影响。近期，中国工业互联网研究院联合香港科技大学、新华指数，共同研究Al大模型在工业领域的应用性能、技术架构与标准体系，并发布评测报告。

工业领域对人工智能大模型的应用稳定性要求极高。人工智能大模型在工业领域应用的稳定性研究对于应用安全性保障、稳健性提升、可信赖性增强、决策优化以及合规性等方面都具有重要的指导意义。本报告聚焦评测大模型在工业领域的知识问答稳定性，通过选取工业领域典型的八大行业，构建基础知识测试集与变体测试集，对国内外具有代表性的Al大模型在文法、数据、精简表达、扩充表达四大类八个子维度展开深入评估。选取性能前五名的模型进行公布，并发布前十名的数据，供业界进行参考。

本报告评测结果虽经专家组认真论证，但因大模型迭代速度快，评测结果仅适用于测试期间。报告难免存在分析结论片面与不足，欢迎大家批评指正。

指人工智能大模型在工业知识问答领域，具备较高回答准确性能的前提下，针对一定参数扰动，维持某些性能特性的能力，即在非理想的工作环境或应用场景下也能够良好运行的能力。

从能力维度，国内大模型与国外头部大模型在数据稳定、精简表达、扩充表达能力差距较小，在文法稳定方面存在一定差距；

从行业应用，国内大模型与国外在钢铁、采矿、装备制造等方面应用差距较小，其他行业具有较大提升空间。