百川智能宣布超千亿大模型Baichuan 3发布，中文评测超GPT-4_zhaosf

新浪科技讯 1月29日午间消息，百川智能宣布发布超千亿参数的大语言模型Baichuan 3。在CMMLU、GAOKAO、AGI-Eval等多个权威测评中，Baichuan 3在中文任务评测性能上超越了GPT-4，在数学和代码专项评测中也取得了出色表现。

与百亿、几百亿级别参数模型训练不同，超千亿参数模型在训练过程中对高质量数据，训练稳定性、训练效率的要求都高出几个量级。据介绍，为更好解决相关问题，百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案，有效提升了Baicuan 3的各项能力。

高质量数据方面，为全面提升数据质量，百川智能设计了一套基于因果采样的动态训练数据选择方案，该方案能够在模型训练过程中动态地选择训练数据，极大提升数据质量。

训练稳定性方面，超千亿参数的模型由于参数量巨大，训练过程中经常会出现梯度爆炸、loss跑飞、模型不收敛等问题。对此，百川智能提出了“重要度保持”的渐进式初始化方法，用以保证模型训练初期的稳定性。并且优化了模型训练过程的监控方案，在梯度、Loss等指标上引入了参数“有效秩”的方法来提早发现训练过程中的问题，极大加速对训练问题的定位，确保了最后模型的收敛效果。

此外，为确保在数千张GPU上高效且稳定地训练超千亿参数模型，百川智能同步优化了模型的训练稳定性和训练框架，并采用“异步CheckPoint存储”机制，可以无性能损失地加大存储的频率，减少机器故障对训练任务的影响，使Baichuan 3的稳定训练时间达到一个月以上，故障恢复时间不超过10分钟。

训练效率方面，百川智能针对超千亿参数模型的并行训练问题进行了一系列优化，实现Baichuan 3的训练框架在性能方面相比业界主流框架提升超过30%。

据介绍，面向医疗行业，百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集，该数据集涵盖了从理论到实际操作，从基础理论到临床应用等各个方面的医学知识，确保了模型在医疗领域的专业度和知识深度。在对逻辑推理能力及专业性要求极高的MCMLE、MedExam等权威医疗评测上的中文效果同样超过了GPT-4。（文猛）