鸿海推出繁体中文大型语言模型!在数学与推理方面表现卓越,将对外开源。
17 小时前 / 阅读约4分钟
来源:集微网
鸿海研究院推出了首款繁体中文AI大型语言模型FoxBrain,凭借高效的训练策略,仅用四周便完成了训练,具备数据分析、决策辅助等多重功能。该模型在数学和逻辑推理方面表现卓越,基于Meta Llama 3.1架构,拥有70B参数。鸿海研究院通过自主技术和资源优化,成功打造出接近世界顶尖水平的AI模型,未来将对外开源,推动AI在多个领域的应用,为中国台湾AI技术发展树立了新的里程碑。

鸿海(2317)旗下的鸿海研究院(HHRI)于10日宣布推出首款繁体中文AI大型语言模型(LLM),内部开发代号为FoxBrain。该模型以卓越的运算成本,在四周内完成训练。FoxBrain模型最初为内部应用而设计,涵盖数据分析、决策辅助、文书协作、数学、推理解题和代码生成等功能,未来将对外开源共享。作为鸿海研究院AI推理LLM模型的训练成果,FoxBrain不仅展现了强大的理解与推理能力,还针对中国台湾用户的语言风格进行了优化,并在数学与逻辑推理测试中表现优异。

鸿海研究院人工智能研究所所长栗永徽表示:“近几个月,推理能力的深化以及GPU的高效运用逐渐成为AI领域的发展主流。我们的FoxBrain模型采用高效训练策略,专注于训练过程优化而非盲目堆砌算力。通过精心设计的训练方法和资源优化,我们成功打造出具备强大推理能力的本土AI模型。”

在FoxBrain的训练过程中,鸿海研究院使用了120张NVIDIA H100 GPU,并通过NVIDIA Quantum-2 InfiniBand网络进行扩展,仅用约四周时间完成训练。相比近期其他公司推出的推理模型,这种高效、低成本的训练方式为中国台湾AI技术发展树立了新的里程碑。

FoxBrain基于Meta Llama 3.1架构,拥有70B参数。在TMMLU+测试数据集中,其在大多数领域优于国内同规模的Llama-3-Taiwan-70B,尤其在数学与逻辑推理方面展现出色能力(TMMLU+评测结果详见图一)。以下是FoxBrain的相关规格与训练策略:

- 通过自主技术,建立24类主题的数据增强方式与质量评估方法,生成98B高质量中文预训练数据。

- 上下文处理长度为128 K token。

- 使用120张NVIDIA H100 GPU训练,总计算力耗费2688 GPU天。

- 采用多节点并行训练架构,确保高性能与稳定性。

- 使用独特的Adaptive Reasoning Reflection技术训练模型学会自主推理。

在测试结果方面,FoxBrain在数学领域较基础模型Meta Llama 3.1全面提升,相较于目前最好的繁体中文大模型Taiwan Llama在数学测试中取得显著进步,并在数学推理能力上超越Meta目前已推出的同等级模型。虽然与DeepSeek的蒸馏模型仍有些微差距,但表现已相当接近世界领先水平。

FoxBrain的研发,从数据收集、数据清理与扩增、Continual Pre-Training、Supervised Finetuning、RLAIF、Adaptive Reasoning Reflection,以自主研发的方式一步一个脚印,稳扎稳打把每一个环节做好,最终在运用有限的算力资源下,仍能达到接近世界顶尖AI大模型的效益。此大型语言模型的研究成果,显示中国台湾科技人才在AI大模型领域也能与国际人才并驾齐驱。

虽然FoxBrain模型起源于鸿海研究院为集团内部应用而设计,未来,鸿海将持续与技术伙伴合作,对外开源分享,扩大FoxBrain模型的应用范围,共同推动AI在制造业、供应链管理与智能决策领域的应用。

在模型训练过程中,NVIDIA公司提供了Taipei-1超级计算机的支持以及技术咨询,使鸿海研究院通过使用NeMo顺利完成模型训练。FoxBrain不仅是鸿海AI研发的重大突破,也为中国台湾AI产业发展树立了新的标杆。未来将发挥更大影响力,推动企业数智化转型与全球产业升级。

鸿海未来将通过引入AI大型语言模型,优化智能制造、智能电动车、智慧城市等三大平台的数据分析效率,让FoxBrain成为驱动智能应用升级的重要引擎,进一步提升公司运营效益。