《Hammer: Robust Function-Calling for On-Device Language Models via Function Masking》提出了一种新型基础模型Hammer,通过函数掩码技术显著提升了大型语言模型在工具调用方面的性能,减少了对特定命名约定的依赖,展现了强大的泛化能力和超越现有模型的表现。该研究已开源,旨在促进智能设备的本地AI功能发展。
研究团队提出了一种名为“minimal LSTMs and GRUs”的新型RNN模型,通过简化传统LSTM和GRU结构,去除了隐藏状态对输入、遗忘和更新门的依赖,实现了无需BPTT的高效并行训练。该模型不仅保持了RNN处理序列数据的优势,还大幅提升了训练速度,在多个任务上的表现与Transformer相当,同时减少了参数量。研究结果发表于论文《minimal LSTMs and GRUs》。
苹果公司发布论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》,质疑大型语言模型(LLM)在数学推理方面的能力。尽管LLM在GSM8K等测试中表现良好,但在新基准测试GSM-Symbolic中,其准确率随数值变化而显著下降,表明LLM可能依赖于记忆和模式匹配而非真正的数学理解。这一发现引发了AI领域的广泛讨论。
李雅普诺夫函数是评估动态系统稳定性的重要工具,但其存在性难以证明。近期,Meta和Ecole des Ponts的研究团队利用基于Transformer的序列到序列模型,成功解决了多项式与非多项式系统中的李雅普诺夫函数发现难题,准确率高达99%,并在非多项式系统中实现了12.7%的新函数发现率。该研究不仅展示了生成模型在数学问题上的潜力,也为未解数学问题提供了新思路。
大语言模型(LLMs)在自然语言处理中表现出色,但在算术任务上却常依赖记忆而非理解。论文《Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines》提出可组合算术执行框架(CAEF),通过模拟图灵机,使LLMs逐步学习计算逻辑,显著提升其算术能力和泛化性能。实验显示,CAEF在LLaMA 3.1-8B模型上实现了高准确率,支持多位数计算,证明了其有效性和广泛适用性。