SCAI
近日,第64届国际计算语言学年会(The 64th Annual Meeting of the Association for Computational Linguistics,ACL 2026)发布了论文录用结果。来自上海财经大学计算机与人工智能学院的13篇论文被ACL 2026接收,其中6篇被ACL主会录用,另外7篇被“Findings of ACL”录用。
ACL年会是计算语言学和自然语言处理领域公认的国际顶级学术会议,由国际计算语言学协会主办,每年举办一次,在中国计算机学会(CCF)推荐会议列表中被评为A类会议。本届ACL年会(第64届)将于2026年7月2日至7月7日在美国圣迭戈举行。

Main Conference
SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning
Author name
艾正阳,单子康,艾晓冬,唐静娴,胡航恺,陆品燕
Abstract
大语言模型(LLMs)在数学推理等复杂任务中的后训练通常依赖强化学习。然而,现有方法大多围绕最终答案是否正确进行优化,难以对多步推理过程中的中间状态进行精细建模与有效反馈,因此常常面临奖励稀疏、推理路径冗长以及计算开销较高等问题。针对上述挑战,本文提出了SHAPE框架,从“推理潜力”视角统一刻画中间推理状态的价值,并构建了分层优势分配机制。在段级层面,SHAPE基于潜力估计设计了阶段感知的奖励塑形方法,能够更有效地区分真正推动问题求解的关键进展与仅增加篇幅的冗余推理,同时通过与长度相关的动态折扣机制提升推理效率;在token级层面,进一步结合信息熵对奖励信号进行重分配,使LLM训练更加聚焦于关键决策位置。基于三个基础模型和五个数学推理基准数据集的系统实验表明,SHAPE在提升LLM推理准确率的同时,显著降低了生成token数量,平均实现约3%的准确率提升和约 30% 的推理成本下降。

Modeling LLM Unlearning as an Asymmetric Two-Task Learning Problem
Author name
肖泽管,李思晴,王永,危学涛,杨健,陈云,陈冠华
Abstract
大模型记忆和再现训练数据的能力可能被利用来泄露敏感信息或生成有害内容。大模型遗忘作为一种有前景的解决方案应运而生,通过直接从模型中移除隐私信息和有害知识来降低大模型的相关风险。然而,大模型遗忘面临一个核心挑战:遗忘过程往往会导致模型性能下降,从而在有效遗忘和保持核心能力之间产生权衡。本研究将大模型遗忘问题建模成为一个非对称双任务学习问题,其中保留作为主要任务,遗忘作为辅助任务。在此基础上,我们提出保留优先梯度合成,探索了两个梯度合成方法。在WMDP和RWKU两个benchmark上的实验结果都显示我们的方法可以在保持相似遗忘效果的同时提升保留性能。

VFA: Empoweing Multilingual MLLMs via Vision-Free Adaptation
Author name
李乙侠, 史亚庆, 阮志文, 张冬冬, 江灵杰, 黄绍晗, 陈云, 陈冠华, 韦福如
Abstract
多模态大模型(MLLM)发展迅速,但由于高质量非英语“图像—文本”监督数据有限,多语言多模态指令微调受到了限制,导致大多数模型仍以英语为中心。尽管多语言文本数据十分丰富,但直接进行文本微调可能会破坏原有的视觉—语言对齐,并引发灾难性遗忘。为此,我们提出了无视觉自适应(Vision-Free Adaptation, VFA)框架。该框架通过在共享的 LLM 主干网络上组合互补的任务向量,实现了多语言语言能力增强与视觉对齐的解耦。在5个MLLM和6个基准测试上的实验证明,VFA在取得多语言改进的同时,保留了模型原有的通用多模态能力。VFA 仅需不到2%的文本数据,即可达到与全量多模态训练模型接近的性能,极大提升了训练的效率与有效性。

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
Author name
王天翼,李乙侠,李龙,陈毅彪,黄绍晗,陈云,李鹏,刘洋,陈冠华
Abstract
尽管近端策略优化(PPO)在对齐大模型(LLM)的推理任务中发挥了核心作用,但标准Token级PPO在处理长思维链时面临信用分配不稳定和价值模型内存开销巨大的瓶颈。同时,如GRPO等替代方案虽缓解了上述问题,却因依赖多次采样估计基线而带来了高昂的计算开销,严重限制了训练吞吐量。为此,我们提出了序列级PPO(SPPO)算法,旨在融合PPO的样本高效性与基于结果更新的稳定性。SPPO将推理过程重新建模为序列级上下文老虎机问题,通过引入解耦的轻量级标量价值函数,在无需多次采样的情况下即可推导出低方差的优势信号。在多个数学基准上的广泛实验表明,SPPO不仅显著克服了标准PPO的价值崩溃问题,更以极高的训练吞吐量(5.9倍提速)达到了与计算密集型的群组方法相当的顶尖性能,为长视距推理任务的对齐提供了一个极具资源扩展性的高效框架。

GIFT: Guided Fine-Tuning and Transfer for Enhancing Instruction-Tuned Language Models
Author name
阮志文,杜逸超,郑剑杰,王龙跃,陈云,李鹏,苏劲松,刘洋,陈冠华
Abstract
为了解决现有大模型任务自适应方法仅将指令模型视为被动合并目标、缺乏对训练过程主动指导的问题,本文提出了GIFT(Guided Fine-Tuning and Transfer)框架。该方法创新性地利用指令微调模型产生的置信度信号,主动指导基础模型上低秩适配器的微调训练。随后,将训练好的适配器无缝合并回指令微调模型中,从而构建出既具备特定任务专长,又能完整保留通用指令遵循能力的专业化模型。在横跨多模型系列与规模的数学推理及医疗问答基准测试中,GIFT不仅全面超越了直接微调与常规迁移基线,更展现出稳健的泛化能力和优异的测试时扩展表现。

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning
Author name
苏军又,朱赫,罗霄,张力宇,周洪宇,陈云,李鹏,刘洋,陈冠华
Abstract
监督微调(SFT)是大模型适配的核心环节,然而在全量数据集上进行训练往往面临高昂的计算成本与收益递减的困境。同时,现有的数据筛选方法大多具有严重的领域局限性:针对通用指令遵循优化的技术在推理任务上表现不佳,反之亦然。为此,我们提出了InstructDiff,一个基于差分熵的统一且具有领域自适应能力的数据筛选框架。研究发现,通过比较基础模型与经过轻量级微调的“校准模型”,选择具有最低差分熵的样本在各个领域中始终能带来最佳的微调性能。这一原则在不同任务中表现各异:推理任务倾向于挑选熵增的样本(认知扩展),而通用任务则倾向于挑选熵减的样本(认知压缩)。InstructDiff 通过预热校准、双向 NLL 过滤和基于熵的排序来自动化这一选择过程。广泛的实验表明,InstructDiff 仅需使用 10% 的数据,便能在数学推理和通用指令遵循任务上比全量数据训练分别实现 17% 和 52% 的相对性能提升,显著超越了现有的基线方法。

Findings of ACL 2026
V-RoLoRA: RLVR-Driven MoE Routing for Steerable Pluralistic Alignment
Author name
王京,吴耀民,王英林,杨亦童
Abstract
在多元且可能冲突的人类价值观背景下,能否针对多元价值观实现可控对齐,已成为衡量大模型能力的重要维度。然而,当前基于提示工程等方法所实现的对齐方式往往脆弱且不稳定。为此,本文提出一种基于离散条件向量的价值可控对齐方法——可验证奖励路由的 LoRA。该方法在参数高效的混合专家 LoRA 框架中引入条件门控机制,根据输入的价值向量动态调度多个 LoRA 专家;同时将后训练建模为强化学习问题,利用可验证奖励(包括一个由轻量判别器计算的条件一致性奖励)和 GRPO 优化适配器参数。在 Touché23-valueEval 和 MIC 两个基准上的实验表明,该方法在micro-F1, macro-F1及 Jaccard 等指标上均优于提示式引导和多任务 PEFT 基线,实现了最高的整体可控性,结果也得到人工评估的验证。

Representation-Guided Parameter-Efficient LLM Unlearning
Author name
肖泽管,莫浪,陈云,杨磊,赵杰辉,杨丽丽,陈冠华
Abstract
大多数现有的大模型遗忘方法依赖于全参数微调。然而,修改数十亿参数的计算成本高昂,且更为关键的是,会显著增加灾难性遗忘的风险。为解决这一问题,近期研究利用LoRA进行大模型遗忘,并表明遗忘性能可以与全参数微调相当甚至更优,同时大幅降低计算成本。尽管取得了这些进展,这些方法仍在有效遗忘和保持核心能力上存在不足。我们假设这一局限性源于这些方法依赖参数重要性估计,而忽视了大模型中参数的叠加现象,即单个参数往往参与多个概念的表示,导致参数的多语义性。我们的方法建立在一个关键洞察之上:虽然由于叠加现象,参数重要性度量可能不可靠,但表征子空间可以更有效地解纠缠。通过将遗忘更新限制在与遗忘集表征对齐的子空间内,同时最小化与保留集表征的干扰,我们可以更有效地分离遗忘相关知识并保持模型效用。基于这个洞察,我们提出 ReGLU,一种利用表征空间几何特性实现鲁棒且精确遗忘的方法,由用于遗忘的 LoRA 初始化策略RILA和正则化损失项ROL组成。它们通过识别保留集表征的主要子空间,对LoRA 初始化和训练过程中施加正交约束,从而最小化与原始模型行为的干扰。

Towards Bridging the Reward-Generation Gap in Direct Alignment Algorithms
Author name
肖泽管,陈云,杨健,陈冠华,唐珂
Abstract
直接对齐算法(DAAs),例如 DPO和 SimPO,是基于人类反馈的强化学习 (RLHF)的高效替代方案,相较于RLHF更加简洁高效。然而,DAAs 存在一个我们提出的根本性限制,即“reward-generation gap”(奖励-生成鸿沟)——这是指训练目标与自回归生成过程之间的不一致。在本文中,我们认为,这一问题的一个重要来源在于:在 LLM 的生成过程中,前缀词元的重要性与 DAAs 隐式奖励函数中对这种重要性的体现之间存在不匹配。为了解决这一问题,我们从基于 token 的马尔可夫决策过程的视角分析 DAAs 的局限性,并提出了一种简单而有效的方法,称为 Prefix-Oriented Equal-length Training(POET)。该方法通过对优选和非优选响应进行截断,使它们的长度与较短的一方保持一致。我们在 DPO 和 SimPO 这两种代表性 DAAs 上进行了实验,结果表明,POET 相比其标准实现取得了显著提升:在 AlpacaEval 2 上最高提升达 11.8 分,并在多个下游任务中实现整体性能提升。这些结果表明,有必要通过更好地对齐训练目标与自回归生成过程,来缓解 DAAs 中的 reward-generation gap 问题。

Beyond Static Rules: Automated Discovery of Latent Vulnerabilities in Text-to-SQL
Author name
汪汉卿,迟永东, 杨健, 杨磊, 赵杰辉, 陈云, 陈冠华
Abstract
尽管大模型在Text-to-SQL任务中表现出色,但其潜在的可靠性隐患阻碍了实际应用部署。当前的诊断方法多依赖静态的专家定义规则,缺乏自动化探索未知漏洞的能力。为此,我们提出了SAGE框架,用于自主挖掘Text-to-SQL系统中的深层漏洞。SAGE通过为样本生成特定的漏洞假设,并参考一个持续自我演进的“漏洞法典”来合成针对性的扰动,从而迭代式地验证和记录模型缺陷。在BIRD和Spider等基准上的广泛实验表明,SAGE在漏洞挖掘数量和效率上大幅超越了静态专家基线,揭示了当前模型的显著脆弱性,同时也强有力地证明了采用自动化、动态演进框架来全面审查模型鲁棒性的必要性。此外,研究发现这些漏洞模式具备强大的跨模型迁移能力,代表了LLM广义的结构性弱点。最后,基于SAGE生成的样本进行轻量级微调能有效缓解模型缺陷,为构建高可靠的数据库交互接口提供了一条可扩展的闭环修复路径。

Toward Automated Robustness Evaluation of Mathematical Reasoning
Author name
侯钰涛,肖泽管,于飞,姜逸涵,马曙光,戴昭骞,黄海量,陈云,陈冠华
Abstract
大模型(LLMs)在推理任务中表现出色,然而这些模型在特定场景下也表现出意料之外的脆弱性,往往会在同一底层任务的简单变体上失败。现有的鲁棒性评估主要依赖人工设计的模板或有限的扰动规则。因此,这类方法缺乏针对特定模型潜在脆弱性的自适应探测能力,并且容易受到数据污染的影响。为此,我们提出了 Math Stress Tester(MaSTer),一种受软件压力测试启发的自动化框架。MaSTer 通过多轮“重写—验证”循环生成对抗性变体,在确保语义一致性的同时成功诱导模型失败。我们的框架会针对每个 LLM 动态生成基准变体,从而最大限度降低数据污染风险。我们在 GSM8K 和 MATH-500 上的实验验证了MaSTer 在数学任务上的有效性,并在其他任务上进一步验证了其任务扩展能力。此外,我们证明了 MaSTer 生成的合成变体还可以用作微调数据集,从而显著提升模型的鲁棒性。

FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios
Author name
侯钰涛,姜逸涵,谢语涵,杨健,张立文,黄海量,陈冠华,陈云
Abstract
大模型(LLM)在金融场景发挥着重要作用。然而,它们可能会产生有害输出,包括协助非法活动或不道德行为,从而带来严重的合规风险。为了系统评估 LLM 在金融领域的安全性,我们提出了 FinSafetyBench,这是一个双语(英文-中文)的红队测试基准,用于测试 LLM 对违反金融合规要求的请求的拒绝能力。该基准以真实世界的金融犯罪案例和伦理标准为基础,包含 14 个子类别,覆盖金融犯罪和道德违规。通过在三种具有代表性的攻击设置下,对通用型和金融专用 LLM 进行大规模实验,我们识别出一些关键漏洞,这些漏洞使得对抗性提示词能够绕过合规防护。进一步分析表明,模型在中文语境下表现出更强的易受攻击性,同时也凸显了基于提示词层面的防御对复杂或隐式操纵策略的局限性。

Rectifying Coordinate Drift in MLLMs via Counterfactual Positional Guidance
Author name
陶行健,王艺炜,蔡雨君,罗逸鸿,韩恺,唐靖
Abstract
虽然多模态大语言模型(MLLM)在通用视觉-语言任务上表现出色,但精确坐标预测仍然是一个重大挑战,尤其是在高分辨率输入下,视觉位置编码(Visual Positional Encodings, VPEs)会发生退化。我们表明,这种编码失效并不会导致随机噪声,而是会引发可预测的方向性偏差,这说明当定位信号较弱时,模型会退回到其内部的空间先验进行判断。为了解决这一问题,我们提出了 Vision-PE Shuffle Guidance(VPSG),这是一种无需训练、可在推理阶段使用的校正方法。VPSG 通过打乱视觉位置编码来分离出不受位置条件约束的模型倾向,并将这种“负证据”用于引导数字解码,具体实现上借助了一个轻量级的有限状态机。在 ScreenSpot-Pro 基准测试上的评估表明,VPSG 能够有效纠正坐标漂移问题,在无需任何重新训练的前提下,在不同规模的模型上都能稳定提升定位准确率。

S
C
A
I

编辑
审核
余未希
梁慧丽



