微软研究公司发布了Orca 2 LLM,这是Lla...

人工智能
后台-插件-广告管理-内容页头部广告(手机)

微软研究公司发布了Orca 2 LLM,这是Llama 2的一个微调版本,其性能与包含10倍参数的型号一样好或更好。Orca 2使用合成训练数据集和一种名为“即时擦除”的新技术来实现这一性能。

Orca 2模型使用师生方案进行训练,其中较大、更强大的LLM充当较小学生LLM的老师,目的是提高学生的表现,使其与较大模型的表现相当。微软的训练技术教授较小模型的多重推理技术,以及如何为给定任务选择最有效的技术。为了做到这一点,老师会得到复杂的提示,以触发某种推理行为。然而,在一个名为“即时擦除”的方案中,学生只得到任务要求和期望的反应,而不是老师的提示。当在基准上进行评估时,13B参数Orca 2模型的表现优于基线13B参数Llama 2 47.54%。在推理任务中,7B参数Orca 2中的表现“更好或相当”于70B参数Llrama 2。

尽管像ChatGPT这样的LLM通常可以在几乎没有镜头提示的情况下在各种任务中表现良好,但由于其内存和计算需求,托管模型是一项挑战。较小的模型在微调时也可以表现良好,许多研究人员已经研究了用较大LLM生成的合成数据集训练它们。InfoQ最近报道了谷歌的逐步提取方法,该方法提示教师LLM自动生成一个小型微调数据集,该数据集既包含带输出标签的输入,也包含选择输出标签的“理由”。InfoQ还介绍了Stability AI的Stable Beluga模型,该模型使用微软最初的Orca 1方案进行训练,该方案使用解释调整,教师LLM会被提示“生成详细答案”

与Orca 1一样,Orca 2训练数据集由教师LLM生成,并给出详细提示。然而,微软称之为“谨慎推理”的新方法将训练任务与提示配对,引导老师使用特定的问题解决策略,如“循序渐进”或“解释你的答案”。然后,在对学生进行训练时,老师的提示会被删除,这会促使学生学会选择正确的策略。

为了评估该方法,微软将Orca 2模型的性能与几个基线模型进行了比较,包括Llama 2、ChatGPT(GPT-3.5)和GPT-4。基准任务包括推理、语言理解、文本完成和总结。在推理基准上,13B参数Orca 2模型的表现优于除ChatGPT和GPT-4之外的所有基线。他们还发现,与空的系统提示相比,给Orca 2一个“谨慎”的系统提示(“你是一个谨慎的助手。你仔细遵循指示。”)会使其性能略有提升。

几位用户在X上发布了关于《奥卡2》的帖子。其中一位用户指出,“你不需要用“一步一步解释”之类的技巧来提示它。“它只是知道。”人工智能研究人员鲁迪·兰克写道:

许多绝妙的想法都是如此简单。。。就像《奥卡2》中的“提示擦除”一样:不是显示整个提示,而是只向模型显示任务和答案(它过滤用于生成这些答案的完整提示)。它有助于模型在更高的级别上制定战略。真是一张漂亮的纸。我强烈建议你通读一遍。

Huggingface提供7B和13B参数的Orca 2型号。

微软研究公司发布了Orca 2 LLM,这是Lla...
后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。