2024年人工智能领域十大预测(上)。
2024年人工智能领域10大预测(上):
·一、以MoE为主的方法将成为大模型研究的新方向。MoE即Mixture-Of-Experts,是一种深度学习技术。它通过门控网络实现任务/训练,数据在不同专家模型间的分配,让每个模型专注处理其最擅长的任务,进而实现模型的稀疏性。这种方法可以在保证运算速度的情况下,将模型的容量提升>1000倍。
MoE模型由两个关键组成部分构成:门控网络和专家网络。门控网络负责根据输入数据的特征,动态地决定哪个专家模型应该被激活以生成最佳预测。专家网络是一组独立的模型,每个模型都负责处理某个特定的子任务。通过门控网络,输入数据将被分配给最适合的专家模型进行处理,并根据不同模型的输出进行加权融合,得到最终的预测结果。
MoE模型已经在一些实际应用中取得了显著的效果。例如Moet&Chandon这是一家法国的精品酒庄,也是奢侈品公司LVMH Moe t、Hennessy Louis Vuitton SE的一部分。他们使用MoE模型来提升其产品的质量和准确性。
在2023年12月份Mistral AI发布了类GPT-4架构的开源版本Mistral 8x7 B模型。这8个70亿参数的小模型组合起来,直接在多个跑分上超过了多达700亿参数的Llama2。英伟达高级研究科学家Jim Fan推测,Mistral可能已经在开发34Bx8E,甚至100B+x8E的模型了,而它们的性能或许已经达到了GPT-3.5的水平。
·二、Transformer架构的统治地位将受到挑战。在过去的几年中自从Transformer出现之后,它的架构几乎就是为大模型而量身制作的。简单的前馈神经网络模型,能够提供给模型足够大的参数,再加上带有残差和注意力模块编解码结构的堆叠,不仅使参数量更进一步的增大,为模型提供更强大表示能力,稠密的多头自注意力机制还为模型提供了数据内部不可或缺的关系表达能力。
但是随着底层基础模型技术的研究和发展,逐渐有一些新的模型架构对传统Transformer造成了一定的挑战。当然这种挑战不仅仅局限于学术层面,更多的可能还会在后续的工业界得到证实。由于Transforme本身参数的增加,随着token的增加成2次方的增长,这导致计算成本也在迅速的增长。
其次Transformer在参数达到一定量级后也出现了表达瓶颈的现象,由此出现了一些在未来可能会替代Transformer的研究方案。这些新的基础模型框架或者相关微调技术都将会对Transformer的统治地位造成一定的影响。能否完全替代Transformer,在大模型一统天下的局面,不仅要看学术界的成果更要看工业界的行动。
三大模型免微调方法得到一定的发展,大模型表现能力如此显眼,其中少不了对模型的微调。而近期的一些研究表明通过对alignmenttuning的深入研究揭示了其"表面性质",即通过监督微调和强化学习调整LL Ms。
fiomthe mli方式可能仅仅影响了模型的语言风格,而对模型解码性能的影响相对较小。具体来说通过分析基础LL Ms和alignment-tuned版本在token分布上的差异,作者发现在大多数情况下,它们在解码上表现几乎相同。主要的变化发生在文体方面,如话语标记和安全声明。
研究者提出了一种名为URIAL(Untuned LLMswith Restyled In-context ALignment)的简单无需调优的对齐方法。URIAL方法利用上下文学习(ICL),通过采用少量精心策划的风格示例和精心设计的系统提示,实现了对基础LLMs的有效对齐而无需调整其权重。
在这个方法中通过巧妙构建上下文示例,首先肯定用户查询并引入背景信息,然后详细列举项目或步骤,最终以引人入胜的摘要结束,其中包括安全相关的免责声明。
研究发现这样一个直接的基准方法能够显著减小基础LL Ms和经过对齐的LL Ms之间的性能差距,这表明通过精心设计的上下文示例,可以在不进行调优的情况下,实现对基础LL Ms的有效对齐,为对齐研究提供了新的思路。
事实证明只要基础模型设计的够好,加以优质的数据和足够的训练,完全可以省去微调的步骤,这不但提高了大模型训练的效率,也大大减低的大模型微调的成本。
点击关注。
评论留言