最新！AI大模型的研究热点！

引言

在人工智能的浪潮中，大模型研究如日中天，涵盖诸多研究方向，每个方向均承载着独特的研究焦点与挑战。

以下，我们将逐一探讨数个备受瞩目的研究方向，包括检索增强生成RAG、大模型Agent、Mamba、MoE、LoRA等，这些方向致力于攻克大模型在实际应用中的核心难题，进而提升其性能与实用性。

【一一AGI大模型学习所有资源获取处一一】

①人工智能/大模型学习路线

②AI产品经理入门指南

③大模型方向必读书籍PDF版

④超详细海量大模型实战项目

⑤LLM大模型系统学习教程

⑥640套-AI大模型报告合集

⑦从0-1入门大模型教程视频

⑧AGI大模型技术公开课名额

检索增强生成RAG

检索增强生成RAG凭借信息检索与文本生成的有机结合，显著提升了AI系统的效能。其核心优势在于，能够借助外部知识库辅佐生成过程，确保生成内容的精准度与鲁棒性。结合大模型所具备的卓越生成能力，RAG在问答系统、文档生成、自动摘要、智能助手、信息检索以及知识图谱填充等诸多自然语言处理场景中均展现出强大的应用潜力。研究聚焦于“检索器与生成器的集成”、“跨模态应用与知识更新”等方面，而挑战则在于如何进一步提升“检索效率”、“生成质量”以及“跨领域应用”等关键环节。

近年来，尽管人工智能大模型在众多任务中展现出令人瞩目的能力，但在知识整合与长期记忆方面仍存在显著不足。为此，OSU&斯坦福的学者提出了一种创新性思路：赋予大模型类似人脑海马体的“记忆操作系统”。借鉴海马体在人脑记忆中的核心作用，他们设计了一款名为HippoRAG的新型检索增强模型。实验证明，装备了这种“类脑”记忆系统的大模型在各类知识整合任务中均展现出令人惊艳的性能提升。

AI2团队则提出了一种自适应QA问答框架——Adaptive-RAG。该框架涵盖多种策略，能够根据请求的复杂程度动态选择合适的策略，旨在提高检索增强大模型在应对不同复杂请求时的响应准确性，进而提升QA问答效率。

然而，单纯依赖大模型自身的参数知识进行文本生成，难免会产生所谓的“模型幻觉”。因此，研究人员将检索增强生成RAG作为大模型文本生成的辅助手段。但值得注意的是，RAG方法的准确性在很大程度上依赖于检索文本的准确性。一旦检索环节出现偏差，生成文本的准确性便难以保证。为此，中科大团队提出了纠正检索增强生成（CRAG）的方法，旨在增强文本生成的鲁棒性。

此外，Infineon提出了RAG-Fusion技术，该技术巧妙地将RAG与Reciprocal Rank Fusion（RRF）相结合。具体而言，该技术首先通过指令遵循模型生成多个请求，随后对每个请求进行矢量搜索，从预定义集合中检索相关文档。接着，利用倒数排名融合算法根据请求间的相关性对文档进行重新排序。最终，生成经过重新排序的文档组列表。

Amazon则提出了一种名为SYNTHESIZRR的新方法，用于改进大模型（LLMs）在分类任务中的微缩化过程。传统的few-shot提示生成数据集方法往往存在重复和偏见问题。而SYNTHESIZRR通过引入检索增强来提升数据集的多样性，使LLM能够根据不同内容生成更多样化的示例。在提升词汇和语义多样性、模仿人类文本以及优化模型微缩化性能等方面，SYNTHESIZRR均展现出相较于传统方法的显著优势。

大模型Agent

年初，业界领军人物吴恩达曾指出，大模型Agent将是未来大模型发展的重要方向。随着大模型应用场景日趋复杂，单纯依赖大模型自身的能力已难以满足需求。因此，构建高效的大模型Agent成为了大势所趋。微软的研究人员亦对Agent AI的基础进行了深入探讨，强调了智能Agent在物理、虚拟现实、混合现实以及感官交互等领域中的潜在应用，并指出Agent AI有望成为下一代人工智能的关键技术。当前，大模型Agent的研究重点聚焦于“多任务学习”、“常识推理与持续学习”等领域，旨在提升Agent在广泛任务上的表现力和适应性。智谱创新推出自动化网页导航Agent——AUTOWEBGLM，该Agent凭借简化网页内容及融合AI技术的独特优势，成功攻克了现有web Agent在处理真实网页时所遭遇的诸多挑战。AUTOWEBGLM运用精心设计的算法精准表示网页内容，确保重要信息得以保留，并通过混合人工智能方法进行深度训练。此外，该Agent还借助强化学习与拒绝采样技术，大幅提升了其对网页内容的理解能力及任务执行效率。

微软倾力打造自动化软件开发框架——AutoDev，这一革命性的AI驱动框架旨在实现软件开发的全面自动化，从而自主规划并执行复杂的软件开发任务。AutoDev赋予用户定义复杂软件工程目标的能力，并将这些目标交由其自主Agent实现。这些Agent在代码库上可施展多种操作，涵盖文件编辑、检索、构建过程、执行、测试及Git操作，展现出强大的功能性与灵活性。

Google推出的SceneCraft创新大语言模型Agent，可将文本描述巧妙转化为Blender可执行的Python脚本，进而创建出复杂的3D场景。SceneCraft通过高级抽象、战略规划及库学习等手段，有效应对空间规划与布局领域的复杂挑战，为3D内容创作带来前所未有的便捷与高效。

生成模型在软件工程领域的应用已取得显著成果，尤其在代码生成与调试任务中表现突出。然而，在自动生成代码文档方面，这些模型的潜力尚待充分挖掘。为此，清华大学开发出REPOAGENT，一款基于大型语言模型的开源框架，专注于自动生成、维护及更新代码文档。经过一系列定性与定量分析评估，REPOAGENT在创建高质量代码仓库文档方面的能力得到了充分验证。

聚焦于如何让大型语言模型如ChatGPT和GPT-4在处理复杂且需多种技能的任务时表现得更为出色。为此，清华大学开发出GITAGENT，这款工具可令模型自主从GitHub中挑选合适的代码库，并融入其工具箱中。GITAGENT在执行任务时遵循四个关键步骤，并在遇到问题时善于从GitHub上汲取他人经验，以不断提升自身能力。

关于大语言模型的规划与推理能力，业界观点不一。亚利桑那州立大学研究人员认为，大语言模型（LLMs）本身并不具备规划推理能力，但其在解决规划问题方面仍发挥着积极作用。为此，作者提出一种新颖的LLM-Modulo框架，将大型语言模型与外部验证工具相结合，使LLMs在规划任务中发挥出关键作用。

Mamba

Mamba作为一种选择性结构状态空间模型（Selective Structured State Space Model），在长上下文任务处理方面展现出线性时间推理、并行化训练及卓越性能等诸多优势。该技术由CMU率先提出，通过全局感受野和动态加权技术，有效缓解了卷积神经网络的建模约束，并提供了与Transformers相媲美的高级建模能力，同时避免了Transformer所带来的二次计算复杂性。其研究方向主要聚焦于提升长序列数据处理能力、多模态数据处理及计算效率等方面。

近日，波兰研究团队发布了MoE-Mamba，即将Mamba与混合专家层完美结合的创新模型。MoE-Mamba在提升SSM与MoE效率方面表现出色，同时该团队还发现，当专家数量发生变化时，MoE-Mamba的行为模式具有可预测性，为相关领域的研究与应用提供了有力支持。中科大等研究人员巧妙地将Mamba与视觉研究相融合，创新性地提出了Vim架构。在ImageNet分类任务、COCO对象检测任务以及ADE20k语义分割任务上，Vim相较于成熟的视觉Transformers如DeiT，展现出了卓越的性能优势，并且在计算和内存效率方面取得了显著的提升。例如，在对分辨率为1248×1248的图像进行批量推理提取特征时，Vim的运行速度较DeiT快了高达2.8倍，同时节省了惊人的86.8%的GPU内存。

华为诺亚方舟实验室的研究团队同样在探索前沿领域，他们提出了DenseMamba，旨在增强SSM中各层间隐藏信息的流动。DenseMamba通过精心设计的机制，将浅层的隐藏状态有选择性地整合到深层中，从而保留了对于最终输出至关重要的精细信息。这一方法不仅维持了训练的并行性和推理的效率，还通过密集连接的方式实现了性能的提升。DenseMamba的灵活性和通用性使其能够广泛应用于各种SSM类型，如Mamba和RetNet。

浙江大学则在多模型大模型领域取得了突破性进展，他们结合Mamba提出了Cobra，一个具备线性计算复杂度的MLLM。Cobra巧妙地将Mamba语言模型融入到视觉模态中，从而在保持高性能的同时实现了更快速的运算速度。尤其在处理视觉错觉和空间关系判断等复杂任务时，Cobra展现出了卓越的表现。值得一提的是，cobra的参数量仅为LLaVA的43%，但其性能却与之相当。

AI21 Labs则引领了一场技术革新，他们推出了开源的Jamba新方法，这一方法在多个基准测试中超越了传统的Transformer。Jamba充分发挥了Mamba SSM架构在解决Transformer内存资源和上下文问题上的优势，同时弥补了Mamba在输出水平上的不足。通过将基于结构化状态空间模型(SSM)的Mamba模型与Transformer架构相融合，Jamba成功地将SSM和Transformer的最佳属性集结于一身。实验结果表明，Jamba在长上下文处理上的吞吐量达到了Mixtral 8x7B的3倍，并且相较于同等规模的基于Transformer的模型，Jamba在效率上更胜一筹。

大模型高效微调(LoRA)

在大模型微调领域，研究者们探索了多种策略以应对计算资源有限和灾难性遗忘等问题。其中，全量微调涉及对预训练模型的所有参数进行调整，虽然能够提升特定任务的性能，但所需计算资源庞大且可能损害模型在其他领域的表现。

为了克服这些挑战，参数高效微调（PEFT）技术应运而生。PEFT通过仅更新模型中的关键参数来降低训练时间和计算成本，同时保持或提升模型性能。这一技术家族包括多种方法，如Prefix Tuning、Prompt Tuning、P-Tuning、Adapter Tuning以及LoRA等。这些方法旨在提高训练效率，同时保持模型的泛化能力。

在广泛应用的PEFT方法中，LoRA及其变体因无需额外的推理成本而备受青睐。LoRA通过引入低秩矩阵来模拟全模型微调的效果，显著降低了微调成本并实现了与全模型微调相近的性能。因此，LoRA及其改进方法已成为当前研究的热点。这些研究的重点包括提高参数效率、优化微调策略、扩展上下文处理能力以及实现模型压缩等方面。英伟达推出了权重分解低阶适应（DORA）技术，显著提升了LoRA的学习效能与训练稳定性，且无需额外增加推理成本。多项实验数据充分证实，DORA在多种下游任务模型微调方面的表现均超越LORA，展现出卓越的性能。

华盛顿大学推出的QLORA算法，在保持完整的16位微调任务性能的同时，成功实现单卡48G GPU对650亿参数大模型的微调。研究团队还发布了他们精心训练的Guanaco系列模型，该系列在Vicuna基准测试中表现突出，仅需单个GPU微调24小时，即可达到ChatGPT性能水平的99.3%，令人瞩目。

为了突破Token上下文长度的限制，MIT提出了LongLORA微调算法。该算法在资源受限的情况下，能够显著扩展预训练大模型（LLMS）的上下文长度，将LLaMA2-7B的上下文从4K扩展至惊人的100K，进一步提升了模型的适用性与灵活性。

斯坦福大学则推出了S-LORA系统，专为LORA适配程序的可扩展服务设计。该系统将适配程序存储在主内存中，并将当前查询所需的适配程序加载至GPU内存中，从而实现了在单个或多个GPU上以较低开销为数千个LORA适配器提供服务的能力（同时支持2000个适配器），极大地降低了LORA计算开销。相较于LLM-packed需要维护多个权重副本且受限于GPU内存，S-LORA无疑展现出了更强大的服务能力与可扩展性。

MoE（Mixed Expert Models）

MoE（Mixed Expert Models）技术虽然并非全新概念，但近年来随着大模型参数规模的不断扩大及多任务应用的普及，这项技术已成为研究的热点。MoE的核心优势在于能够在有限的计算资源下，以更少的训练步数训练更大规模的模型，同时保持较低的推理成本，展现出良好的扩展性与多任务学习能力。特别是其在预训练阶段，相比Dense模型，MoE模型通常能够更快地达到相同的质量水平。

在MoE领域，Google提出的Switch Transformers通过简化路由算法和直观的模型改进，有效地缓解了模型复杂性高及下游任务微调不稳定等问题。该方案降低了通信和计算成本，提高了训练稳定性，并展示了使用低精度格式训练大型稀疏模型的可能性。

此外，北大团队也对MoE路由机制进行了优化，提出了一种创新的动态Expert选择框架。该框架能够根据任务难度动态调整Expert数量，从而实现计算资源的有效利用。实验结果表明，该动态路由方法在各种基准测试中均优于传统的Tp-2路由方法，平均提升0.7%，同时参数激活率低于90%，展现了其在实际应用中的优势。微软为解决MoE专家激活率低等问题，匠心独具地提出了多头混合专家（MH-MOE）的创新解决方案。MH-MOE采用多头机制，巧妙地将每个输入token细分成多个子token，随后将这些子token分配给多样化的专家团队进行并行处理。处理完成后，这些子token又能够无缝地整合回原token的形态，使得专家激活率显著提升，同时展现出卓越的扩展性。此外，MH-MOE还具备更细粒度的理解能力，让模型在处理复杂任务时更加得心应手。

ByteDance则针对大模型多模态场景推出了CuMo，将MOE成功应用于多模态LLM领域。CuMo在视觉编码器和多层感知器（MLP）连接器中融入了Top-K稀疏门控MOE块，有效提升了模型在多模态任务上的性能表现。同时，该方法还成功维持了较低的推理成本，使得模型在实际应用中更加高效实用。在不同模型尺寸的多模态任务基准测试中，CuMo均取得了显著的SOTA成绩，展现出其卓越的性能优势。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：