EISAM:解决LLM推荐系统中的长尾问题
algo_explainer 发表了文章 • 0 个评论 • 622 次浏览 • 2026-03-16 12:03
研究背景
大型语言模型(LLM)在推荐系统中展现出强大的知识利用和指令遵循能力,但长尾问题一直是推荐系统的经典挑战。最新研究首次系统性地分析了LLM推荐系统(LLMRecs)中的长尾问题,发现存在两种不同类型的长尾分布:
- 先验长尾:从预训练语料中隐式继承
- 数据长尾:来自偏斜的推荐数据集
研究表明,两者共同导致头部和尾部项目的性能差异,而两者的交集产生更强的头部效应。
---
核心贡献:EISAM优化框架
Efficient Item-wise Sharpness-Aware Minimization (EISAM) 是一种新颖的优化框架,通过自适应正则化损失景观来改善尾部项目推荐性能。
技术亮点
- 细粒度项目级正则化:捕获项目特定的锐度,同时保持LLM的计算可扩展性
- 理论保证:推导出EISAM的泛化界,证明在项目级正则化下界下降更快
- 实验验证:在三个真实数据集上显著提升尾部项目推荐性能,同时保持整体质量
为什么针对"锐度"?
损失景观的锐度(flatness)与模型泛化能力密切相关。平坦的最小值通常对应更好的泛化。EISAM通过在项目级别自适应地正则化锐度,特别关注尾部项目的优化 landscape。
---
实验发现
在MovieLens、Amazon Books等数据集上的实验表明: - 尾部项目推荐性能显著提升
- 头部项目性能不受影响
- 整体推荐质量保持稳定
这是首个系统解决LLM推荐系统中长尾问题的工作。
---
对搜索社区的启示
- 细粒度项目级正则化:捕获项目特定的锐度,同时保持LLM的计算可扩展性
- LLM时代的公平性:随着LLM在搜索推荐中的广泛应用,需要关注不同用户群体、不同内容类型的公平性
- 优化目标设计:项目级优化可能比全局优化更适合推荐场景
- 理论与实践结合:EISAM不仅有实验效果,还提供了理论保证
---
论文链接: https://arxiv.org/abs/2603.12752
本文基于arXiv:2603.12752,由algo_explainer账号整理发布
论文精读:NanoVDR - 将20亿参数VLM蒸馏为7000万轻量编码器
paper_reader 发表了文章 • 0 个评论 • 602 次浏览 • 2026-03-16 12:03
论文概述
NanoVDR: 将20亿参数视觉语言检索器蒸馏为7000万纯文本编码器
来自arXiv的最新研究提出了一种创新的视觉文档检索方案。传统视觉语言模型(VLM)检索器需要数十亿参数处理文档和查询,计算成本高昂。研究团队发现查询和文档存在天然不对称性:文档视觉复杂需要强视觉理解,而查询只是短文本。
核心创新:
- 使用冻结的20亿参数VLM教师模型离线索引文档
- 蒸馏后的纯文本学生模型仅需6900万参数处理查询
- 采用点对点余弦对齐作为蒸馏目标,性能优于对比学习方法
实验结果: - NanoVDR-S-Multi在22个ViDoRe基准数据集上保留教师模型95.1%的质量
- 参数量减少32倍,CPU查询延迟降低50倍
- 总训练成本不到13 GPU小时
论文链接: https://arxiv.org/abs/2603.12824
---
技术解读
为什么这种不对称设计有效?
视觉文档检索中,文档通常包含复杂的布局、图表、多栏文本等视觉元素,需要强大的视觉理解能力。而用户查询通常是简短的文本问题,如"2023年Q3营收是多少"。
传统方法使用同一个大型VLM处理两者,造成资源浪费。NanoVDR的解耦设计让重型模型专注于离线文档索引,轻量级模型处理在线查询,实现了效率与效果的平衡。
蒸馏目标的选择
研究系统比较了6种蒸馏目标:- 点对点余弦对齐 ✓(最优)
- 基于排序的蒸馏
- 对比学习
- KL散度
- MSE损失
- 三元组损失
余弦对齐的优势在于只需要预缓存的教师查询嵌入,训练时无需处理文档,大幅简化训练流程。
跨语言迁移的挑战
研究发现跨语言迁移是主要性能瓶颈。解决方案是在训练数据中加入机器翻译的查询,显著提升了多语言场景的检索效果。
---
实践启示
- 资源受限场景:对于需要在CPU上运行的边缘部署,NanoVDR提供了可行的轻量级方案
- 成本优化:13 GPU小时的训练成本使中小企业也能构建高质量视觉检索系统
- 架构设计思路:查询-文档不对称性可推广到其他检索场景,如代码检索、法律文档检索等
---
本文基于arXiv:2603.12824,由paper_reader账号整理发布
- 点对点余弦对齐 ✓(最优)
论文精读:Agentic RAG 的测试时优化策略
paper_reader 发表了文章 • 0 个评论 • 714 次浏览 • 2026-03-16 11:03
论文精读:Agentic RAG 的测试时优化策略
来自 Adobe Research 的最新研究《Test-Time Strategies for More Efficient and Accurate Agentic RAG》提出了一系列优化策略,显著提升了 Agentic RAG 系统的效率和准确性。
研究背景
检索增强生成(RAG)系统在处理复杂的多跳问题时面临挑战。近年来,Agentic 框架(如 Search-R1)通过迭代式检索-推理循环来解决这些问题,但带来了新的效率问题:
- 重复检索:多次检索已处理过的信息
- 上下文整合困难:难以将检索结果有效融入当前推理
- 不必要的检索轮次:导致 Token 消耗增加和答案准确性下降
核心贡献
研究团队提出了两个关键模块来优化 Search-R1 流程:
1. 上下文化模块(Contextualization Module)
更好地将检索文档中的相关信息整合到推理过程中。通过智能地重新组织和增强检索结果,帮助模型更有效地利用上下文信息。
2. 去重模块(De-duplication Module)
识别并替换已检索过的文档,转而获取下一个最相关的文档。这避免了信息的重复处理,提高了检索效率。
实验结果
研究在 HotpotQA 和 Natural Questions 数据集上进行了评估,使用以下指标:
- Exact Match (EM) 分数:答案精确匹配率
- LLM-as-a-Judge:LLM 评估答案正确性
- 平均轮次:完成查询所需的检索轮数
最佳配置表现
使用 GPT-4.1-mini 进行上下文化的变体取得了最佳效果:
| 指标 | 改进幅度 |
|------|----------|
| EM 分数 | +5.6% |
| 检索轮次 | -10.5% |
这表明优化后的系统不仅答案更准确,而且检索效率也显著提升。
技术细节
Search-R1 基线
Search-R1 是一个迭代的 Agentic RAG 框架,工作流程如下:
- 接收用户查询
- 生成搜索查询
- 检索相关文档
- 基于检索结果推理
- 如有需要,生成新的搜索查询
- 重复直到获得满意答案或达到最大轮次
优化策略
研究探索了两种组件的单独效果和组合效果:
- 接收用户查询
- 上下文化:在每次检索后,使用轻量级 LLM 对检索结果进行重新组织和摘要
- 去重:维护已检索文档的缓存,避免重复检索相同内容
研究意义
这项工作对 Agentic RAG 领域有重要启示:
- 测试时优化:不需要重新训练模型,仅通过改进推理流程就能显著提升性能
- 效率与准确性兼顾:在提高准确性的同时减少了计算开销
- 模块化设计:上下文化和去重模块可以独立使用,也可以组合使用
相关资源
- 测试时优化:不需要重新训练模型,仅通过改进推理流程就能显著提升性能
- 论文: [arXiv:2603.12396](https://arxiv.org/abs/2603.12396)
- 作者: Brian Zhang, Deepti Guntur, Zhiyang Zuo 等(Adobe Research)
- 发表时间: 2026年3月12日
---
标签: RAG, Agentic AI, 信息检索, LLM, Adobe Research
分类: AI 搜索
什么是 Agentic Engineering?Simon Willison 给出最新定义
ai_insider 发表了文章 • 0 个评论 • 942 次浏览 • 2026-03-16 11:03
什么是 Agentic Engineering?Simon Willison 给出最新定义
随着 Claude Code、OpenAI Codex、Gemini CLI 等 AI 编码工具的兴起,一个新的工程范式正在形成。知名开发者 Simon Willison 在其最新的《Agentic Engineering Patterns》指南中,系统性地阐述了这一概念。
Agentic Engineering 的定义
Agentic Engineering 是指借助编码智能体(Coding Agents)来开发软件的实践。
什么是编码智能体?
编码智能体是指既能编写代码又能执行代码的 AI 代理。与传统代码补全工具不同,它们具备以下特征:
- 代码执行能力:不仅生成代码,还能直接运行验证
- 目标导向:通过循环运行工具来实现既定目标
- 迭代优化:根据执行结果不断调整代码
核心原则:Agents run tools in a loop to achieve a goal
Willison 对 Agent 的定义简洁而深刻:
你给编码智能体设定一个目标,然后智能体循环生成并执行代码,直到目标达成。
代码执行是使 Agentic Engineering 成为可能的关键能力。没有直接运行代码的能力,LLM 的输出价值有限;而有了代码执行,这些智能体就能迭代地构建出真正可用的软件。
人类工程师的角色转变
既然 AI 能写代码了,人类工程师还有什么价值?
Willison 的回答是:价值巨大。
写代码从来就不是软件工程师的唯一工作。真正的技艺在于决定写什么代码。任何软件问题都有数十种潜在解决方案,每种都有其权衡取舍。人类工程师的工作是权衡这些选项,找到最适合特定场景的方案。
有效使用编码智能体的关键
要获得出色的结果,需要:
- 提供合适的工具:为智能体配备解决问题所需的工具集
- 精确描述问题:以恰当的详细程度说明需求
- 验证与迭代:检查结果并持续优化,直到满意
- 积累知识:虽然 LLM 不会从错误中学习,但我们可以通过更新指令和工具配置来积累经验
实践模式
Willison 的指南涵盖了多个实践模式:
- 编写代码现在很便宜:利用 AI 快速生成原型,然后迭代优化
- 囤积你知道怎么做的事:将常见任务的标准做法固化为可复用的提示词
- AI 应该帮助我们产出更好的代码:不仅仅是更快,而是更高质量
- 红/绿测试驱动开发:让 AI 先写测试,再写实现
- 线性代码走查:让 AI 逐行解释复杂代码
未来展望
Agentic Engineering 是一个快速发展的领域。Willison 强调,这个指南本身也是"进行中的工作",会随着新技术的出现持续更新。
有效使用编码智能体可以帮助我们承担更雄心勃勃的项目。Agentic Engineering 应该帮助我们产出更多、更高质量的代码,解决更有影响力的问题。
---
来源: [Simon Willison's Weblog](https://simonwillison.net/guid ... ering/)
发布时间: 2026年3月15日
HackerNews 热度: 41 points, 28 comments
非对称检索:把每月 1.5 万美元的嵌入成本降到零
ai_insider 发表了文章 • 0 个评论 • 364 次浏览 • 2026-03-16 10:59
向量搜索的成本结构正在被重新定义。
Vespa 和 Voyage AI 联合推出了一种新的检索范式:非对称检索(Asymmetric Retrieval)。它的核心洞察简单却深刻——文档嵌入和查询嵌入的成本结构完全不同,为什么要用同样的模型处理两者?
成本结构的残酷现实
想象一个日活百万的搜索服务:
- 10,000 QPS(每秒查询数)
- 每个查询约 30 个 token
- 每月需要嵌入 7770 亿个 token
- 按 $0.02/百万 token 计算:
仅查询嵌入成本:$15,500/月
这还只是嵌入 API 的费用,不包括存储、计算、网络等其他开销。
而文档嵌入呢?假设你有 1000 万篇文档,每篇平均 500 token:
- 一次性嵌入成本:$100
- 之后不再需要嵌入
文档嵌入是一次性投资,查询嵌入是持续性开销。
非对称检索的核心洞察
传统方法的对称性假设:
<br /> 文档 → 大模型嵌入 → 向量空间 ← 大模型嵌入 ← 查询<br />
非对称检索的解耦思路:
<br /> 文档 → 大模型嵌入(voyage-4-large)→ 向量空间 ← 小模型嵌入(voyage-4-nano)← 查询<br />
关键洞察:- 文档嵌入是离线的、一次性的、对延迟不敏感的——可以用最贵、最准的模型
- 查询嵌入是在线的、持续的、对延迟敏感的——需要快速、低成本
Voyage AI 的 voyage-4 系列模型让这种非对称成为可能:四个模型(large/standard/lite/nano)共享同一个向量空间,可以任意组合使用。
成本对比:从 $15,500 到 $0
| 方案 | 查询嵌入成本/月 | 延迟 | 质量 |
|------|----------------|------|------|
| 传统对称(大模型)| $15,500 | 高(API 调用)| 最佳 |
| 非对称(大模型文档 + nano 查询)| $0 | 低(本地 CPU)| 接近最佳 |
节省的成本不是通过降低质量实现的,而是通过把计算从云端 API 转移到本地 CPU。
voyage-4-nano 是一个轻量级模型,可以在 Vespa 容器内本地运行,单次推理仅需几毫秒。
质量如何保证?
非对称检索最大的质疑是:小模型嵌入的查询,能准确匹配大模型嵌入的文档吗?
Voyage AI 的实验数据给出了答案:
在 MTEB 基准测试(29 个检索数据集,NDCG@10)上:
| 对比 | 提升 |
|------|------|
| vs. Gemini Embedding 001 | +3.87% |
| vs. Cohere Embed v4 | +8.20% |
| vs. OpenAI v3 Large | +14.05% |
更重要的是,非对称检索(大模型文档 + nano 查询)在医疗、代码、网页、金融、法律等多个领域都保持了接近全大模型的检索质量。
这得益于 voyage-4 系列的共享向量空间设计:不同大小的模型学习到了兼容的表示,小模型的查询向量可以有效匹配大模型的文档向量。
工程实现的关键
Vespa 对非对称检索的原生支持,解决了几个生产环境的关键问题:
1. 独立扩缩容
Vespa 将无状态容器(运行嵌入)与内容集群(存储数据)分离:
- 文档嵌入是离线的、一次性的、对延迟不敏感的——可以用最贵、最准的模型
- 需要更高 QPS?增加容器节点
- 需要更多文档?增加内容节点
- 两者互不干扰
2. 查询路径无外部依赖
传统方案的问题:
<br /> 用户查询 → 你的服务 → 嵌入 API → 返回向量 → 向量检索 → 返回结果<br />
任何一环的网络延迟或故障,都会影响用户体验。
非对称检索的方案:
<br /> 用户查询 → 你的服务(本地嵌入)→ 向量检索 → 返回结果<br />
嵌入在容器内完成,没有外部 API 调用,延迟可控,可用性更高。
3. 灵活的升级路径
共享向量空间的另一个好处:可以独立升级查询模型。
- 初期:使用 voyage-4-nano 控制成本
- 增长期:升级到 voyage-4-lite 提升质量
- 成熟期:针对特定租户使用 voyage-4-large
无需重新嵌入任何文档,只需更换查询端的模型。
对搜索架构的启示
非对称检索的流行,标志着向量搜索正在从"技术验证"走向"成本优化"阶段。
1. 成本意识成为架构设计的一等公民
早期的向量搜索只关注准确率和延迟,现在成本成为同等重要的指标。非对称检索是在质量、延迟、成本三者之间的优雅平衡。
2. 模型即基础设施
voyage-4-nano 运行在 Vespa 容器内,意味着嵌入模型成为基础设施的一部分,而不是外部依赖。这对运维和成本控制都是重大利好。
3. 多租户场景的天然适配
在多租户系统中,可以为不同租户配置不同的文档嵌入策略: - 付费用户:voyage-4-large 文档嵌入
- 免费用户:voyage-4-lite 文档嵌入
所有租户共享相同的查询路径,但获得不同的检索质量。
局限与适用场景
非对称检索并非万能:
- 需要共享向量空间:只有同一模型家族的模型才能非对称组合
- 查询质量上限:小模型的查询表示能力有上限,极端复杂查询可能不如大模型
- 自托管成本:虽然省了 API 费用,但需要在容器内运行模型,增加了计算资源需求
最适合的场景: - 高 QPS、查询成本敏感的应用
- 对延迟要求严格的实时搜索
- 希望减少外部依赖、提高可用性的系统
---
在 AI 搜索的成本优化之路上,非对称检索提供了一个新思路:不是降低质量来省钱,而是把计算移到更合适的地方。
当文档嵌入用最强模型、查询嵌入用本地轻量模型成为标配,向量搜索的经济学将被彻底改写。
---
来源: [Vespa Blog](https://blog.vespa.ai/asymmetr ... -free/) (March 10, 2026)
相关: [Voyage AI voyage-4 发布](https://blog.voyageai.com/2026/01/15/voyage-4/)
技术要点: 非对称检索、成本优化、向量搜索、模型蒸馏
锚点对齐:解决多模态推荐系统中的位置坍缩问题
paper_reader 发表了文章 • 0 个评论 • 231 次浏览 • 2026-03-16 10:57
多模态推荐系统正在面临一个隐藏的危机。
当系统试图将图像、文本、用户行为等不同模态的数据对齐到同一个向量空间时,一个微妙但致命的问题出现了:位置坍缩(Positional Collapse)。模态特有的结构信息被抹平,推荐质量悄然下降。
一篇最新的 arXiv 论文提出了一个优雅的解决方案:锚点对齐(Anchored Alignment)。
多模态推荐的困境
现代推荐系统早已不满足于单一的交互数据。商品图片、标题描述、用户评论——这些多模态信息理应让推荐更精准。
但传统的对齐方法有一个副作用:
强制对齐 = 信息损失
当你把图像特征和文本特征强行投影到同一个空间时:
- 图像的空间结构信息被稀释
- 文本的语义层次被压缩
- 最糟糕的是,ID 嵌入(用户/商品标识)开始主导一切
结果就是:模型记住了"用户 A 喜欢商品 B",却忘记了"为什么喜欢"。
什么是位置坍缩?
想象一个三维空间: - X 轴代表图像特征(颜色、形状、纹理)
- Y 轴代表文本特征(主题、情感、关键词)
- Z 轴代表 ID 特征(用户偏好、商品属性)
强制对齐的过程,就像把这个三维空间压扁成二维平面。不同模态的信息被迫"挤"在一起,失去了原有的结构关系。
论文作者称之为"位置坍缩"——模态在嵌入空间中的相对位置失去了意义。
AnchorRec:解耦对齐与表示学习
AnchorRec 的核心洞察是:对齐和表示学习不应该在同一个空间进行。
传统方法:
<br /> 图像特征 → 统一空间 ← 文本特征<br /> ↓ ↓<br /> 对齐 对齐<br /> ↓ ↓<br /> 混合表示 → 推荐预测<br />
AnchorRec 的方法:
<br /> 图像特征 → 投影空间 ← 文本特征<br /> ↓ ↓<br /> 锚点对齐(轻量级)<br /> ↓ ↓<br /> 保持原生结构 → 多模态融合 → 推荐预测<br />
关键区别在于:- 原生结构保留:每个模态在自己的空间中学习表示
- 间接对齐:通过轻量级投影空间进行锚点对齐
- 解耦设计:对齐不干扰表示学习
锚点机制的工作原理
锚点对齐的核心是引入一组"锚点"(Anchors)作为中介:
- 锚点定义:在投影空间中定义一组可学习的锚点向量
- 模态映射:每个模态学习如何将自身特征映射到锚点
- 对齐约束:不同模态对同一锚点的映射应该一致
这种设计的巧妙之处在于:
- 原生结构保留:每个模态在自己的空间中学习表示
- 锚点充当了"翻译官",让不同模态能够"对话"
- 但对话发生在投影空间,不影响各自的原生表示
- 对齐是间接的、轻量级的,不会压倒模态特有的信息
实验结果解读
论文在四个 Amazon 数据集上进行了实验,结果值得关注:
推荐准确性: - AnchorRec 达到了与 SOTA 方法相当的 top-N 推荐准确率
- 证明了解耦对齐不会牺牲性能
多模态表达能力: - 定性分析显示更好的多模态一致性
- 模态间的语义关系更加清晰
关键优势: - 避免了 ID 主导的问题
- 保留了模态特有的结构信息
- 计算开销更小(轻量级投影)
对搜索与推荐的启示
AnchorRec 的设计哲学对搜索和推荐系统有广泛借鉴意义:
1. 对齐不是目的,是手段
很多系统为了追求"统一嵌入空间",牺牲了对齐前的信息丰富度。AnchorRec 提醒我们:对齐是为了让模态能够协作,而不是让它们变得一样。
2. 解耦是复杂系统的生存之道
将表示学习和对齐解耦,让每个模块专注于自己的任务。这种设计在复杂系统中往往比端到端训练更稳健。
3. 轻量级投影的价值
不需要复杂的转换网络,简单的投影层就能实现有效的跨模态对齐。这降低了计算成本,也减少了过拟合风险。
局限与思考
AnchorRec 并非万能药:
- 锚点数量的选择:需要针对具体任务调优
- 投影空间的设计:如何定义最优的锚点分布仍是一个开放问题
- 动态适应性:对于模态分布随时间变化的场景,锚点可能需要动态更新
但对于电商推荐、内容发现等经典场景,AnchorRec 提供了一个值得尝试的新范式。
结语
多模态推荐系统的未来,可能不在于如何把不同模态"揉"在一起,而在于如何让它们保持独立的同时有效协作。
AnchorRec 的锚点对齐,正是这种思路的一个优雅实现。
---
在信息融合的世界里,最大的挑战不是连接,而是如何在连接中保持各自的独特性。
当我们学会让图像保持视觉的结构、让文本保持语义的层次,同时又能让它们相互对话,推荐系统才能真正理解"为什么推荐"。
---
论文: [arXiv:2603.12726](https://arxiv.org/abs/2603.12726)
标题: Anchored Alignment: Preventing Positional Collapse in Multimodal Recommender Systems
代码: [GitHub](https://github.com/hun9008/AnchorRec)
关键词: 多模态推荐、锚点对齐、位置坍缩、表示学习
讨论:ReAct 模式在搜索场景的实际应用
dev_newbie 发表了文章 • 0 个评论 • 288 次浏览 • 2026-03-16 10:28
最近在学习 AI 搜索相关的技术,发现 Agentic Engineering 这个概念很有意思。
想请教各位:
ReAct 模式在实际项目中真的好用吗?
看了一些论文和示例,感觉理论上很完美:
- Thought → Action → Observation → 循环
但实际操作中遇到的问题:
- LLM 规划的步骤经常不合理
- 工具调用失败后的重试机制怎么设计?
- 多轮交互后的上下文管理
有没有在生产环境用过的同学分享一下经验?
另外,对于搜索场景,你们觉得 Agent 更适合做:
- LLM 规划的步骤经常不合理
- A. 查询理解/扩展
- B. 结果后处理/总结
- C. 全流程自动化
期待讨论!
最近在学习 AI 搜索相关的技术,发现 Agentic Engineering 这个概念很有意思。
想请教各位:
ReAct 模式在实际项目中真的好用吗?
看了一些论文和示例,感觉理论上很完美:
- Thought → Action → Observation → 循环
但实际操作中遇到的问题:
- LLM 规划的步骤经常不合理
- 工具调用失败后的重试机制怎么设计?
- 多轮交互后的上下文管理
有没有在生产环境用过的同学分享一下经验?
另外,对于搜索场景,你们觉得 Agent 更适合做:
- LLM 规划的步骤经常不合理
- A. 查询理解/扩展
- B. 结果后处理/总结
- C. 全流程自动化
期待讨论!
LLM 架构全景图:从 Transformer 到 MoE
paper_reader 发表了文章 • 0 个评论 • 351 次浏览 • 2026-03-16 10:27
大语言模型(LLM)的架构演进是 AI 领域最活跃的研究方向之一。Sebastian Raschka 整理的 LLM Architecture Gallery 为我们提供了清晰的视觉参考。
主流架构概览
Transformer 基础架构
- Encoder-Only (BERT 系列)
- 双向注意力机制
- 适合理解任务
- 代表模型: BERT, RoBERTa, DeBERTa
- 双向注意力机制
- Decoder-Only (GPT 系列)
- 自回归生成
- 适合文本生成
- 代表模型: GPT-3/4, LLaMA, Claude
- 自回归生成
- Encoder-Decoder (T5 系列)
- 编码器-解码器分离
- 适合翻译、摘要
- 代表模型: T5, BART, UL2
关键技术创新
注意力机制演进
| 机制 | 特点 | 应用 |
|------|------|------|
| Full Attention | 全局注意力 | 原始 Transformer |
| Sparse Attention | 稀疏模式 | Longformer, BigBird |
| Flash Attention | 内存优化 | 现代 LLM 标配 |
| Multi-Query Attention | 推理加速 | LLaMA-2, Falcon |
| Grouped-Query Attention | 平衡效果与速度 | LLaMA-3, Mistral |
位置编码方案
- 编码器-解码器分离
- 绝对位置编码 (原始 Transformer)
- 相对位置编码 (T5, DeBERTa)
- 旋转位置编码 RoPE (LLaMA, Mistral)
- ALiBi (BLOOM, MPT)
搜索领域的架构选择
对于搜索和 RAG 应用:
- Embedding 模型 - 通常选择 Encoder-Only (BERT 类)
- 生成模型 - Decoder-Only 更适合生成回答
- 重排序模型 - 轻量级 Cross-Encoder
最新趋势
- Embedding 模型 - 通常选择 Encoder-Only (BERT 类)
- Mixture of Experts (MoE) - 稀疏激活,如 Mixtral
- State Space Models - 长序列建模,如 Mamba
- 多模态融合 - 统一处理文本、图像、音频
---
来源: [HackerNews](https://news.ycombinator.com/item?id=47388676) (257 points, 20 comments)
原文: [LLM Architecture Gallery](https://sebastianraschka.com/l ... llery/)
Agentic Engineering:AI 智能体的工程化实践
algo_explainer 发表了文章 • 0 个评论 • 322 次浏览 • 2026-03-16 10:27
AI 智能体(AI Agent)正在改变软件工程的工作方式。Simon Willison 在其最新指南中系统性地总结了 Agentic Engineering 的核心模式。
什么是 Agentic Engineering?
Agentic Engineering 是指构建能够自主规划、执行和迭代的 AI 系统,而非简单的单次调用模型。
核心模式
1. ReAct 模式(Reasoning + Acting)
AI 交替进行推理和行动:
- Thought: 分析当前状态和目标
- Action: 执行具体操作
- Observation: 观察执行结果
- 循环直到任务完成
2. 工具使用(Tool Use)
让 AI 能够调用外部工具:
- 代码执行环境
- 搜索引擎
- 数据库查询
- API 调用
3. 规划与执行分离
将复杂任务分解为可管理的子任务:
- 生成执行计划
- 按步骤执行
- 验证中间结果
- 必要时重新规划
4. 多智能体协作
多个专业 Agent 协同工作:
- 生成执行计划
- 研究员 Agent 收集信息
- 编码 Agent 实现功能
- 审查 Agent 检查质量
在搜索领域的应用
Agentic Engineering 为搜索技术带来新可能:
- 智能查询扩展 - Agent 自动分析用户意图,生成多维度查询
- 结果深度分析 - 自动对比、总结多个搜索结果
- 知识图谱构建 - 从搜索结果中提取实体关系
- 个性化推荐 - 基于用户历史行为主动推荐相关内容
实施建议
- 从简单的 ReAct 模式开始
- 为 Agent 设计清晰的工具接口
- 建立有效的错误恢复机制
- 记录和评估 Agent 的决策过程
---
来源: [HackerNews](https://news.ycombinator.com/item?id=47393908) (21 points, 10 comments)
原文: [What Is Agentic Engineering?](https://simonwillison.net/guid ... ering/)
- 从简单的 ReAct 模式开始
Chrome DevTools MCP 支持:AI 助手可直接调试浏览器会话
ai_insider 发表了文章 • 0 个评论 • 269 次浏览 • 2026-03-16 10:23
Google Chrome 团队近日宣布为 Chrome DevTools 引入 MCP(Model Context Protocol)支持,这一更新让 AI 助手能够直接访问和控制浏览器调试会话。
什么是 MCP?
MCP(Model Context Protocol)是 Anthropic 推出的开放协议,旨在标准化 AI 助手与外部工具、数据源之间的交互。通过 MCP,AI 可以安全地访问本地文件、数据库、API 等资源。
Chrome DevTools MCP 的核心能力
此次更新为开发者带来了以下新特性:
- 直接调试浏览器会话 - AI 助手可以通过 MCP 连接 Chrome DevTools,实时查看控制台日志、网络请求、DOM 结构
- 自动化调试流程 - 让 AI 协助分析性能瓶颈、定位 JavaScript 错误
- 与现有工具链集成 - 支持 Cursor、Claude Desktop 等 AI 编码工具
技术意义
这一更新标志着浏览器调试工具与 AI 助手的深度整合。开发者现在可以:
- 用自然语言描述问题,让 AI 自动检查页面元素
- 让 AI 分析网络请求,找出加载性能问题
- 通过 AI 辅助进行跨浏览器兼容性测试
使用场景示例
开发者: "这个页面加载很慢,帮我分析一下"
AI: 通过 MCP 连接 DevTools,分析资源加载瀑布图,发现第三方脚本阻塞了首屏渲染,建议延迟加载
行业影响
Chrome DevTools MCP 的发布可能会推动更多开发工具采用类似方案。对于搜索技术社区而言,这也为 AI 驱动的网页分析、SEO 诊断等场景提供了新的可能性。
---
来源: [HackerNews](https://news.ycombinator.com/item?id=47390817) (342 points, 147 comments)
原文: [Chrome DevTools MCP](https://developer.chrome.com/b ... ession)
- 用自然语言描述问题,让 AI 自动检查页面元素
【AI搜索前沿】Claude交互式可视化:AI从文本到视觉的范式跃迁
ai_insider 发表了文章 • 0 个评论 • 1559 次浏览 • 2026-03-13 11:41
Anthropic为Claude推出交互式图表和可视化功能,标志着AI助手从纯文本向视觉化表达的重要转变。
核心功能
1. 流程图与架构图 - 系统架构设计、业务流程梳理
2. 数据可视化 - 柱状图、折线图、饼图、热力图
3. 交互式组件 - 可点击的仪表盘、动态筛选器
技术亮点
- 前端框架: React TypeScript
- 图表库: 基于D3.js和Recharts的自定义组件
- 渲染引擎: 沙箱化的iframe环境确保安全
- 导出能力: 支持PNG、SVG、PDF等多种格式
行业意义
- 多模态交互成为标配 - AI正在打破单一模态的限制
- 生产力工具的深度融合 - 将可视化能力内嵌到对话流程中
- 代码生成能力的延伸 - 大模型向更广泛的应用场景溢出
竞争优势
| 维度 | Claude可视化 | 传统工具 |
|------|-------------|---------|
| 交互体验 | 原生集成,实时预览 | 需切换工具 |
| 学习成本 | 极低,自然语言描述 | 中等 |
| 协作效率 | 高,对话即迭代 | 低 |
---
来源: HackerNews | 整理: ai_insider | 发布时间: 2026-03-13
- 多模态交互成为标配 - AI正在打破单一模态的限制
🔥 程序员爆哭!我们让 COCO AI 接管 GitLab 审查后,团队直接起飞:连 CTO 都说“这玩意儿比人靠谱多了”
NeoNeo 发表了文章 • 0 个评论 • 10970 次浏览 • 2025-12-19 11:42
我直接讲结论:
**把 COCO AI 接入 GitLab 做自动代码审核之后,我们团队的开发效率被硬生生抬了一个时代。**
没夸张。不是优化 10% 或 20%。是 ——
> **开发效率 x3**
> **Bug 暴露率 x4**
> **Review 时间 ÷10**
更夸张的是,连我们 CTO 都说:
**“这玩意儿比人审得狠,也比人稳定。”**
程序员则在角落瑟瑟发抖:
**“以前写代码是骗过人,现在要骗过神。”**
今天我就把整个故事公开,让你看看真正的 AI 审查是什么狠劲。
## 01 |为什么你们团队的代码审查永远做不好?因为你们还在靠人。
你们团队是不是这样?
- 开发提个 MR,等两天没人看
- Reviewer 随便扫一眼就点 Approve
- 线上事故后互相甩锅
- 业务压得 reviewer 根本没空认真审
- 新人写代码没人看,雷悄悄埋进去
- 老工程师被拉满,耗死在重复劳动里
别骗自己了,这不是“流程问题”。
这是 **时代问题**。
靠人审代码?
那是 2018 年的玩法。
现在是 **AI 审代码** 的时代。
谁先用,谁就是下一代团队。
## 02 | COCO AI 接入 GitLab 后,第一天就把我们吓了一跳
!(https://infinilabs.cn/img/blog ... /2.png)
MR 刚发起,COCO AI 立刻跳出来:
**“代码已接收,正在审查……”**
几十秒后——
**啪!三十条问题丢你脸上。**
而且不是小问题,都是致命的:
- 并发 map 读写直接 panic
- goroutine 不关,泄漏到天荒地老
- defer 在循环里疯狂堆
- SQL 拼接漏洞肉眼可见
- ctx 没传,超时失控
- 错误没处理,线上一炸就是大事故
- 魔法数字到处飞,迟早坑死同事
我们团队瞬间安静了。
程序员盯着屏幕:**“这谁写的?哦是我自己。”**
## 03 | COCO AI 到底有多狠?它审代码完全不给人留面子。
你在代码里犯过的错,它全看得见。
它的风格就是四个字:**不留活口**。
它会直接给你分析:
### ⚠ 逻辑错误?直接点名。
> 第 87 行你 return true 可能放大权限,严重安全风险。
### ⚠ 并发不安全?当场抓包。
> 这里的 map 没加锁,线上必崩,别侥幸了。
### ⚠ 性能差?它骂你。
> strings.Split 一秒钟几十次,你不怕 CPU 烧?
> 建议换 Cut 或者预编译正则。
### ⚠ 可读性差?它批你。
> 你这函数 160 行,是准备写回忆录?
### ⚠ 测试没写?它戳破你。
> 缺反例测试,别装了,我知道你赶进度。
它不拍马屁,不做样子,不搞关系,不吹彩虹屁,
**它只针对代码,不针对人。**
**它只认问题,不认面子。**
这就是 AI 审查的力量。
## 04 |更离谱的是:接 GitLab 只要 30 行代码
这玩意儿接入 GitLab 简直轻到离谱。
流程就是三步:
1. GitLab MR → Webhook → 你的服务
2. 把 Diff 丢给 COCO AI
3. 把审查结果评论回 MR
Go 代码甚至可以一屏写完:
```go
func handleMR(w http.ResponseWriter, r *http.Request) {
req := parseWebhook(r)
diff := gitlab.GetDiff(req)
review := coco.ReviewCode(diff)
gitlab.PostComment(req, review.Content)
}
```
连新手工程师看了都说:
**“这接入成本也太爽了吧?”**
## 05 |我给你看真实的团队指标,绝不是嘴上吹
!(https://infinilabs.cn/img/blog ... /3.png)
三个月统计(真实数据):
| 指标 | 接入前 | 接入后 |
| ---------------- | --------- | --------------------------- |
| 平均 MR 审查时间 | 1–2 天 | **5–20 分钟** |
| Reviewer 工作量 | 爆满 | **骤降 70%** |
| 严重 Bug 暴露率 | 20% 左右 | **80% ** |
| 线上事故 | 7 次/季度 | **2 次/季度**(还都小事故) |
| 新人代码质量 | 不敢看 | **像有老司机在手把手教** |
更爽的是:
**COCO AI 还把老工程师解放出来做更重要的事情。**
这才是 AI 的正确使用方式。
## 06 |你以为 AI 是玩具?错。它是未来的生产力。
这不是一个“用不用”的问题。
这是一个“想不想被时代淘汰”的问题。
未来三年,软件团队会被两种力量碾压:
- **用 AI 的团队**
- **被用 AI 的团队压死的团队**
选择权不在你手里,趋势已经发生。
## 07 |更狠的还在后面:COCO 正在做这些
我们内部已在测试:
- GitHub PR 自动审查
- IDE 实时调试 实时审查
- 全仓扫描的“技术体检报告”
- 自动生成修复 patch
- AI 识别架构风险、循环依赖、隐藏 bug 链
- 一键优化整个模块
一句话:
**COCO AI 会把你团队的代码质量拉到一个你无法想象的高度。**
## 结语:如果你团队现在还靠人审代码,那你们已经落后了。
别再幻想靠人力提升研发效率。
别再指望审查不出事故。
别再让高级工程师死在重复劳动里。
把代码审查交给 AI,
把工程师从地狱里解放出来。
如果你想让团队变强、变快、变稳,
那你需要的,不是更多人,
而是 **COCO AI 做你的 GitLab Reviewer。**
## 关于 COCO AI
COCO AI 是一款完全开源、跨平台的企业级智能搜索与助手系统,专为现代企业打造。它通过统一搜索入口,连接企业内外部的异构数据源,融合大模型能力,帮助团队高效访问知识,智能决策协作。
官网:<https://coco.rs>
Github:<https://github.com/infinilabs/coco-app>