LightHouse
LLM Research
  • 总览
  • Paper
    • 总览
    • 解耦推理与校准:DCPO 让 RLVR 模型不再盲目自信
    • IndexCache:跨层索引复用,砍掉 75% 稀疏注意力 Indexer 开销
    • IndexCache:砍掉 75% 稀疏注意力索引器,推理加速 1.82×
    • MM-Zero:零数据三角色自进化框架训练 VLM 推理
    • MOOSE-Star:把科学发现的训练复杂度从指数级降到对数级
    • 推理模型的悖论:少想反而更准——OPSDC 自蒸馏推理压缩
    • 思考即回忆:推理如何解锁 LLM 的隐藏知识
    • V₀.₅:用预训练 Value Model 先验 + 统计检验解决 RLVR 稀疏 Rollout 的方差爆炸
  • LLM 入门路线图:从零到读懂前沿论文
  • 01. 什么是大语言模型:从神经网络到文本生成
  • 02. Token 化:文本如何变成数字
  • 03. Embedding:从数字到向量空间
  • 04. Self-Attention:Transformer 的核心计算
  • 05. Multi-Head Attention 与 FFN:多头并行与知识存储
  • 06. 完整 Transformer 架构:残差、LayerNorm 与层堆叠
  • 07. MoE 混合专家模型:以小博大的架构
  • 08. 预训练与 SFT:模型是如何学会语言的
  • 09. 生成策略与推理优化:温度、Top-p、KV Cache
  • 02. 强化学习与后训练:从 RLHF 到 OAPL 的完整推导
  • 03. RAG、Agent 与推理扩展:从检索原理到 Test-Time Compute
  • 04. KARL 逐段导读:带着知识读原文
  • KARL:用强化学习训练知识搜索 Agent 的完整工程实践(深度解读)
Agent
  • 总览
  • Paper
    • 总览
    • ExeVRM:用执行视频给 Computer-Use Agent 打分
    • KARL:用多任务 RL 训练企业搜索 Agent,成本优于 Claude 4.6
    • Memory in the Age of AI Agents:当 Agent 学会"记忆"——一篇综述的深度研读
    • OpenClaw-RL:让 Agent 边用边学——用 Next-State Signal 统一所有交互类型的在线 RL 训练
    • RetroAgent:从"解题"到"进化"——回顾式双重内在反馈驱动 Agent 在线 RL
    • SkillNet:给 AI Agent 建一个技能仓库
  • 1M 上下文 GA — 长上下文如何重塑 Agent 架构
  • Codex Context Compaction 机制深度分析
  • 阿里 PageAgent 源码深度分析 — 纯 JS 页内 GUI Agent 的实现
  • SkillsBench 深度解读:7308 条轨迹告诉你,Agent Skills 到底有多大用
News
  • 总览
  • 03-14 早报|IndexCache 75% 砍掉稀疏注
  • 03-13 早报|V₀.₅ 用统计检验解决 RLVR 稀疏
  • 03-13 晚报|IndexCache 跨层复用削掉 75
  • 03-12 早报|MM-Zero 零数据三角色自进化 VL
  • 03-12 晚报|OpenClaw-RL 用对话信号在线训
  • 03-11 晚报|NVIDIA MM-Zero 实现零数据
  • 2026-03-11 15:23(UTC+8)|核心摘要:Google 揭示推理如何解锁 LLM 隐藏知识——'少想'不如'想对';Yann LeCun $10 亿豪赌世界模型;Cloudflare 一键全站爬虫 API 上线
  • 03-08 早报|OPSDC 用自蒸馏压缩推理链 57%
  • 03-07 早报|Claude Opus 4.6 两周挖出
  • 03-07 晚报|FlashAttention-4 为 B
  • 03-06 晚报|Agent 检索与验证范式继续收敛
  • 03-06 晚报|KARL 用 RL 训练企业搜索 Age
  • 03-06 早报|Reasoning-Aware Retr
  • 03-06 早报|GPT-5.4 发布与安全策略
  • 03-05 晚报|Qwen 核心团队出走震动开源生态
  • 03-05 晚报
Agent

Agent 研究

Agent 研究

AI Agent 相关的研究、分析与笔记。

文章列表

  • 1M 上下文 GA — 长上下文如何重塑 Agent 架构 — 理解长上下文如何从根本上改变 Agent 架构设计
  • Codex Context Compaction 机制分析 — OpenAI Codex 如何压缩上下文以支持长任务
  • 阿里 PageAgent 源码深度分析 — 纯 JS 页内 GUI Agent 如何不截图、不用多模态模型操控网页
上一篇KARL:用强化学习训练知识搜索 Agent 的完整工程实践(深度解读)
下一篇总览
目录
  • 文章列表