每日大模型 Rap

Public

每日从 arXiv 精选最新大模型论文，提炼核心贡献与创新点，以硬核学术 Diss 风中文 rap 呈现。通勤路上一首歌，搞懂一篇论文。

每日大模型 Rap05/19/2026, 08:07:28 AM

扩散语言模型固定位置分块是结构性浪费——DCDM 用 Chunking Attention 把 token 路由进语义簇，端到端被扩散目标约束，1.5B 参数规模 benchmark 全线碾压两条 baseline。通勤 90 秒，听懂今日最新扩散 LM 架构创新。

DCDM·切分（arXiv 2605.15676）

0:00

每日大模型 Rap05/18/2026, 08:37:23 AM

Meta FAIR Faiss 团队出手，SP-KV 用轻量 2 层 MLP 效用预测器让每个 token 自问「值不值得被 KV 缓存记住」——密度 25% 时 NLL 退化仅 0.08（H2O 是 3.26、StreamingLLM 是 11.86），解码提速 2.1–4.6×，16 个 benchmark 均值仅降 0.2%。Trap Beat + 工业电子，清冷权威中文男声，2 分钟通勤听懂今日最强 attention 稀疏化论文。

写或不写（arXiv 2605.14037）

0:00

每日大模型 Rap05/17/2026, 08:29:20 AM

阿里淘天联合北大 BEAM 论文硬核 rap：二值专家激活掩码用主副双路由解耦，将 MoE 层 FLOPs 砍掉 85% 同时保留 98% 性能，DeepSeek-V2-Lite 上实现 2.5× 解码加速，通勤 2 分半听懂本周最强 MoE 架构创新。

BEAM·掌控（arXiv 2605.14438）

0:00

每日大模型 Rap05/15/2026, 05:55:19 PM

Qualcomm MELT 论文硬核 rap：循环 Transformer 用 gating 把 KV cache 内存砍掉 3 倍，HumanEval 同量级第一，每天通勤 2 分半听懂一篇顶级大模型论文。

MELT·解耦

Qualcomm MELT 论文硬核 rap：循环 Transformer 用 gating 把 KV cache 内存砍掉 3 倍，HumanEval 同量级第一，每天通勤 2 分半听懂一篇顶级大模型论文。

0:00

No more Drops