paper-digest

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

Paper Digest

论文摘要工具

Single-paragraph summaries optimized for social sharing. Insight over information.

专为社交分享优化的单段摘要。重洞察而非信息罗列。

Structure

结构

Context: What's the problem?
Insight: What did they realize that others missed?
Solution: How does insight → method? (should feel natural)
Evidence: Concrete comparison showing it works

Then: Implication line + 📎 arxiv link

背景：研究要解决什么问题？
洞察：研究者发现了哪些他人忽略的关键点？
解决方案：如何将洞察转化为具体方法？（表述需自然流畅）
实证依据：能证明方案有效的具体对比数据

结尾添加：意义总结 + 📎 arXiv链接

Key Rules

核心规则

Explain like reader is smart but unfamiliar with the domain
Use concrete examples/analogies (e.g., "쓰레기통 역할" >> "특정 토큰에 집중")
Show cause-and-effect chains explicitly
Compare/contrast with alternatives ("X failed while Y succeeded")
Bold 2-4 key concepts
Match user's language (Korean/English)

假设读者具备一定认知但不熟悉该领域，用通俗语言解释
使用具体示例/类比（例如：用“垃圾桶角色”替代“专注特定token”）
明确展示因果关系链
与现有方案进行对比（如“X失败而Y成功”）
为2-4个核心概念添加粗体
匹配用户使用的语言（韩语/英语）

Example

示例

Input: arXiv 2601.15380

Output:

Transformer의 attention은 "어떤 토큰을 얼마나 볼지"를 결정하는데, 이 논문은 softmax attention을 **Entropic Optimal Transport(EOT)**라는 최적화 문제의 해로 재해석한다. 이 관점이 주는 통찰은: attention 계산에는 암묵적으로 "모든 위치가 동등하게 중요하다"는 uniform prior가 숨어있다는 것이다. 이게 왜 문제인가? LLM에서 첫 번째 토큰이 의미와 무관하게 엄청난 attention을 받는 attention sink 현상이 있다. Softmax는 합이 1인 확률을 출력해야 하므로, query가 마땅히 볼 토큰이 없을 때 attention을 "버릴 곳"이 필요한데, uniform prior 하에서 이를 구현하려면 첫 토큰의 key vector가 "나는 쓰레기통이야"라는 구조적 정보까지 담아야 한다—원래 semantic content만 표현해야 할 key의 표현력이 낭비되는 것이다. EOT 해석이 이 문제를 드러내주었으므로, 해결책도 자연스럽다: prior를 uniform에서 learnable로 바꾸면 된다. 이 논문이 제안하는 GOAT은 "각 위치의 기본 중요도"를 별도의 학습 가능한 항으로 분리해서, key vector는 순수하게 의미만, 위치 정보는 prior가 담당하게 한다. 실험에서 기존 방법들이 훈련 길이 초과 시 급격히 실패한 반면, GOAT은 긴 문맥에서도 정보 검색 성능을 유지했다.

Implication: EOT 관점은 attention의 숨겨진 가정을 드러내고, 그 가정을 바꿀 수 있다는 설계 자유도를 열어준다—attention sink는 uniform prior의 부산물이며, prior를 명시적으로 모델링하면 해결된다.

📎 https://arxiv.org/abs/2601.15380

输入：arXiv 2601.15380

输出:

Transformer的注意力机制用于决定“关注哪些token以及关注程度”，本文将softmax注意力重新解释为**Entropic Optimal Transport(EOT)**这一优化问题的解。这一视角带来的核心洞察是：注意力计算中隐含着“所有位置同等重要”的均匀先验假设。这会引发什么问题？在大语言模型（LLM）中存在“注意力 sink”现象——第一个token会获得与其语义无关的大量注意力。由于Softmax需要输出总和为1的概率分布，当查询没有合适的token可关注时，就需要一个“消耗注意力的地方”；而在均匀先验假设下，要实现这一点，第一个token的key向量必须额外包含“我是垃圾桶”这样的结构信息——这就浪费了原本应仅用于表达语义内容的key向量的表达能力。EOT的解释揭示了这一问题，因此解决方案也随之自然产生：将均匀先验替换为可学习的先验即可。本文提出的GOAT方法将“各位置的基础重要性”拆分为独立的可学习项，让key向量仅专注于语义表达，位置信息则由先验项负责。实验结果显示，现有方法在超出训练长度的场景下性能会急剧下降，而GOAT在长语境下仍能维持信息检索性能。

意义总结：EOT视角揭示了注意力机制中隐藏的假设，并为调整这些假设提供了设计自由度——注意力sink是均匀先验的副产物，通过显式建模先验即可解决该问题。

📎 https://arxiv.org/abs/2601.15380

Avoid

需避免的情况

Jargon without intuition
Findings without comparison to alternatives
Method description without motivation ("왜 이렇게 했는지" 없이 "이렇게 했다"만)

只使用专业术语而不提供直观解释
仅展示研究结果而不与其他方案对比
只描述方法而不说明动机（只讲“做了什么”而不讲“为什么这么做”）

Multiple Papers

多论文摘要

When summarizing multiple papers:

Lead with the unifying theme/problem
Contrast what each paper realized differently
Synthesize implications across papers

当总结多篇论文时：

先点明统一的主题/问题
对比各论文的不同发现
综合所有论文的意义

Language

语言适配

Match the user's language (Korean/English). Maintain the same insight-first structure regardless of language.

匹配用户使用的语言（韩语/英语）。无论使用何种语言，均需保持“洞察优先”的结构。