paper-digest
Compare original and translation side by side
🇺🇸
Original
English🇨🇳
Translation
ChinesePaper Digest
论文摘要工具
Single-paragraph summaries optimized for social sharing. Insight over information.
专为社交分享优化的单段摘要。重洞察而非信息罗列。
Structure
结构
- Context: What's the problem?
- Insight: What did they realize that others missed?
- Solution: How does insight → method? (should feel natural)
- Evidence: Concrete comparison showing it works
Then: Implication line + 📎 arxiv link
- 背景:研究要解决什么问题?
- 洞察:研究者发现了哪些他人忽略的关键点?
- 解决方案:如何将洞察转化为具体方法?(表述需自然流畅)
- 实证依据:能证明方案有效的具体对比数据
结尾添加:意义总结 + 📎 arXiv链接
Key Rules
核心规则
- Explain like reader is smart but unfamiliar with the domain
- Use concrete examples/analogies (e.g., "쓰레기통 역할" >> "특정 토큰에 집중")
- Show cause-and-effect chains explicitly
- Compare/contrast with alternatives ("X failed while Y succeeded")
- Bold 2-4 key concepts
- Match user's language (Korean/English)
- 假设读者具备一定认知但不熟悉该领域,用通俗语言解释
- 使用具体示例/类比(例如:用“垃圾桶角色”替代“专注特定token”)
- 明确展示因果关系链
- 与现有方案进行对比(如“X失败而Y成功”)
- 为2-4个核心概念添加粗体
- 匹配用户使用的语言(韩语/英语)
Example
示例
Input: arXiv 2601.15380
Output:
Transformer의 attention은 "어떤 토큰을 얼마나 볼지"를 결정하는데, 이 논문은 softmax attention을 **Entropic Optimal Transport(EOT)**라는 최적화 문제의 해로 재해석한다. 이 관점이 주는 통찰은: attention 계산에는 암묵적으로 "모든 위치가 동등하게 중요하다"는 uniform prior가 숨어있다는 것이다. 이게 왜 문제인가? LLM에서 첫 번째 토큰이 의미와 무관하게 엄청난 attention을 받는 attention sink 현상이 있다. Softmax는 합이 1인 확률을 출력해야 하므로, query가 마땅히 볼 토큰이 없을 때 attention을 "버릴 곳"이 필요한데, uniform prior 하에서 이를 구현하려면 첫 토큰의 key vector가 "나는 쓰레기통이야"라는 구조적 정보까지 담아야 한다—원래 semantic content만 표현해야 할 key의 표현력이 낭비되는 것이다. EOT 해석이 이 문제를 드러내주었으므로, 해결책도 자연스럽다: prior를 uniform에서 learnable로 바꾸면 된다. 이 논문이 제안하는 GOAT은 "각 위치의 기본 중요도"를 별도의 학습 가능한 항으로 분리해서, key vector는 순수하게 의미만, 위치 정보는 prior가 담당하게 한다. 실험에서 기존 방법들이 훈련 길이 초과 시 급격히 실패한 반면, GOAT은 긴 문맥에서도 정보 검색 성능을 유지했다.
Implication: EOT 관점은 attention의 숨겨진 가정을 드러내고, 그 가정을 바꿀 수 있다는 설계 자유도를 열어준다—attention sink는 uniform prior의 부산물이며, prior를 명시적으로 모델링하면 해결된다.
输入:arXiv 2601.15380
输出:
Transformer的注意力机制用于决定“关注哪些token以及关注程度”,本文将softmax注意力重新解释为**Entropic Optimal Transport(EOT)**这一优化问题的解。这一视角带来的核心洞察是:注意力计算中隐含着“所有位置同等重要”的均匀先验假设。这会引发什么问题?在大语言模型(LLM)中存在“注意力 sink”现象——第一个token会获得与其语义无关的大量注意力。由于Softmax需要输出总和为1的概率分布,当查询没有合适的token可关注时,就需要一个“消耗注意力的地方”;而在均匀先验假设下,要实现这一点,第一个token的key向量必须额外包含“我是垃圾桶”这样的结构信息——这就浪费了原本应仅用于表达语义内容的key向量的表达能力。EOT的解释揭示了这一问题,因此解决方案也随之自然产生:将均匀先验替换为可学习的先验即可。本文提出的GOAT方法将“各位置的基础重要性”拆分为独立的可学习项,让key向量仅专注于语义表达,位置信息则由先验项负责。实验结果显示,现有方法在超出训练长度的场景下性能会急剧下降,而GOAT在长语境下仍能维持信息检索性能。
意义总结:EOT视角揭示了注意力机制中隐藏的假设,并为调整这些假设提供了设计自由度——注意力sink是均匀先验的副产物,通过显式建模先验即可解决该问题。
Avoid
需避免的情况
- Jargon without intuition
- Findings without comparison to alternatives
- Method description without motivation ("왜 이렇게 했는지" 없이 "이렇게 했다"만)
- 只使用专业术语而不提供直观解释
- 仅展示研究结果而不与其他方案对比
- 只描述方法而不说明动机(只讲“做了什么”而不讲“为什么这么做”)
Multiple Papers
多论文摘要
When summarizing multiple papers:
- Lead with the unifying theme/problem
- Contrast what each paper realized differently
- Synthesize implications across papers
当总结多篇论文时:
- 先点明统一的主题/问题
- 对比各论文的不同发现
- 综合所有论文的意义
Language
语言适配
Match the user's language (Korean/English). Maintain the same insight-first structure regardless of language.
匹配用户使用的语言(韩语/英语)。无论使用何种语言,均需保持“洞察优先”的结构。