ai-scaling-laws-amodei

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

Scaling and the Road to Human-Level AI

AI扩展与通用人工智能之路

Strategic framework for understanding AI scaling laws and building products that leverage predictable AI capability improvements.

这是一个用于理解AI扩展定律，以及构建可利用可预测AI能力提升的产品的战略框架。

Core Concepts

核心概念

Two Phases of AI Training

AI训练的两个阶段

Pretraining: Models learn to predict the next token by imitating human-written text, understanding underlying correlations in data.

Reinforcement Learning (RL): Models are optimized based on human feedback, reinforcing helpful/honest/harmless behaviors and discouraging harmful ones.

Scaling laws exist for both phases—performance improves predictably with increased compute, data, and parameters.

预训练（Pretraining）：模型通过模仿人类文本学习预测下一个token，理解数据中的潜在关联。

强化学习（Reinforcement Learning, RL）：基于人类反馈对模型进行优化，强化有用、诚实、无害的行为，抑制有害行为。

两个阶段都存在扩展定律——性能会随着计算资源、数据和参数的增加而可预测地提升。

Key Metrics

关键指标

Task Horizon: Length/complexity of tasks AI can complete, measured in equivalent human time
Elo Scores: Rating system measuring model preference comparisons
Context Window: Amount of information processable in a single conversation

Task Horizon：AI可完成任务的长度/复杂度，以等效人类时间衡量
Elo Scores：用于衡量模型偏好对比的评分系统
Context Window：单次对话中可处理的信息量

Scaling Law Reliability

扩展定律的可靠性

Scaling laws have held across 5+ orders of magnitude with physics-level precision. When scaling appears broken, assume training implementation issues first, not fundamental limits.

扩展定律在5个以上数量级的范围内都保持了物理级别的精度。当扩展效果不符合预期时，首先考虑训练实现问题，而非根本性限制。

Strategic Decision Framework

战略决策框架

Assess Current AI Capabilities

评估当前AI能力

Use the two-axis capability framework:

Y-axis (Flexibility): What modalities can the model handle?
X-axis (Task Horizon): What equivalent human-time tasks can it complete?

Current trajectory: Task horizons double approximately every 7 months.

使用双轴能力框架：

Y轴（灵活性）：模型可处理哪些模态？
X轴（Task Horizon）：可完成等效人类多长时间的任务？

当前发展轨迹：Task Horizon大约每7个月翻倍一次。

Product Timing Strategy

产品时机战略

Current capability assessment:
├── Works reliably now → Build and ship immediately
├── Works 70-80% of time → Viable for error-tolerant use cases
├── Works marginally → Build now, ship when next model releases
└── Doesn't work at all → Wait 1-2 model generations

Key insight: Build products that don't quite work yet with current AI capabilities. Target capabilities slightly beyond current models—future models will make marginal products work.

Current capability assessment:
├── Works reliably now → Build and ship immediately
├── Works 70-80% of time → Viable for error-tolerant use cases
├── Works marginally → Build now, ship when next model releases
└── Doesn't work at all → Wait 1-2 model generations

核心洞察：开发当前AI能力尚不完善的产品。瞄准略超出现有模型的能力——未来模型将使这些边缘产品变得可用。

Use Case Selection Criteria

用例选择标准

Prioritize applications where:

70-80% accuracy is acceptable
Breadth of knowledge matters more than deep focus on one hard problem
Cross-domain synthesis creates value (biology + psychology + history)
Human review can catch and correct errors

Deprioritize applications requiring:

Near-perfect accuracy on first attempt
Deep specialized reasoning without verification
Tasks where errors compound catastrophically

优先选择以下应用场景：

70-80%的准确率可接受
知识广度比深度聚焦单一难题更重要
跨领域综合创造价值（如生物学+心理学+历史）
人工审核可发现并纠正错误

避免选择以下应用场景：

首次尝试就要求近乎完美的准确率
无需验证的深度专业推理
错误会引发灾难性连锁反应的任务

Human-AI Collaboration Model

人机协作模型

Role Division

角色划分

Position humans as managers and sanity-checkers:

AI generates options and drafts
Humans verify, select, and course-correct
AI's judgment-generation gap is smaller than humans'

将人类定位为管理者和合理性审核者：

AI生成选项和草稿
人类进行验证、选择和方向修正
AI的判断生成差距小于人类

Leverage AI's Strengths

利用AI的优势

Breadth over depth: AI excels at synthesizing information across many domains simultaneously. Target applications requiring:

Literature synthesis across fields
Pattern recognition across diverse data sources
Rapid exploration of solution spaces

广度胜于深度：AI擅长同时综合多个领域的信息。瞄准以下应用场景：

跨领域文献综合
多样化数据源的模式识别
解决方案空间的快速探索

Practical Workflow

实用工作流

Define the task scope and success criteria
Have AI generate initial approach/draft
Review for sanity and strategic alignment
Iterate with targeted corrections
Use AI to refine based on feedback

定义任务范围和成功标准
让AI生成初始方法/草稿
审核合理性和战略一致性
针对性修正迭代
利用AI基于反馈优化

Forecasting AI Capabilities

AI能力预测

Timeline Estimation Method

时间线估算方法

To estimate when a capability becomes viable:

1. Identify current task horizon (what length tasks work reliably)
2. Apply 7-month doubling rule
3. Calculate generations needed:
   - Hour-long tasks → Day-long tasks: ~3 doublings (~21 months)
   - Day-long tasks → Week-long tasks: ~3 doublings (~21 months)
   - Week-long tasks → Month-long tasks: ~4 doublings (~28 months)

To estimate when a capability becomes viable:

1. Identify current task horizon (what length tasks work reliably)
2. Apply 7-month doubling rule
3. Calculate generations needed:
   - Hour-long tasks → Day-long tasks: ~3 doublings (~21 months)
   - Day-long tasks → Week-long tasks: ~3 doublings (~21 months)
   - Week-long tasks → Month-long tasks: ~4 doublings (~28 months)

Self-Correction Multiplier

自我修正乘数

Each improvement in a model's ability to notice and correct its own mistakes roughly doubles task horizon length. Factor this into capability forecasts.

模型发现并纠正自身错误的能力每提升一次，Task Horizon长度大约翻倍。在能力预测中需考虑这一因素。

Integration Strategy

整合战略

Avoid the Steam Engine Mistake

避免蒸汽机谬误

Don't just replace existing processes with AI equivalents. Redesign entire systems around AI capabilities (electricity adoption analogy—factories were redesigned around electric motors, not just swapping steam for electric).

不要只是用AI等价物替换现有流程。要围绕AI能力重新设计整个系统（类似电力普及的类比——工厂是围绕电机重新设计的，而非简单用电力替换蒸汽）。

Accelerate Adoption

加速落地

Use AI to integrate AI into products and businesses. The bottleneck is adoption speed, not capability. When facing integration challenges:

Have AI analyze your current workflow
Identify substitution points and redesign opportunities
Prototype with AI assistance
Iterate rapidly

利用AI将AI整合到产品和业务中。瓶颈在于落地速度，而非能力。当面临整合挑战时：

让AI分析当前工作流
识别可替代点和重新设计的机会
借助AI进行原型开发
快速迭代

Jevons Paradox Awareness

杰文斯悖论意识

Expect that increased AI efficiency leads to increased consumption, not decreased cost. Plan for:

More AI usage as capabilities improve
New use cases emerging from better performance
Expanding scope rather than shrinking budgets

预期AI效率的提升会导致使用量增加，而非成本降低。需规划：

随着能力提升，AI使用量增加
性能提升带来新的用例
范围扩展而非预算缩减

Diagnostic Framework

诊断框架

When Scaling Appears Broken

当扩展效果不符合预期时

Before concluding a capability limit exists:

Verify training/prompting methodology
Check for data quality issues
Test with alternative approaches
Compare against scaling law predictions

Default assumption: Implementation issues, not fundamental limits.

在得出存在能力限制的结论前：

验证训练/提示方法
检查数据质量问题
测试替代方案
与扩展定律预测结果对比

默认假设：是实现问题，而非根本性限制。

Evaluating Model Improvements

评估模型改进

Compare new models against:

Expected scaling law trajectory
Task horizon benchmarks
Cross-domain performance consistency

Deviations from smooth improvement suggest training issues worth investigating.

将新模型与以下内容对比：

预期的扩展定律轨迹
Task Horizon基准
跨领域性能一致性

平滑提升出现偏差意味着值得调查训练问题。

Example Applications

应用示例

Product Development Decision

产品开发决策

Scenario: Building an AI code review tool

Assessment:
- Current models: Reliable for single-file reviews (~minutes)
- Target capability: Full PR reviews with context (~hours)
- Gap: ~2-3 doublings needed

Decision: Build now with single-file scope, architecture for expansion.
Ship current capability, expand automatically as models improve.

场景：构建AI代码审查工具

Assessment:
- Current models: Reliable for single-file reviews (~minutes)
- Target capability: Full PR reviews with context (~hours)
- Gap: ~2-3 doublings needed

Decision: Build now with single-file scope, architecture for expansion.
Ship current capability, expand automatically as models improve.

Capability Targeting

能力定位

Scenario: Choosing between deep analysis vs broad synthesis features

AI strength analysis:
- Deep focus on one hard problem: Human-competitive, not superior
- Synthesizing across 10 domains: Clear AI advantage

Decision: Prioritize cross-domain synthesis features.
Example: Research assistant that connects findings across biology,
psychology, and economics papers simultaneously.

场景：在深度分析与广度综合功能间选择

AI strength analysis:
- Deep focus on one hard problem: Human-competitive, not superior
- Synthesizing across 10 domains: Clear AI advantage

Decision: Prioritize cross-domain synthesis features.
Example: Research assistant that connects findings across biology,
psychology, and economics papers simultaneously.

Timeline Planning

时间线规划

Scenario: When will AI handle week-long research projects reliably?

Current state (2024): Hour-long tasks reliable
Doubling rate: ~7 months

Calculation:
- Hour → Day: 3 doublings = 21 months
- Day → Week: 3 doublings = 21 months
- Total: ~42 months (rough estimate)

Planning implication: Build infrastructure now, expect capability 2027-2028.

场景：AI何时能可靠处理周级研究项目？

Current state (2024): Hour-long tasks reliable
Doubling rate: ~7 months

Calculation:
- Hour → Day: 3 doublings = 21 months
- Day → Week: 3 doublings = 21 months
- Total: ~42 months (rough estimate)

Planning implication: Build infrastructure now, expect capability 2027-2028.