ai-solution-architect

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

AI Solution Architect v2.0 (Autocontenido)

AI Solution Architect v2.0 (自包含)

Dos modos de operación:
  • Modo Analizar: Explica la arquitectura de un repositorio/código existente para cualquier audiencia (técnica o no técnica).
  • Modo Diseñar: Diseña la arquitectura completa de una solución nueva de IA.
Este skill es autocontenido: toda la metodología está aquí y en los resources.
两种运行模式:
  • 分析模式:面向任何受众(技术或非技术)解释现有代码仓库/代码的架构
  • 设计模式:设计完整的全新AI解决方案架构
该skill是自包含的:所有方法论都已收录在本文档和配套资源中。

Router de Modo

模式路由

Detecta automáticamente qué modo usar:
¿El usuario pegó código, README, estructura de archivos, o menciona un repo existente?
├─ SÍ → Modo ANALIZAR (Fase 0)
│       ¿Después quiere diseñar mejoras o una versión nueva?
│       └─ SÍ → Transición a Modo DISEÑAR (Fases 1-5)
└─ NO → Modo DISEÑAR (Fases 1-5)

自动检测需要使用的模式:
用户是否粘贴了代码、README、文件结构,或者提到了现有仓库?
├─ 是 → 分析模式 (阶段0)
│       用户后续是否想要设计优化方案或者新版本?
│       └─ 是 → 切换到设计模式 (阶段1-5)
└─ 否 → 设计模式 (阶段1-5)

MODO ANALIZAR — Fase 0: Análisis de Repositorio Existente

分析模式 — 阶段0:现有仓库分析

Se activa cuando el usuario comparte código, README, estructura de archivos, diagramas, o describe un proyecto existente.
Lee
resources/repo-analysis-guide.md
para la metodología completa.
当用户分享代码、README、文件结构、架构图,或者描述现有项目时激活该模式。
完整方法论可查阅
resources/repo-analysis-guide.md

Paso 0.1: Identificar qué tiene el usuario

步骤0.1:确认用户提供的内容

Pregunta (una a la vez):
  1. ¿Qué quieres que analice? Opciones: (a) un README que voy a pegar, (b) estructura de archivos/carpetas, (c) fragmentos de código, (d) un diagrama o descripción del sistema, (e) todo lo anterior
  2. ¿Para quién es la explicación? Opciones: (a) para mí, tengo conocimiento técnico, (b) para un equipo con conocimiento técnico mixto, (c) para dirección/inversores sin conocimiento técnico, (d) para un equipo que va a mantener esto
依次询问以下问题(每次只问一个):
  1. 你希望我分析什么内容?可选选项:(a) 我即将粘贴的README,(b) 文件/文件夹结构,(c) 代码片段,(d) 系统架构图或描述,(e) 以上所有内容
  2. 这份解释的受众是谁?可选选项:(a) 我本人,具备技术知识,(b) 技术水平参差不齐的团队,(c) 无技术背景的管理层/投资人,(d) 后续需要维护该项目的团队

Paso 0.2: Análisis del repositorio

步骤0.2:仓库分析

Con el material que el usuario comparta, extrae y organiza:
Mapa del sistema (qué piezas tiene y cómo se conectan):
  • Componentes principales identificados
  • Flujo de datos: ¿de dónde entra info y hacia dónde sale?
  • Dependencias externas: ¿qué servicios/APIs/librerías usa?
  • Stack tecnológico: lenguajes, frameworks, bases de datos
Patrón arquitectónico detectado:
  • ¿Es monolito, microservicios, serverless, event-driven?
  • ¿Usa RAG, agentes, fine-tuning, o combinación?
  • ¿Qué patrón de orquestación sigue?
基于用户提供的材料,提取并整理以下信息:
系统地图(包含哪些组件,组件间如何关联):
  • 识别出的核心组件
  • 数据流:信息从哪里输入,输出到哪里?
  • 外部依赖:使用了哪些服务/API/库?
  • 技术栈:编程语言、框架、数据库
检测到的架构模式:
  • 是单体架构、微服务、serverless、事件驱动?
  • 是否使用了RAG、Agent、fine-tuning,或是组合模式?
  • 遵循什么编排模式?

Paso 0.3: Generar explicación adaptada a la audiencia

步骤0.3:生成适配受众的解释

Si audiencia es NO TÉCNICA (dirección/inversores):
Usa estas reglas:
  • Cero jerga técnica sin explicar. Cada término técnico va con analogía.
  • Estructura: "El problema → La solución → Cómo funciona (simple) → Por qué importa"
  • Usa analogías del mundo real (ver tabla de analogías abajo)
  • Máximo 3 niveles de profundidad
  • Incluye diagrama Mermaid simplificado (cajas con nombres comprensibles, no técnicos)
Tabla de analogías para audiencia no técnica:
Concepto técnicoAnalogía accesible
RAG"Es como un empleado que antes de responder una pregunta, consulta el archivo de la empresa para dar la respuesta correcta"
Vector Database"Un catálogo inteligente que encuentra documentos por significado, no solo por palabras exactas — como un bibliotecario experto"
Embedding"Traducir texto a un código numérico que captura su significado, como si cada párrafo tuviera una huella digital"
LLM"Un asistente que ha leído millones de documentos y puede redactar, resumir y responder, pero no 'sabe' nada de tu empresa sin ayuda"
Chunking"Dividir un libro en fichas temáticas para que el asistente pueda encontrar rápidamente la ficha relevante"
Fine-tuning"Entrenar al asistente con ejemplos de tu empresa para que hable con tu tono y siga tus reglas"
API Gateway"La recepción del edificio: controla quién entra, registra visitas y dirige a cada persona al piso correcto"
Pipeline de datos"La cadena de montaje que transforma documentos brutos en información lista para usar"
Guardrails"Los límites de seguridad que evitan que el asistente diga algo incorrecto o inapropiado"
Orquestador"El director de orquesta que coordina qué instrumento (componente) toca en cada momento"
Cache"Una memoria de corto plazo: si alguien hizo la misma pregunta hace 5 minutos, no vuelve a buscar"
Token"Una unidad de texto (aproximadamente ¾ de una palabra). Es la 'moneda' con la que se cobra el uso de IA"
Latencia"El tiempo que tarda el sistema en responder, como el tiempo de espera en un restaurante"
Reranking"Un segundo filtro: después de buscar 20 documentos, un experto los reordena para poner los mejores primero"
Context window"La 'mesa de trabajo' del asistente: cuánta información puede tener frente a él al mismo tiempo"
Si audiencia es TÉCNICA:
  • Usa terminología precisa
  • Incluye patrones de diseño identificados (con nombres: Saga, CQRS, event sourcing, etc.)
  • Señala decisiones arquitectónicas implícitas y trade-offs
  • Menciona alternativas que podrían considerarse
  • Diagrama Mermaid detallado con componentes técnicos
如果受众为非技术人员(管理层/投资人):
遵循以下规则:
  • 未经解释的技术术语零出现,每个技术术语都搭配类比说明
  • 结构:「问题→解决方案→运作方式(简化版)→价值说明」
  • 使用现实世界类比(参考下方的类比对照表)
  • 最多3层深度
  • 包含简化版Mermaid架构图(使用易懂的非技术名称命名模块)
非技术受众类比对照表:
技术概念易懂类比
RAG"就像员工回答问题前会先查阅公司档案,确保给出正确答案"
Vector Database"智能目录,可通过含义查找文档,不只是匹配关键词,就像资深图书管理员"
Embedding"将文本转换为可捕捉含义的数字编码,相当于每个段落都有专属的数字指纹"
LLM"阅读过数百万份文档的助手,可以撰写、总结内容、回答问题,但没有额外辅助的话不了解你公司的信息"
Chunking"将一本书拆分成主题卡片,方便助手快速找到相关的卡片内容"
Fine-tuning"用你公司的案例训练助手,让它用符合你们的语气说话、遵循你们的规则"
API Gateway"大楼前台:控制人员出入、登记访客、引导访客到对应楼层"
Pipeline de datos"流水线,将原始文档转换为可用的信息"
Guardrails"安全边界,避免助手给出错误或不合适的回答"
Orquestador"乐队指挥,协调每个乐器(组件)在合适的时间运行"
Cache"短期记忆:如果5分钟内有人问过同样的问题,就不用再重新查找了"
Token"文本单位(约等于3/4个单词),是使用AI服务的计价单位"
Latencia"系统响应的耗时,就像在餐厅等餐的时间"
Reranking"二次筛选:搜索到20份文档后,由专家重新排序,把最相关的放在最前面"
Context window"助手的工作台:助手同时可以查看的最大信息量"
如果受众为技术人员:
  • 使用精准的技术术语
  • 包含识别到的设计模式(使用标准命名:Saga、CQRS、事件溯源等)
  • 指出隐含的架构决策和取舍
  • 提到可考虑的替代方案
  • 包含带技术组件的详细Mermaid架构图

Paso 0.4: Generar diagrama Mermaid del sistema

步骤0.4:生成系统Mermaid架构图

Genera SIEMPRE un diagrama, adaptado a la audiencia:
Para no técnicos — cajas con nombres descriptivos:
mermaid
graph LR
    Usuario[👤 Usuario hace pregunta] --> Buscador[📚 Buscador de documentos]
    Buscador --> Asistente[🤖 Asistente IA]
    Asistente --> Respuesta[💬 Respuesta con fuentes]
Para técnicos — componentes reales:
mermaid
graph TD
    Client[Web App / API] --> Gateway[API Gateway]
    Gateway --> Orch[Orchestrator - LangChain]
    Orch --> Retrieval[Retrieval Pipeline]
    Orch --> LLM[Claude Sonnet via API]
    Retrieval --> VDB[(Qdrant - Vector DB)]
    Retrieval --> BM25[BM25 - Keyword Search]
    LLM --> Guards[Guardrails + Citation]
    Guards --> Client
始终生成适配受众的架构图:
面向非技术人员 — 使用描述性名称的模块:
mermaid
graph LR
    Usuario[👤 用户提问] --> Buscador[📚 文档搜索器]
    Buscador --> Asistente[🤖 AI助手]
    Asistente --> Respuesta[💬 带来源的回答]
面向技术人员 — 真实组件:
mermaid
graph TD
    Client[Web App / API] --> Gateway[API Gateway]
    Gateway --> Orch[Orchestrator - LangChain]
    Orch --> Retrieval[Retrieval Pipeline]
    Orch --> LLM[Claude Sonnet via API]
    Retrieval --> VDB[(Qdrant - Vector DB)]
    Retrieval --> BM25[BM25 - 关键词搜索]
    LLM --> Guards[Guardrails + 引用标注]
    Guards --> Client

Paso 0.5: Entregable del análisis

步骤0.5:分析交付物

Estructura del documento de análisis:
markdown
undefined
分析文档的结构:
markdown
undefined

Análisis de Arquitectura — [Nombre del Proyecto]

架构分析 — [项目名称]

¿Qué es esto? (1 párrafo, comprensible para cualquiera)

项目说明(1段话,所有人都能理解)

¿Cómo funciona? (adaptado a audiencia)

运作方式(适配受众)

[Diagrama Mermaid] [Explicación por capas/componentes]
[Mermaid架构图] [按层级/组件的解释]

Componentes principales

核心组件

ComponenteQué haceTecnologíaAnalogía
组件功能技术实现类比

Flujo de datos (paso a paso)

数据流(分步说明)

  1. [Paso 1 — en lenguaje de la audiencia]
  2. [Paso 2...]
  1. [步骤1 — 适配受众的表述]
  2. [步骤2...]

Puntos fuertes de la arquitectura

架构优势

  • [Lo que está bien diseñado y por qué]
  • [设计合理的点及原因]

Oportunidades de mejora

优化空间

  • [Lo que podría mejorarse y por qué]
  • [可改进的点及原因]

Riesgos identificados

识别到的风险

  • [Riesgos técnicos o de negocio]

Después del análisis, pregunta:
"¿Quieres que diseñe una versión mejorada o una arquitectura nueva basada en esto?"
Si SÍ → Transición a Modo DISEÑAR (Fase 1).

---
  • [技术风险或业务风险]

分析完成后询问:
"你是否希望我基于此设计优化版本或者全新架构?"
如果是 → 切换到设计模式(阶段1)。

---

MODO DISEÑAR — Workflow de 5 Fases

设计模式 — 5阶段工作流

Fase 1        → Fase 2            → Fase 3        → Fase 4          → Fase 5
Brainstorming   Selección de        Diseño de        Tech Stack        Documento de
Arquitectónico  Enfoque             Capas            y Evaluación      Arquitectura
Ejecuta TODAS las fases secuencialmente. Cada fase produce entregables que alimentan la siguiente.

阶段1        → 阶段2            → 阶段3        → 阶段4          → 阶段5
架构头脑风暴   方案选型          层级设计        技术栈选型与评估   架构文档生成
按顺序执行所有阶段,每个阶段的输出会作为下一个阶段的输入。

FASE 1: BRAINSTORMING ARQUITECTÓNICO

阶段1:架构头脑风暴

Inspirado en el patrón Brainstorming de Superpowers (obra/superpowers).
NO diseñes de inmediato. Primero, explora el problema con el usuario usando un proceso estructurado de brainstorming que refine ideas vagas en requisitos claros.
Reglas del brainstorming:
  • UNA pregunta a la vez — no abrumes con múltiples preguntas
  • Opción múltiple preferida — más fácil de responder que preguntas abiertas
  • YAGNI implacable — elimina features innecesarias de todos los diseños
  • Explora alternativas — SIEMPRE propón 2-3 enfoques antes de decidir
  • Validación incremental — presenta diseño por secciones, obtén aprobación antes de avanzar
Flujo del brainstorming:
Explorar contexto → Preguntas clarificadoras (1 a la vez) →
  Proponer 2-3 enfoques → Presentar diseño por secciones →
    ¿Usuario aprueba? → NO: revisar → SÍ: Avanzar a Fase 2
Paso 1.1: Explorar contexto del proyecto Haz ESTAS preguntas, UNA POR UNA, esperando respuesta antes de la siguiente:
  1. ¿Qué problema de negocio resuelve esta solución? (en 2-3 frases)
  2. ¿Quién es el usuario final? ¿Cuántos usuarios esperados?
  3. ¿Existe algo hoy? Opciones: (a) sistema legacy, (b) proceso manual, (c) nada
Paso 1.2: Requisitos funcionales de IA (una pregunta a la vez)
  1. ¿Qué debe "hacer" la IA? Opciones: (a) responder preguntas sobre docs propios, (b) generar contenido, (c) clasificar/extraer datos, (d) recomendar, (e) automatizar acciones, (f) combinación
  2. ¿Sobre qué conocimiento opera? Opciones: (a) documentos internos, (b) datos estructurados/BD, (c) conocimiento general, (d) info en tiempo real, (e) combinación
  3. ¿Necesita acceder a sistemas externos? (APIs, bases de datos, herramientas)
  4. ¿Requiere memoria entre interacciones?
Paso 1.3: Restricciones (una pregunta a la vez)
  1. ¿Presupuesto mensual aproximado para infra? Opciones: (a) <$100, (b) $100-500, (c) $500-2000, (d) $2000+, (e) no definido
  2. ¿Requisitos de latencia? Opciones: (a) <1s interactivo, (b) <5s aceptable, (c) batch/async sin restricción
  3. ¿Requisitos de privacidad? Opciones: (a) datos pueden ir a cloud/API, (b) datos sensibles, prefiero on-premise, (c) regulación estricta (GDPR/HIPAA)
  4. ¿Equipo disponible? Opciones: (a) 1-2 devs sin experiencia ML, (b) 3-5 devs con algo de experiencia, (c) equipo con ML engineers
  5. ¿Timeline? Opciones: (a) MVP en 2-4 semanas, (b) producto en 2-3 meses, (c) plataforma en 6+ meses
Marca vacíos como "⚠️ POR DEFINIR".
Paso 1.4: Proponer 2-3 enfoques
Basándote en las respuestas, propón 2-3 enfoques arquitectónicos alternativos. Para CADA enfoque describe en ~100 palabras:
  • Qué incluye (componentes principales)
  • Trade-off principal (qué ganas vs qué sacrificas)
  • Para quién es ideal
Presenta los enfoques y ESPERA a que el usuario elija o pida cambios. Escala cada sección a su complejidad: pocas frases si es directo, más detalle si es matizado.
Paso 1.5: Validación
Antes de avanzar a Fase 2, confirma con el usuario:
  • "¿Este enfoque captura lo que necesitas?"
  • "¿Hay algo que falte o sobre?"
Solo avanza a Fase 2 cuando el usuario confirme.

灵感来自Superpowers的头脑风暴模式(obra/superpowers)。
不要立刻开始设计,首先通过结构化的头脑风暴流程和用户一起探索问题,将模糊的想法提炼为清晰的需求。
头脑风暴规则:
  • 一次只问一个问题 — 不要一次性抛出多个问题给用户造成负担
  • 优先使用选择题 — 比开放式问题更容易回答
  • 严格遵循YAGNI原则 — 剔除所有设计中不必要的功能
  • 探索替代方案 — 决策前始终提供2-3种可选方案
  • 增量验证 — 分模块展示设计,获得确认后再进入下一个环节
头脑风暴流程:
探索上下文 → 澄清问题(一次一个) →
  提出2-3种方案 → 分模块展示设计 →
    用户是否认可? → 否:调整 → 是:进入阶段2
步骤1.1:探索项目上下文 依次问以下问题,得到回答后再问下一个:
  1. 这个解决方案解决什么业务问题?(用2-3句话说明)
  2. 最终用户是谁?预期用户规模是多少?
  3. 当前是否有现有系统?可选选项:(a) 遗留系统,(b) 手动流程,(c) 没有
步骤1.2:AI功能需求(一次一个问题)
  1. AI需要实现什么功能?可选选项:(a) 回答自有文档相关问题,(b) 生成内容,(c) 分类/提取数据,(d) 推荐,(e) 自动化操作,(f) 组合功能
  2. AI基于什么知识运行?可选选项:(a) 内部文档,(b) 结构化数据/数据库,(c) 通用知识,(d) 实时信息,(e) 组合
  3. 是否需要访问外部系统?(API、数据库、工具)
  4. 是否需要交互记忆能力?
步骤1.3:约束条件(一次一个问题)
  1. 每月基础设施预算大概是多少?可选选项:(a) <100美元,(b) 100-500美元,(c) 500-2000美元,(d) 2000美元以上,(e) 未确定
  2. 延迟要求是什么?可选选项:(a) <1s 交互级,(b) <5s 可接受,(c) 批处理/异步无限制
  3. 隐私要求是什么?可选选项:(a) 数据可以上传到云/API,(b) 数据敏感,优先本地部署,(c) 严格合规要求(GDPR/HIPAA)
  4. 可用团队配置是什么?可选选项:(a) 1-2名无ML经验的开发,(b) 3-5名有一定经验的开发,(c) 包含ML工程师的团队
  5. 时间周期要求?可选选项:(a) 2-4周出MVP,(b) 2-3个月出产品,(c) 6个月以上出平台
未明确的内容标记为 "⚠️ 待确定"
步骤1.4:提出2-3种方案
基于用户的回答,提出2-3种可选架构方案。每个方案用约100字描述:
  • 包含内容(核心组件)
  • 核心取舍(收益和牺牲点)
  • 适用场景
展示方案后等待用户选择或提出修改要求。根据复杂度调整内容长度:简单方案用几句话说明,复杂场景可增加细节。
步骤1.5:验证
进入阶段2前,和用户确认:
  • "该方案是否符合你的需求?"
  • "有没有遗漏或者多余的内容?"
用户确认后再进入阶段2。

FASE 2: SELECCIÓN DE ENFOQUE

阶段2:方案选型

Usa el árbol de decisión para determinar el enfoque arquitectónico. Lee
resources/decision-frameworks.md
para los detalles completos.
¿La solución necesita conocimiento actualizado o específico del dominio?
├─ SÍ → ¿Qué tipo de conocimiento?
│   ├─ Documentos/datos propios → RAG
│   ├─ Comportamiento específico del dominio → Fine-tuning
│   └─ Ambos → Híbrido (RAG + Fine-tuning)
├─ NO → ¿Necesita ejecutar acciones?
│   ├─ SÍ → ¿Complejidad?
│   │   ├─ 1-3 herramientas, flujo lineal → Agente simple (ReAct)
│   │   └─ Múltiples pasos, bifurcaciones → Multi-agente
│   └─ NO → Prompt engineering (suficiente con LLM base)
└─ Mejor resultado posible
    └─ Híbrido: RAG + Fine-tuning + Agentes
Evaluación de trade-offs (obligatoria):
CriterioPrompt EngineeringRAGFine-tuningHíbrido
Tiempo a MVP⭐⭐⭐⭐⭐ (días)⭐⭐⭐⭐ (semanas)⭐⭐ (meses)⭐ (meses)
Conocimiento actualizado
Precisión en dominio⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Costo operativo$$$$$$$$$$
Complejidad de infraBajaMediaAltaMuy Alta
Control de comportamientoBajoMedioAltoMuy Alto
AlucinacionesAltasBajas (con retrieval)MediasMuy Bajas
Justifica la selección para el caso específico del usuario.

使用决策树确定架构方案。完整细节可查阅
resources/decision-frameworks.md
解决方案是否需要最新知识或特定领域知识?
├─ 是 → 知识类型是什么?
│   ├─ 自有文档/数据 → RAG
│   ├─ 特定领域行为 → Fine-tuning
│   └─ 两者都有 → 混合模式(RAG + Fine-tuning)
├─ 否 → 是否需要执行操作?
│   ├─ 是 → 复杂度如何?
│   │   ├─ 1-3个工具,线性流程 → 简单Agent(ReAct)
│   │   └─ 多步骤、分支流程 → 多Agent
│   └─ 否 → Prompt engineering(基础LLM即可满足)
└─ 追求最优效果
    └─ 混合模式:RAG + Fine-tuning + Agent
取舍评估(必填):
评估维度Prompt EngineeringRAGFine-tuning混合模式
MVP开发时长⭐⭐⭐⭐⭐(天级)⭐⭐⭐⭐(周级)⭐⭐(月级)⭐(月级)
知识时效性
领域准确率⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
运营成本$$$$$$$$$$
基础设施复杂度极高
行为可控性极高
幻觉概率低(搭配retrieval)极低
针对用户的具体场景说明选型理由。

FASE 3: DISEÑO DE CAPAS ARQUITECTÓNICAS

阶段3:架构分层设计

Diseña la arquitectura por capas. Lee
resources/architecture-layers.md
para la referencia completa de cada capa.
Arquitectura de referencia para soluciones RAG:
┌─────────────────────────────────────────────────────┐
│                 CAPA DE PRESENTACIÓN                 │
│  Web App / Mobile / API / Chat Interface / Slack Bot │
└────────────────────────┬────────────────────────────┘
┌────────────────────────▼────────────────────────────┐
│              CAPA DE ORQUESTACIÓN                    │
│  API Gateway → Orchestrator (LangChain/LlamaIndex)  │
│  Session Manager → Memory Store → Rate Limiter       │
└────────────────────────┬────────────────────────────┘
┌────────────────────────▼────────────────────────────┐
│              CAPA DE INTELIGENCIA                     │
│  ┌──────────┐  ┌──────────┐  ┌───────────────────┐  │
│  │ Retrieval │  │  LLM     │  │  Post-processing  │  │
│  │ Pipeline  │  │  Gateway │  │  (guardrails,     │  │
│  │          │  │          │  │   formatting)     │  │
│  └──────────┘  └──────────┘  └───────────────────┘  │
└────────────────────────┬────────────────────────────┘
┌────────────────────────▼────────────────────────────┐
│              CAPA DE DATOS E INDEXACIÓN               │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐           │
│  │ Document  │  │ Embedding│  │ Vector   │           │
│  │ Pipeline  │  │ Service  │  │ Store    │           │
│  │ (ingest,  │  │          │  │          │           │
│  │  chunk,   │  │          │  │          │           │
│  │  clean)   │  │          │  │          │           │
│  └──────────┘  └──────────┘  └──────────┘           │
└────────────────────────┬────────────────────────────┘
┌────────────────────────▼────────────────────────────┐
│              CAPA DE INFRAESTRUCTURA                  │
│  Cloud Provider → Compute → Storage → Networking     │
│  Monitoring → Logging → CI/CD → Security             │
└─────────────────────────────────────────────────────┘
Para CADA capa, documenta:
  1. Componentes: Qué piezas la componen
  2. Responsabilidad: Qué hace y qué NO hace
  3. Interfaces: Cómo se comunica con capas adyacentes
  4. Decisiones clave: Qué se debe decidir para esta capa
  5. Riesgos: Qué puede salir mal
Genera diagrama Mermaid para cada variante arquitectónica propuesta.

按层级设计架构。每个层级的完整参考可查阅
resources/architecture-layers.md
RAG解决方案参考架构:
┌─────────────────────────────────────────────────────┐
│                 展示层                 │
│  Web App / 移动端 / API / 聊天界面 / Slack Bot │
└────────────────────────┬────────────────────────────┘
┌────────────────────────▼────────────────────────────┐
│              编排层                    │
│  API Gateway → 编排器(LangChain/LlamaIndex)  │
│  会话管理器 → 内存存储 → 限流       │
└────────────────────────┬────────────────────────────┘
┌────────────────────────▼────────────────────────────┐
│              智能层                     │
│  ┌──────────┐  ┌──────────┐  ┌───────────────────┐  │
│  │ Retrieval │  │  LLM     │  │  后处理  │  │
│  │ Pipeline  │  │  网关 │  │ (guardrails、格式调整)     │  │
│  └──────────┘  └──────────┘  └───────────────────┘  │
└────────────────────────┬────────────────────────────┘
┌────────────────────────▼────────────────────────────┐
│              数据与索引层               │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐           │
│  │ 文档处理  │  │ Embedding│  │ 向量存储   │           │
│  │ Pipeline  │  │ 服务  │  │          │           │
│  │(摄入、分片、清洗)  │  │          │  │          │           │
│  └──────────┘  └──────────┘  └──────────┘           │
└────────────────────────┬────────────────────────────┘
┌────────────────────────▼────────────────────────────┐
│              基础设施层                  │
│  云服务商 → 计算资源 → 存储 → 网络     │
│  监控 → 日志 → CI/CD → 安全             │
└─────────────────────────────────────────────────────┘
每个层级需要记录:
  1. 组件:包含哪些模块
  2. 职责:负责什么功能,不负责什么功能
  3. 接口:如何和相邻层级通信
  4. 关键决策:该层级需要确定的内容
  5. 风险:可能出现的问题
为每个提出的架构变体生成Mermaid架构图

FASE 4: TECH STACK Y EVALUACIÓN

阶段4:技术栈选型与评估

Lee
resources/tech-stack-matrices.md
para las matrices de selección completas.
Para CADA componente clave, evalúa opciones con criterios ponderados:
4.1 Modelo LLM
CriterioPesoGPT-4oClaude SonnetClaude OpusGemini 2.5Open Source (Llama/Mistral)
Calidad de respuesta25%
Latencia20%
Costo por token20%
Context window15%
Privacidad/On-premise10%
Ecosistema/tooling10%
4.2 Vector Database (si RAG)
CriterioPesoPineconeQdrantChromaWeaviatepgvectorMilvus
Facilidad de setup20%
Escalabilidad20%
Búsqueda híbrida15%
Costo15%
Filtering/metadata15%
Comunidad/soporte15%
4.3 Framework de Orquestación
CriterioPesoLangChainLlamaIndexHaystackCustom
RAG nativo25%
Flexibilidad20%
Curva aprendizaje20%
Producción ready20%
Comunidad15%
4.4 Estrategia de Chunking (si RAG)
EstrategiaCuándo usarChunk size típico
Fixed-sizeDocumentos homogéneos512-1024 tokens
SemanticContenido variado, múltiples temasVariable
Document-basedPDFs estructurados, papersPor sección
Sentence-windowAlta precisión necesaria1-3 oraciones + contexto
Parent-childNecesitas contexto amplio + precisiónHijo: 256, Padre: 2048
4.5 Estrategia de Embedding
ModeloDimensionesVentajaCuándo usar
text-embedding-3-large (OpenAI)3072Mejor calidad generalProducción, presupuesto OK
text-embedding-3-small (OpenAI)1536Balance calidad/costoMVP, alto volumen
Voyage-31024Excelente para códigoDocumentación técnica
BGE-M3 (open source)1024Multilingüe, on-premisePrivacidad, sin vendor lock
Cohere embed-v41024Búsqueda + clasificaciónMultimodal, multilingual
MUESTRA los scores numéricos y la justificación para cada selección.

完整选型矩阵可查阅
resources/tech-stack-matrices.md
针对每个核心组件,按加权标准评估可选方案:
4.1 LLM模型
评估维度权重GPT-4oClaude SonnetClaude OpusGemini 2.5开源模型(Llama/Mistral)
回答质量25%
延迟20%
单Token成本20%
上下文窗口15%
隐私/本地部署支持10%
生态/工具支持10%
4.2 向量数据库(如果使用RAG)
评估维度权重PineconeQdrantChromaWeaviatepgvectorMilvus
部署难度20%
可扩展性20%
混合搜索支持15%
成本15%
过滤/元数据支持15%
社区/支持15%
4.3 编排框架
评估维度权重LangChainLlamaIndexHaystack自研
RAG原生支持25%
灵活性20%
学习曲线20%
生产就绪度20%
社区活跃度15%
4.4 Chunking策略(如果使用RAG)
策略适用场景典型分片大小
固定大小同质化文档512-1024 tokens
语义分片内容多样、多主题的内容可变
按文档结构分片结构化PDF、论文按章节划分
句子窗口需要高准确率1-3个句子 + 上下文
父子分片需要同时兼顾大上下文和准确率子分片:256 tokens,父分片:2048 tokens
4.5 Embedding策略
模型维度优势适用场景
text-embedding-3-large (OpenAI)3072整体质量最优生产环境、预算充足
text-embedding-3-small (OpenAI)1536质量/成本平衡MVP、高流量场景
Voyage-31024代码场景表现优异技术文档场景
BGE-M3 (开源)1024多语言、支持本地部署隐私要求高、无厂商锁定需求
Cohere embed-v41024搜索+分类能力多模态、多语言场景
展示每个选型的数值得分和理由。

FASE 5: DOCUMENTO DE ARQUITECTURA

阶段5:架构文档生成

Genera con EXACTAMENTE esta estructura:
markdown
undefined
严格按照以下结构生成:
markdown
undefined

Documento de Arquitectura — [Nombre de la Solución]

架构文档 — [解决方案名称]

Fecha: [fecha] | Versión: 1.0 | Autor: [usuario]
日期: [日期] | 版本: 1.0 | 作者: [用户]

1. Contexto y Problema

1. 上下文与问题

[2-3 párrafos: problema de negocio, usuarios, situación actual]
[2-3段话:业务问题、用户、当前现状]

2. Enfoque Seleccionado

2. 选中方案

[Enfoque elegido + tabla de trade-offs + justificación]
[选中的方案 + 取舍表 + 选型理由]

3. Arquitectura de Alto Nivel

3. 高层架构

[Diagrama Mermaid del sistema completo]
[完整系统Mermaid架构图]

3.1 Vista de Capas

3.1 分层视图

[Diagrama por capas con componentes]
[带组件的分层架构图]

3.2 Vista de Flujo de Datos

3.2 数据流视图

[Diagrama de secuencia: desde input del usuario hasta respuesta]
[序列图:从用户输入到返回响应的完整流程]

4. Detalle por Capa

4. 层级详情

4.1 Capa de Presentación

4.1 展示层

  • Componentes: [lista]
  • Tecnología: [selección + justificación]
  • Interfaces: [APIs expuestas]
  • 组件:[列表]
  • 技术选型:[选型 + 理由]
  • 接口:[对外暴露的API]

4.2 Capa de Orquestación

4.2 编排层

  • Componentes: [lista]
  • Tecnología: [framework + justificación]
  • Patrones: [sync/async, retry, circuit breaker]
  • 组件:[列表]
  • 技术选型:[框架 + 理由]
  • 设计模式:[同步/异步、重试、熔断]

4.3 Capa de Inteligencia

4.3 智能层

  • Modelo LLM: [selección + justificación con scores]
  • Retrieval pipeline: [estrategia + justificación]
  • Guardrails: [qué protecciones se aplican]
  • LLM模型:[选型 + 得分理由]
  • Retrieval pipeline:[策略 + 理由]
  • Guardrails:[采用的安全防护规则]

4.4 Capa de Datos e Indexación

4.4 数据与索引层

  • Vector DB: [selección + justificación con scores]
  • Embedding: [modelo + dimensiones + justificación]
  • Chunking: [estrategia + tamaños + justificación]
  • Ingesta: [pipeline de documentos, frecuencia, formatos]
  • 向量数据库:[选型 + 得分理由]
  • Embedding:[模型 + 维度 + 理由]
  • Chunking:[策略 + 大小 + 理由]
  • 数据摄入:[文档处理管道、频率、支持格式]

4.5 Capa de Infraestructura

4.5 基础设施层

  • Cloud: [proveedor + servicios]
  • Compute: [tipo de instancias, GPU si aplica]
  • Monitoring: [herramientas, métricas clave]
  • CI/CD: [pipeline de deployment]
  • 云服务商:[提供商 + 服务]
  • 计算资源:[实例类型,GPU如果适用]
  • 监控:[工具、核心指标]
  • CI/CD:[部署管道]

5. Diagramas

5. 架构图

5.1 Diagrama de Arquitectura (Mermaid)

5.1 架构总览图(Mermaid)

[Diagrama C4 o flowchart completo]
[C4模型或完整流程图]

5.2 Diagrama de Secuencia — Flujo Principal

5.2 主流程序列图

[Mermaid sequence diagram: user → frontend → orchestrator → retrieval → LLM → response]
[Mermaid序列图:用户 → 前端 → 编排器 → retrieval → LLM → 响应]

5.3 Diagrama de Ingesta de Datos

5.3 数据摄入流程图

[Mermaid: source → extract → chunk → embed → store]
[Mermaid:数据源 → 提取 → 分片 → embedding → 存储]

6. Decisiones Arquitectónicas (ADRs)

6. 架构决策记录(ADRs)

ADR-001: [Título]

ADR-001:[标题]

  • Contexto: [por qué se necesita esta decisión]
  • Decisión: [qué se decidió]
  • Alternativas evaluadas: [qué más se consideró]
  • Consecuencias: [trade-offs aceptados]
[Repetir para cada decisión clave]
  • 上下文: [为什么需要做这个决策]
  • 决策: [确定的方案]
  • 评估过的替代方案: [其他考虑过的选项]
  • 后果: [接受的取舍]
[每个关键决策都按该结构记录]

7. Estimación de Costos

7. 成本估算

ComponenteServicioCosto mensual estimado
LLM API[proveedor]$[X]
Vector DB[servicio]$[X]
Compute[instancias]$[X]
Storage[tipo]$[X]
Total$[X]
⚠️ Estimaciones basadas en [volumen asumido]. Ajustar según uso real.
组件服务月度预估成本
LLM API[提供商]$[X]
向量数据库[服务]$[X]
计算资源[实例]$[X]
存储[类型]$[X]
总计$[X]
⚠️ 估算基于[假设的业务量],需根据实际使用调整。

8. Riesgos y Mitigaciones

8. 风险与缓解方案

RiesgoProbabilidadImpactoMitigación
风险发生概率影响程度缓解方案

9. Roadmap de Implementación

9. 实施路线图

Fase 1: MVP ([X] semanas)

阶段1:MVP([X]周)

  • [componentes mínimos para validar]
  • [验证所需的最小组件]

Fase 2: Producción ([X] semanas)

阶段2:生产就绪([X]周)

  • [escalabilidad, monitoring, seguridad]
  • [可扩展性、监控、安全]

Fase 3: Optimización ([X] semanas)

阶段3:优化([X]周)

  • [fine-tuning, advanced RAG, evaluación continua]
  • [fine-tuning、高级RAG、持续评估]

10. Supuestos y Limitaciones

10. 假设与限制

[Lista de todo marcado como "POR DEFINIR" + limitaciones del diseño]
undefined
[所有标记为「待确定」的内容列表 + 设计的限制]
undefined

Guardrails

Guardrails

Modo Analizar

分析模式

  • Audiencia primero — SIEMPRE pregunta para quién es la explicación antes de analizar
  • Analogías obligatorias — Si la audiencia no es técnica, cada concepto técnico va con analogía
  • Diagrama obligatorio — Todo análisis incluye al menos 1 diagrama Mermaid adaptado a la audiencia
  • Máximo 7 cajas en diagramas para no-técnicos
  • Problema antes que solución — Explica el PARA QUÉ antes del CON QUÉ
  • Si el usuario pega contenido incompleto, señala qué más necesitarías para un análisis mejor
  • 受众优先 — 分析前始终确认解释的受众
  • 强制类比 — 如果受众是非技术人员,每个技术术语都需要搭配类比
  • 强制架构图 — 所有分析都包含至少1张适配受众的Mermaid架构图
  • 非技术人员的架构图最多包含7个模块
  • 问题先于解决方案 — 先说明用途再说明实现方式
  • 如果用户粘贴的内容不完整,说明需要补充的内容才能完成更完善的分析

Modo Diseñar

设计模式

  • Brainstorming primero, SIEMPRE — No diseñes sin antes hacer brainstorming (Fase 1)
  • Una pregunta a la vez — No abrumes al usuario con múltiples preguntas
  • 2-3 alternativas — Siempre propón enfoques alternativos antes de diseñar
  • YAGNI — Si el equipo no lo necesita hoy, no lo diseñes. Señala el upgrade path.
  • Genera diagramas Mermaid válidos y renderizables
  • MUESTRA los scores numéricos de evaluación de tech stack
  • Marca estimaciones de costo con ⚠️
  • Cada ADR debe tener al menos 2 alternativas evaluadas
  • Prioriza soluciones que el equipo del usuario pueda mantener
  • Si detectas sobredimensionamiento (equipo de 2 queriendo multi-agente), señálalo
  • Recomienda empezar simple y evolucionar (prompt → RAG → fine-tune → hybrid)
  • 始终优先做头脑风暴 — 没有完成头脑风暴(阶段1)不要开始设计
  • 一次一个问题 — 不要一次性抛出多个问题给用户造成负担
  • 2-3种替代方案 — 设计前始终提供可选的替代方案
  • YAGNI原则 — 如果团队当前不需要,就不要设计,说明后续升级路径
  • 生成可正常渲染的有效Mermaid架构图
  • 展示技术栈评估的数值得分
  • 成本估算标记 ⚠️
  • 每个ADR至少评估2种替代方案
  • 优先推荐用户团队可维护的方案
  • 如果检测到过度设计(2人团队想要做多Agent系统),明确指出
  • 推荐从简单方案开始逐步迭代(prompt → RAG → fine-tune → 混合模式)

Ambos modos

通用规则

  • Si el usuario no tiene experiencia en ML, explica conceptos con analogías
  • Usa la tabla de analogías de la Fase 0 como referencia para términos técnicos
  • Si no tienes suficiente información, pide más contexto — nunca inventes
  • 如果用户没有ML经验,用类比解释概念
  • 阶段0的类比对照表可作为技术术语解释的参考
  • 如果信息不足,请求用户补充上下文 — 不要编造内容