Prompt Repetition (프롬프트 반복)

해결하는 문제 (Problem)

LLM은 Causal Language Model로 학습되어 각 토큰이 이전 토큰만 참조합니다. 이로 인해:

Context-Question 문제: Context 처리 시 아직 Question을 알 수 없음
Options-First MCQ 문제: 선택지를 볼 때 질문의 맥락을 완전히 이해 못함
Position/Index 문제: 긴 리스트에서 특정 위치 정보에 대한 어텐션 가중치 약화

프롬프트 반복은 두 번째 패스에서 첫 번째 패스 전체를 참조할 수 있게 하여, 마치 양방향 어텐션의 일부 이점을 모방하는 효과를 얻습니다.

When to use this skill

경량 모델 사용 시: claude-haiku, gemini-flash, gpt-4o-mini 등
Options-First MCQ: 선택지가 질문보다 먼저 나오는 객관식
Context + Question: 긴 컨텍스트에서 특정 정보 검색
Index/Position Tasks: 인벤토리, 리스트에서 위치 기반 쿼리
NPC Dialogue: 게임 AI 캐릭터 일관성 유지
비추론 작업: Chain-of-Thought 미사용 작업

작동 원리

기존 Causal Attention의 한계

[Context] → [Question]
    ↓
Context 토큰 처리 시 Question 내용을 참조 불가
Question 토큰이 나타날 때는 Context에 대한 어텐션 가중치 결정 완료

프롬프트 반복의 해결 방식

[First Pass]                [Second Pass]
Context → Question    →    Context' → Question'
                              ↑         ↑
                          첫 번째 패스 전체 참조 가능

두 번째 반복에서 모델이 첫 번째 프롬프트 전체에 걸쳐 정보를 다시 처리하고, 주요 개념에 대한 어텐션 가중치를 강화함으로써 성능이 개선됩니다.

주의: 이는 모델 아키텍처를 양방향으로 변경하는 것이 아니라, Causal 모델의 한계를 프롬프트 엔지니어링으로 완화하는 기법입니다.

연구 결과 (Google Research 2025)

지표	결과
유의미한 개선 (p < 0.1)	47 / 70 벤치마크
성능 저하	0
중립	23
개선 비율	67%

가장 극적인 개선: Gemini 2.0 Flash-Lite on NameIndex: 21.33% → 97.33% (+76%p)

테스트된 모델

Gemini 2.0 Flash / Flash Lite
GPT-4o / GPT-4o-mini
Claude 3.7 Sonnet / Claude 3 Haiku
Deepseek V3

테스트된 벤치마크

ARC (Challenge) - 과학 추론
OpenBookQA - 오픈 도메인 QA
GSM8K - 수학 문제
MMLU-Pro - 다중 작업 언어 이해
MATH - 수학 문제 해결
NameIndex / MiddleMatch - 커스텀 Position 태스크

적용 절차

1단계: 자동 적용 대상 모델 확인

Provider	자동 적용 모델	비적용 모델
Claude	haiku 계열	opus, sonnet
Gemini	flash, flash-lite	pro, ultra
OpenAI	gpt-4o-mini, gpt-low	gpt-4o, gpt-4

2단계: 작업 유형별 반복 횟수 결정

작업 유형	키워드 패턴	반복 횟수	예상 개선
Options-First MCQ	`A. B. C. D.` 선택지 먼저	2회	+15-40%p
Index/Position	`slot` , `position` , `index` , `번째`	3회	+50-76%p
Context + Question	일반 질문	2회	+5-15%p
With CoT	`step by step` , `think through`	0회 (적용 안함)	~0%

3단계: 토큰 제한 확인

python

# 자동 적용 전 컨텍스트 체크
max_context = model_context_window * 0.8  # 80% 안전 마진
if len(prompt_tokens) * repetitions > max_context:
    repetitions = max(1, int(max_context / len(prompt_tokens)))

4단계: 프롬프트 변환

python

def apply_prompt_repetition(prompt: str, times: int = 2) -> str:
    """프롬프트를 지정 횟수만큼 반복

    Args:
        prompt: 원본 프롬프트
        times: 반복 횟수 (기본 2회)

    Returns:
        반복된 프롬프트
    """
    if times <= 1:
        return prompt
    return "\n\n".join([prompt] * times)

실전 예제

예제 1: Options-First MCQ (가장 큰 효과)

Before:

A. Paris
B. London
C. Berlin
D. Madrid

Which city is the capital of France?
Reply with one letter.

After (반복 ×2 적용):

A. Paris
B. London
C. Berlin
D. Madrid

Which city is the capital of France?
Reply with one letter.

A. Paris
B. London
C. Berlin
D. Madrid

Which city is the capital of France?
Reply with one letter.

예상 출력:

정확도: 기존 78% → 반복 적용 후 93% (+15%p)

예제 2: Index/Position Tasks (최대 효과)

Before:

Inventory:
1. Iron Sword
2. Leather Armor
3. Health Potion (x5)
4. Magic Staff
...
25. Dragon Scale
...
50. Ancient Map

What item is in slot 25?

After (반복 ×3 적용): 프롬프트 3회 반복

예상 출력:

Dragon Scale

정확도: 기존 21% → 반복 적용 후 97% (+76%p)

예제 3: 툴 호출 프롬프트 처리

참고: 툴 호출 지시가 포함된 프롬프트도 전체가 반복됩니다. 구현의 단순성과 일관성을 위해 전체 반복 방식을 채택했습니다.

Before:

Use the calculator tool to compute 234 * 567.
What is the result?

After (반복 ×2):

Use the calculator tool to compute 234 * 567.
What is the result?

Use the calculator tool to compute 234 * 567.
What is the result?

연구 결과에 따르면 툴 호출 부분을 포함한 전체 반복도 효과적입니다.

Production-Ready 구현

자동 적용 변환기

python

"""prompt_repetition_transformer.py"""
from dataclasses import dataclass, field
from typing import Optional, Callable, List
import re

# 모델별 컨텍스트 윈도우 (토큰 수)
MODEL_CONTEXT_WINDOWS = {
    "claude-3-haiku": 200_000,
    "claude-haiku": 200_000,
    "gemini-flash": 1_000_000,
    "gemini-flash-lite": 1_000_000,
    "gemini-2.0-flash": 1_000_000,
    "gpt-4o-mini": 128_000,
    "gpt-low": 128_000,
}

# 자동 적용 대상 모델
AUTO_APPLY_MODELS = list(MODEL_CONTEXT_WINDOWS.keys())

# CoT 패턴 (적용 제외)
COT_PATTERNS = [
    r"step by step",
    r"think through",
    r"let's think",
    r"reasoning:",
    r"chain of thought",
]

# Position/Index 패턴 (3회 반복)
POSITION_PATTERNS = [
    r"slot \d+",
    r"position \d+",
    r"index \d+",
    r"\d+번째",
    r"item \d+",
    r"row \d+",
    r"column \d+",
]

@dataclass
class PromptRepetitionConfig:
    """프롬프트 반복 설정"""
    default_repetitions: int = 2
    position_repetitions: int = 3
    separator: str = "\n\n"
    max_context_ratio: float = 0.8
    applied_marker: str = "<!-- prompt-repetition-applied -->"

class PromptRepetitionTransformer:
    """경량 모델용 프롬프트 반복 자동 적용 변환기"""

    def __init__(self, config: Optional[PromptRepetitionConfig] = None):
        self.config = config or PromptRepetitionConfig()

    def should_apply(self, model: str, prompt: str) -> bool:
        """자동 적용 여부 결정"""
        # 이미 적용된 경우 스킵
        if self.config.applied_marker in prompt:
            return False

        # 대상 모델 확인
        model_lower = model.lower()
        if not any(m in model_lower for m in AUTO_APPLY_MODELS):
            return False

        # CoT 패턴 감지 시 스킵
        prompt_lower = prompt.lower()
        for pattern in COT_PATTERNS:
            if re.search(pattern, prompt_lower):
                return False

        return True

    def determine_repetitions(self, prompt: str, model: str) -> int:
        """작업 유형에 따른 반복 횟수 결정"""
        prompt_lower = prompt.lower()

        # Position/Index 패턴 감지 → 3회
        for pattern in POSITION_PATTERNS:
            if re.search(pattern, prompt_lower):
                return self.config.position_repetitions

        return self.config.default_repetitions

    def estimate_tokens(self, text: str) -> int:
        """간단한 토큰 수 추정 (정확도보다 속도 우선)"""
        # 평균적으로 4자 = 1토큰으로 추정
        return len(text) // 4

    def transform(self, prompt: str, model: str) -> str:
        """프롬프트에 반복 적용"""
        if not self.should_apply(model, prompt):
            return prompt

        repetitions = self.determine_repetitions(prompt, model)

        # 컨텍스트 제한 체크
        model_lower = model.lower()
        max_tokens = 128_000  # 기본값
        for m, tokens in MODEL_CONTEXT_WINDOWS.items():
            if m in model_lower:
                max_tokens = tokens
                break

        max_allowed = int(max_tokens * self.config.max_context_ratio)
        prompt_tokens = self.estimate_tokens(prompt)

        # 토큰 제한 초과 시 반복 횟수 조정
        while prompt_tokens * repetitions > max_allowed and repetitions > 1:
            repetitions -= 1

        if repetitions <= 1:
            return prompt

        # 반복 적용 + 마커 추가
        repeated = self.config.separator.join([prompt] * repetitions)
        return f"{self.config.applied_marker}\n{repeated}"

    def wrap_llm_call(self, llm_fn: Callable, model: str) -> Callable:
        """LLM 호출 함수 래핑"""
        def wrapped(prompt: str, **kwargs):
            transformed = self.transform(prompt, model)
            return llm_fn(transformed, **kwargs)
        return wrapped

효과 측정 방법 (Verification)

A/B 테스트 방법

python

def run_ab_test(prompts: List[str], llm_fn, model: str, ground_truth: List[str]):
    """반복 적용 효과 A/B 테스트"""
    transformer = PromptRepetitionTransformer()

    results = {"baseline": [], "repeated": []}

    for prompt, expected in zip(prompts, ground_truth):
        # Baseline
        response_a = llm_fn(prompt)
        results["baseline"].append(response_a == expected)

        # With Repetition
        repeated_prompt = transformer.transform(prompt, model)
        response_b = llm_fn(repeated_prompt)
        results["repeated"].append(response_b == expected)

    baseline_acc = sum(results["baseline"]) / len(prompts)
    repeated_acc = sum(results["repeated"]) / len(prompts)

    print(f"Baseline 정확도: {baseline_acc:.2%}")
    print(f"반복 적용 정확도: {repeated_acc:.2%}")
    print(f"개선: {repeated_acc - baseline_acc:+.2%}p")

주요 측정 지표

지표	측정 방법
정확도	정답률 비교
일관성	동일 프롬프트 10회 실행 분산
토큰 비용	입력 토큰 증가율
지연 시간	p50, p99 latency 비교

사용하지 않아야 할 경우

경우	이유
CoT 사용 중	추론 과정이 이미 컨텍스트 제공
추론 모델 (opus, sonnet)	이미 최적화됨, 효과 미미
매우 긴 프롬프트	컨텍스트 한계 초과 위험
이미 반복 적용됨	중복 적용 시 토큰 낭비

비용-정확도 분석

지표	기준	반복 적용	변화
입력 토큰	500/req	1000/req	+100%
출력 토큰	100/req	100/req	0%
지연시간 (p50)	450ms	460ms	+2%
지연시간 (p99)	1200ms	1250ms	+4%
정확도	78%	89%	+14%p
정답당 비용	$0.019	$0.020	+5%

핵심: Prefill 단계는 GPU에서 고도로 병렬화되어 입력 토큰 2배 증가에도 지연 시간 증가는 미미함

Multi-Agent 통합

Agent별 자동 적용 전략

Agent	모델	반복 적용	적용 위치
Claude Orchestrator	opus/sonnet	선택적	-
Claude Executor	haiku	자동	skill_loader.py
Gemini Analyst	flash	자동	MCP 호출 시
OpenAI	gpt-4o-mini	자동	skill_loader.py

중복 적용 방지

멀티 에이전트 파이프라인에서 중복 적용을 방지하기 위해:

마커 사용:
```

```
마커로 이미 적용된 프롬프트 감지
메타데이터 전달: 에이전트 간
```
x-prompt-repetition-applied: true
```
헤더 전달
오케스트레이터 관리: Claude Orchestrator가 하위 에이전트 호출 시 적용 여부 추적

적용 패턴

[Claude Sonnet] 계획 수립 (반복 불필요)
    ↓
[Gemini Flash] 분석 (반복 ×2 자동 적용, 마커 추가)
    ↓
[Claude Haiku] 실행 (마커 감지 → 중복 적용 스킵)

skill_loader.py 연동 가이드

권장 구현

python

# skill_loader.py에 추가할 코드
from prompt_repetition_transformer import PromptRepetitionTransformer

class SkillLoader:
    def __init__(self, ...):
        # ... 기존 코드 ...
        self.prompt_transformer = PromptRepetitionTransformer()

    def apply_auto_skills(self, prompt: str, model: str) -> str:
        """자동 적용 스킬 처리"""
        # prompt-repetition 자동 적용
        for skill in self.skills.values():
            auto_apply = skill.get('data', {}).get('auto-apply', {})
            if auto_apply.get('trigger') == 'auto':
                target_models = auto_apply.get('models', [])
                if any(m in model.lower() for m in target_models):
                    prompt = self.prompt_transformer.transform(prompt, model)

        return prompt

제약사항

필수 규칙

경량 모델 우선: haiku, flash, mini 계열에서 가장 효과적
반복 횟수 제한: 일반 작업 2회, Position 작업 최대 3회
컨텍스트 모니터링: 반복으로 인한 컨텍스트 초과 주의
마커 확인: 중복 적용 방지를 위해 마커 체크 필수

금지 사항

패딩으로 대체 금지:
```
.
```
등으로 길이만 늘리는 것은 효과 없음 (연구 결과)
CoT와 동시 사용 금지: 효과 상쇄됨
추론 모델에 강제 적용 금지: 이미 최적화됨
중복 적용 금지: 마커 없이 연속 적용 시 토큰 낭비

Quick Reference

=== 자동 적용 대상 모델 ===
claude-3-haiku, claude-haiku
gemini-flash, gemini-flash-lite, gemini-2.0-flash
gpt-4o-mini, gpt-low

=== 반복 횟수 ===
기본 작업: 2회
Position/Index (slot/position/index 키워드): 3회
CoT 사용: 0회 (적용 안함)

=== 효과 (Google Research 2025) ===
개선 비율: 67% (47/70 벤치마크)
성능 저하: 0건
최대 개선: +76%p (NameIndex)

=== 비용 ===
입력 토큰: +100%
지연 시간: +2% (Prefill 병렬화)
정답당 비용: +5%

=== 중복 적용 방지 ===
마커: <!-- prompt-repetition-applied -->

prompt-repetition

NPX Install

Tags

SKILL.md Content

Prompt Repetition (프롬프트 반복)

해결하는 문제 (Problem)

When to use this skill

작동 원리

기존 Causal Attention의 한계

프롬프트 반복의 해결 방식

연구 결과 (Google Research 2025)

테스트된 모델

테스트된 벤치마크

적용 절차

1단계: 자동 적용 대상 모델 확인

2단계: 작업 유형별 반복 횟수 결정

3단계: 토큰 제한 확인

4단계: 프롬프트 변환

실전 예제

예제 1: Options-First MCQ (가장 큰 효과)

예제 2: Index/Position Tasks (최대 효과)

예제 3: 툴 호출 프롬프트 처리

Production-Ready 구현

자동 적용 변환기

효과 측정 방법 (Verification)

A/B 테스트 방법

주요 측정 지표

사용하지 않아야 할 경우

비용-정확도 분석

Multi-Agent 통합

Agent별 자동 적용 전략

중복 적용 방지

적용 패턴

skill_loader.py 연동 가이드

권장 구현

제약사항

필수 규칙

금지 사항

Quick Reference

참고 자료