alibabacloud-sysom-diagnosis
Compare original and translation side by side
🇺🇸
Original
English🇨🇳
Translation
ChineseSysOM 诊断(sysom-diagnosis)
SysOM 诊断(sysom-diagnosis)
在 (技能根)下使用 做诊断。stdout 为 JSON 信封,默认本机快速排查不调云;远程专项由 (内存域)或 // 子命令触发,内建环境检查。
sysom-diagnosis/./scripts/osops.sh--deep-diagnosisionetload在 (技能根)下使用 做诊断。stdout 为 JSON 信封,默认本机快速排查不调云;远程专项由 (内存域)或 // 子命令触发,内建环境检查。
sysom-diagnosis/./scripts/osops.sh--deep-diagnosisionetloadInstallation
Installation
Pre-check: Aliyun CLI >= 3.3.3 required Runto verify >= 3.3.3. If not installed or version too low, runaliyun versionto update. Then [MUST] runcurl -fsSL https://aliyuncli.alicdn.com/setup.sh | bashto enable automatic plugin installation. Then [MUST] runaliyun configure set --auto-plugin-install trueto ensure local plugins are up-to-date.aliyun plugin updateAt the start of the Core Workflow (before any CLI invocation): [MUST] Enable AI-Mode — AI-mode is required for Agent Skill execution.bashaliyun configure ai-mode enable aliyun configure ai-mode set-user-agent --user-agent "AlibabaCloud-Agent-Skills/alibabacloud-sysom-diagnosis"At the end of the workflow (after success or failure): [MUST] Disable AI-Mode — AI-mode must be disabled after skill execution completes.bashaliyun configure ai-mode disable
Pre-check: Aliyun CLI >= 3.3.3 required Runto verify >= 3.3.3. If not installed or version too low, runaliyun versionto update. Then [MUST] runcurl -fsSL https://aliyuncli.alicdn.com/setup.sh | bashto enable automatic plugin installation. Then [MUST] runaliyun configure set --auto-plugin-install trueto ensure local plugins are up-to-date.aliyun plugin updateAt the start of the Core Workflow (before any CLI invocation): [MUST] Enable AI-Mode — AI-mode is required for Agent Skill execution.bashaliyun configure ai-mode enable aliyun configure ai-mode set-user-agent --user-agent "AlibabaCloud-Agent-Skills/alibabacloud-sysom-diagnosis"At the end of the workflow (after success or failure): [MUST] Disable AI-Mode — AI-mode must be disabled after skill execution completes.bashaliyun configure ai-mode disable
Agent 核心行为
Agent 核心行为
- 本机优先:先跑 memory quick,不要默认索要 region/instance。
- 意图路由:
- 内存域:占用高/大图 → ;OOM/oom-killer →
memgraph;Java →oom;不明 →javamem。详见 memory-routing.md。classify - 非内存域:IO/网络/负载 → 对应 /
io/net子命令,直接走远程专项。详见 non-memory-routing.md。load - 远程专项硬约束:凡是 、
--deep-diagnosis、io/*、net/*场景,必须通过load/*触发 SysOM./scripts/osops.sh;禁止退化为 ECS 通用诊断 API、InvokeDiagnosis/Cloud Assistant 手工采集(如Ecs.RunCommand/top/ps)替代专项诊断。iostat
- 内存域:占用高/大图 →
- 服从信封指令:始终读 并执行
agent.summary。quick 输出仅为信号检测,agent.next有命令时必须先执行,再向用户总结。agent.next - 信封即结果:诊断结论以信封 为准,无需自行采集额外信息。
data - 网络延迟 + socket 队列积压:已跑 /
net netjitter且结果正常,但net packetdrop显示 Send-Q/Recv-Q 偏大时,须交叉ss。memory memgraph --deep-diagnosis
完整约定(执行目录、凭证安全、precheck 降噪等)见 agent-conventions.md。
- 本机优先:先跑 memory quick,不要默认索要 region/instance。
- 意图路由:
- 内存域:占用高/大图 → ;OOM/oom-killer →
memgraph;Java →oom;不明 →javamem。详见 memory-routing.md。classify - 非内存域:IO/网络/负载 → 对应 /
io/net子命令,直接走远程专项。详见 non-memory-routing.md。load - 远程专项硬约束:凡是 、
--deep-diagnosis、io/*、net/*场景,必须通过load/*触发 SysOM./scripts/osops.sh;禁止退化为 ECS 通用诊断 API、InvokeDiagnosis/Cloud Assistant 手工采集(如Ecs.RunCommand/top/ps)替代专项诊断。iostat
- 内存域:占用高/大图 →
- 服从信封指令:始终读 并执行
agent.summary。quick 输出仅为信号检测,agent.next有命令时必须先执行,再向用户总结。agent.next - 信封即结果:诊断结论以信封 为准,无需自行采集额外信息。
data - 网络延迟 + socket 队列积压:已跑 /
net netjitter且结果正常,但net packetdrop显示 Send-Q/Recv-Q 偏大时,须交叉ss。memory memgraph --deep-diagnosis
完整约定(执行目录、凭证安全、precheck 降噪等)见 agent-conventions.md。
信封输出
信封输出
CLI stdout 为 JSON 信封(, )。Agent 直接消费 (摘要)、(关键指标)、(下一步命令,应在技能根用 Bash 执行);业务载荷在 、、。详见 output-format.md。
format: sysom_agentversion: 3.4agent.summaryagent.findingsagent.nextdata.routingdata.localdata.remoteCLI stdout 为 JSON 信封(, )。Agent 直接消费 (摘要)、(关键指标)、(下一步命令,应在技能根用 Bash 执行);业务载荷在 、、。详见 output-format.md。
format: sysom_agentversion: 3.4agent.summaryagent.findingsagent.nextdata.routingdata.localdata.remotePrecheck / 认证失败
Precheck / 认证失败
认证失败时信封含 (独立 precheck)或 (deep-diagnosis 合并),按信封指令引导用户完成配置。详见 agent-conventions.md。
data.remediationdata.precheck_gate.remediation认证失败时信封含 (独立 precheck)或 (deep-diagnosis 合并),按信封指令引导用户完成配置。详见 agent-conventions.md。
data.remediationdata.precheck_gate.remediation子命令速查
子命令速查
内存域
内存域
| 子命令 | 能力 | 专文 |
|---|---|---|
| 内存全景/大盘,含 TCP 内存与 socket 队列 | memgraph.md |
| OOM / oom-killer 专项 | oomcheck.md |
| Java 内存 | javamem.md |
| 综合归类(不明时兜底) | 路由见 memory-routing.md |
| 子命令 | 能力 | 专文 |
|---|---|---|
| 内存全景/大盘,含 TCP 内存与 socket 队列 | memgraph.md |
| OOM / oom-killer 专项 | oomcheck.md |
| Java 内存 | javamem.md |
| 综合归类(不明时兜底) | 路由见 memory-routing.md |
IO 域
IO 域
| 子命令 | 能力 | 专文 |
|---|---|---|
| IO 大盘(磁盘统计) | iofsstat.md |
| IO 深度(慢 IO、延迟) | iodiagnose.md |
| 子命令 | 能力 | 专文 |
|---|---|---|
| IO 大盘(磁盘统计) | iofsstat.md |
| IO 深度(慢 IO、延迟) | iodiagnose.md |
网络域
网络域
| 子命令 | 能力 | 专文 |
|---|---|---|
| 丢包(rtrace) | packetdrop.md |
| 抖动(时延波动) | netjitter.md |
| 子命令 | 能力 | 专文 |
|---|---|---|
| 丢包(rtrace) | packetdrop.md |
| 抖动(时延波动) | netjitter.md |
负载域
负载域
| 子命令 | 能力 | 专文 |
|---|---|---|
| 调度延迟(nosched) | delay.md |
| 系统负载 | loadtask.md |
| 子命令 | 能力 | 专文 |
|---|---|---|
| 调度延迟(nosched) | delay.md |
| 系统负载 | loadtask.md |
快速开始
快速开始
bash
cd <sysom-diagnosis>
./scripts/osops.sh memory classify # 本机归类
./scripts/osops.sh memory memgraph # 本机内存大图
./scripts/osops.sh memory memgraph --deep-diagnosis --channel ecs --timeout 300 # 远程内存专项
./scripts/osops.sh io iofsstat --channel ecs --timeout 300 # IO 大盘
./scripts/osops.sh net packetdrop --channel ecs --region cn-hangzhou --instance i-xxx # 丢包诊断
./scripts/osops.sh load delay --channel ecs --params '{"duration":30}' # 调度延迟其它实例加 。首次使用先 。
--region <id> --instance <i-xxx>./scripts/init.shbash
cd <sysom-diagnosis>
./scripts/osops.sh memory classify # 本机归类
./scripts/osops.sh memory memgraph # 本机内存大图
./scripts/osops.sh memory memgraph --deep-diagnosis --channel ecs --timeout 300 # 远程内存专项
./scripts/osops.sh io iofsstat --channel ecs --timeout 300 # IO 大盘
./scripts/osops.sh net packetdrop --channel ecs --region cn-hangzhou --instance i-xxx # 丢包诊断
./scripts/osops.sh load delay --channel ecs --params '{"duration":30}' # 调度延迟其它实例加 。首次使用先 。
--region <id> --instance <i-xxx>./scripts/init.sh远程 OpenAPI 三要素
远程 OpenAPI 三要素
| 要素 | 说明 |
|---|---|
| 身份 | AK/SK 或实例 RAM Role |
| 策略 | |
| 开通与 SLR | 控制台开通 SysOM;SLR 见 service-linked-role-subaccount.md |
| 要素 | 说明 |
|---|---|
| 身份 | AK/SK 或实例 RAM Role |
| 策略 | |
| 开通与 SLR | 控制台开通 SysOM;SLR 见 service-linked-role-subaccount.md |
关键路径索引
关键路径索引
| 需求 | 文档 |
|---|---|
| 内存意图→子命令映射 | memory-routing.md |
| IO/网络/负载路由 | non-memory-routing.md |
| 远程调用契约 / CLI 选项 / 元数据 | invoke-diagnosis.md |
| 权限 / 凭证 / precheck | permission-guide.md → openapi-permission-guide.md |
| 输出信封格式 | output-format.md |
| Agent 行为约定 | agent-conventions.md |
| 各诊断 params 字段 | diagnoses/README.md |
| 需求 | 文档 |
|---|---|
| 内存意图→子命令映射 | memory-routing.md |
| IO/网络/负载路由 | non-memory-routing.md |
| 远程调用契约 / CLI 选项 / 元数据 | invoke-diagnosis.md |
| 权限 / 凭证 / precheck | permission-guide.md → openapi-permission-guide.md |
| 输出信封格式 | output-format.md |
| Agent 行为约定 | agent-conventions.md |
| 各诊断 params 字段 | diagnoses/README.md |