excel-data-analyzer

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

Excel Data Analyzer

Excel 数据分析工具

Overview

概述

Analyze Excel files to identify data structure, quality issues, format inconsistencies, and statistical patterns. Generate comprehensive markdown reports with actionable insights for data cleaning and improvement.

分析Excel文件，识别数据结构、质量问题、格式不一致情况和统计模式。生成包含可操作数据清洗与改进建议的全面Markdown报告。

Quick Start

快速开始

Analyze any Excel file with a single command:

bash

cd /path/to/skill/scripts
bun install  # First time only
bun run analyze_excel.ts /path/to/data.xlsx

Output: Markdown report (

data_analysis.md

) with complete analysis.

只需一条命令即可分析任意Excel文件：

bash

cd /path/to/skill/scripts
bun install  # 首次运行时执行
bun run analyze_excel.ts /path/to/data.xlsx

输出结果：包含完整分析内容的Markdown报告（

data_analysis.md

）。

Core Capabilities

核心功能

1. Data Structure Detection

1. 数据结构检测

Automatically identifies:

Column names and data types (integer, float, string, date, email, boolean, mixed)
Row and column counts per sheet
Distinct value counts
Sample values for quick inspection

自动识别：

列名与数据类型（整数、浮点数、字符串、日期、邮箱、布尔值、混合类型）
每个工作表的行、列数量
不同值的计数
用于快速检查的样本值

2. Data Quality Analysis

2. 数据质量分析

Detects quality issues:

Missing values: Percentage and count of nulls per column
High null columns: Flags columns with >50% missing data
Mixed data types: Identifies columns with inconsistent types
Format issues: Detects leading/trailing whitespace, inconsistent casing, numeric strings

检测质量问题：

缺失值：每列空值的占比与数量
高空值列：标记空值占比超过50%的列
混合数据类型：识别类型不一致的列
格式问题：检测首尾空格、大小写不一致、数值型字符串

3. Statistical Summaries

3. 统计汇总

Generates statistics for numeric columns:

Min, max, mean, median, standard deviation
Outlier detection: Values beyond 3 standard deviations
Value distribution: Top 10 most frequent values with counts

For text columns:

Min/max/average length
Value frequency distribution

为数值列生成统计信息：

最小值、最大值、平均值、中位数、标准差
异常值检测：超出3倍标准差的值
值分布：出现频率最高的前10个值及其计数

针对文本列：

最小/最大/平均长度
值频率分布

4. Quality Scoring

4. 质量评分

Assigns quality scores (0-100) based on:

Missing headers: -10 points
High null percentage columns: -15 points
Format inconsistencies: -10 points
Duplicate column names: -15 points

基于以下指标分配0-100分的质量分数：

缺失表头：扣10分
高空值占比列：扣15分
格式不一致：扣10分
重复列名：扣15分

5. Multi-Sheet Support

5. 多工作表支持

Analyzes all sheets in workbook:

Per-sheet quality scores
Sheet-by-sheet column analysis
Overall workbook quality score

分析工作簿中的所有工作表：

各工作表的质量分数
逐列的工作表分析
整个工作簿的整体质量分数

Usage

使用方法

Basic Analysis

基础分析

bash

bun run analyze_excel.ts data.xlsx

Generates:

data_analysis.md

bash

bun run analyze_excel.ts data.xlsx

生成文件：

data_analysis.md

Custom Output Path

自定义输出路径

bash

bun run analyze_excel.ts data.xlsx --output reports/audit.md

bash

bun run analyze_excel.ts data.xlsx --output reports/audit.md

First-Time Setup

首次设置

Before running analysis scripts:

bash

cd /path/to/excel-data-analyzer/scripts
bun install

This installs required dependencies (xlsx library).

运行分析脚本前：

bash

cd /path/to/excel-data-analyzer/scripts
bun install

此步骤将安装所需依赖（xlsx库）。

Workflow

工作流程

When a user provides an Excel file for analysis:

Run the analysis script on the provided file
Read the generated report to understand findings
Summarize key issues for the user:
- Overall quality score
- Most critical issues (missing values, format problems)
- Columns requiring attention
Provide recommendations based on analysis:
- Which columns to investigate
- Suggested cleaning strategies
- Priority of fixes (high/medium/low)

当用户提供Excel文件进行分析时：

对提供的文件运行分析脚本
读取生成的报告以了解分析结果
为用户总结关键问题：
- 整体质量分数
- 最严重的问题（缺失值、格式问题）
- 需要重点关注的列
基于分析结果提供建议：
- 需要调查的列
- 建议的清洗策略
- 修复优先级（高/中/低）

Report Structure

报告结构

Generated markdown reports include:

生成的Markdown报告包含以下部分：

Executive Summary

执行摘要

File metadata (name, size, sheets)
Overall quality score
High-level findings

文件元数据（名称、大小、工作表数量）
整体质量分数
高层级分析结果

Per-Sheet Analysis

逐工作表分析

Dimensions (rows × columns)
Quality score
Detected issues list
Column analysis table (type, distinct values, missing %, issues)

维度（行数 × 列数）
质量分数
检测到的问题列表
列分析表格（类型、不同值数量、缺失值占比、问题）

Detailed Column Information

详细列信息

For each column:

Data type classification
Missing value statistics
Sample values
Format issues (if any)
Statistical summaries (numeric columns)
Value distributions

针对每一列：

数据类型分类
缺失值统计
样本值
格式问题（如有）
统计汇总（数值列）
值分布

Common Data Issues

常见数据问题

High Priority Issues

高优先级问题

Mixed data types:

Column contains numbers, strings, and dates
Prevents proper analysis
Example:
```
123
```
,
```
"abc"
```
,
```
2023-01-15
```

High missing percentage (>50%):

Column has insufficient data
Consider dropping or imputing

Duplicate column names:

Creates ambiguity in analysis
Requires renaming

混合数据类型：

列中包含数字、字符串和日期
阻碍正常分析
示例：
```
123
```
、
```
"abc"
```
、
```
2023-01-15
```

高空值占比（>50%）：

列数据不足
考虑删除或填充数据

重复列名：

导致分析歧义
需要重命名

Medium Priority Issues

中优先级问题

Numeric strings:

Numbers stored as text:
```
"123"
```
instead of
```
123
```
Prevents calculations

Format inconsistencies:

Leading/trailing whitespace:
```
" value "
```
Inconsistent casing:
```
"john"
```
,
```
"JOHN"
```
,
```
"John"
```
Mixed date formats:
```
"2023-01-15"
```
,
```
"01/15/2023"
```

Outliers:

Values beyond 3 standard deviations
May indicate errors or special cases
Requires investigation

数值型字符串：

数字以文本形式存储：
```
"123"
```
而非
```
123
```
阻碍计算

格式不一致：

首尾空格：
```
" value "
```
大小写不一致：
```
"john"
```
、
```
"JOHN"
```
、
```
"John"
```
日期格式混合：
```
"2023-01-15"
```
、
```
"01/15/2023"
```

异常值：

超出3倍标准差的值
可能表示错误或特殊情况
需要调查

Low Priority Issues

低优先级问题

Missing headers:

Empty column names
Generates systematic names (Column_1, Column_2)

Text length variations:

Wide range in string lengths
May indicate data entry inconsistencies

缺失表头：

列名为空
自动生成系统名称（Column_1、Column_2）

文本长度差异：

字符串长度范围过大
可能表示数据输入不一致

Advanced Patterns

高级模式

For detailed information on data quality patterns and detection methods, see:

references/analysis-patterns.md - Comprehensive guide covering:

Data type issues (mixed types, numeric strings, date formats)
Missing data patterns (high missing %, sparse data, placeholders)
Format inconsistencies (whitespace, casing, delimiters)
Statistical anomalies (outliers, skewed distributions)
Structural issues (duplicate names, empty rows/columns)
Domain-specific patterns (emails, phone numbers, dates)
Encoding issues (character encoding, Unicode)

Consult this reference when encountering unusual patterns or needing deeper analysis strategies.

如需了解数据质量模式和检测方法的详细信息，请参阅：

references/analysis-patterns.md - 全面指南，涵盖：

数据类型问题（混合类型、数值型字符串、日期格式）
缺失数据模式（高空值占比、稀疏数据、占位符）
格式不一致（空格、大小写、分隔符）
统计异常（异常值、偏态分布）
结构问题（重复名称、空行/空列）
领域特定模式（邮箱、电话号码、日期）
编码问题（字符编码、Unicode）

遇到异常模式或需要更深入的分析策略时，请参考此文档。

Output Interpretation

输出解读

Quality Score Ranges

质量分数范围

90-100: Excellent - minimal issues
70-89: Good - minor format issues
50-69: Fair - significant quality concerns
Below 50: Poor - major data problems

90-100分：优秀 - 几乎无问题
70-89分：良好 - 存在轻微格式问题
50-69分：一般 - 存在显著质量问题
低于50分：较差 - 存在重大数据问题

Prioritizing Fixes

修复优先级

First: Address structural issues (duplicate columns, missing headers)
Second: Fix high missing value columns (>50%)
Third: Resolve mixed data types
Fourth: Clean format inconsistencies
Fifth: Investigate outliers

首要：解决结构问题（重复列、缺失表头）
其次：修复高空值占比列（>50%）
第三：解决混合数据类型问题
第四：清理格式不一致情况
第五：调查异常值

Performance

性能

Optimized for large files:

Bun runtime: Fast JavaScript execution
Streaming support: Memory-efficient for large datasets
xlsx library: Industry-standard Excel parsing

Typical performance:

Small files (<1MB): <1 second
Medium files (1-100MB): 1-10 seconds
Large files (>100MB): 10-60 seconds

针对大文件优化：

Bun运行时：快速JavaScript执行
流式支持：内存高效处理大数据集
xlsx库：行业标准的Excel解析工具

典型性能：

小文件（<1MB）：<1秒
中等文件（1-100MB）：1-10秒
大文件（>100MB）：10-60秒

Limitations

局限性

Only generates analysis reports (does not perform data cleaning)
Text-based analysis (does not interpret business context)
Statistical methods assume numeric data for quantitative analysis
Outlier detection uses simple 3-sigma rule (not robust methods)

仅生成分析报告（不执行数据清洗）
基于文本的分析（不解读业务上下文）
统计方法假设数值数据适用于定量分析
异常值检测使用简单的3σ法则（非稳健方法）

Resources

资源

scripts/

analyze_excel.ts - Main analysis script (Bun/TypeScript)

Parses Excel files using xlsx library
Detects data types and quality issues
Generates statistical summaries
Produces markdown reports

package.json - Bun dependencies

xlsx: Excel file parsing

analyze_excel.ts - 主分析脚本（Bun/TypeScript）

使用xlsx库解析Excel文件
检测数据类型和质量问题
生成统计汇总
生成Markdown报告

package.json - Bun依赖项

xlsx：Excel文件解析

references/

analysis-patterns.md - Comprehensive guide to data quality patterns

Detailed detection methods
Impact assessments
Recommendations for each issue type

analysis-patterns.md - 数据质量模式全面指南

详细检测方法
影响评估
针对每种问题类型的建议

assets/

report-template.md - Markdown report template structure

Shows expected output format
Reference for understanding report sections

report-template.md - Markdown报告模板结构

展示预期输出格式
用于理解报告各部分的参考