excel-data-analyzer

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

Excel Data Analyzer

Excel 数据分析工具

Overview

概述

Analyze Excel files to identify data structure, quality issues, format inconsistencies, and statistical patterns. Generate comprehensive markdown reports with actionable insights for data cleaning and improvement.
分析Excel文件,识别数据结构、质量问题、格式不一致情况和统计模式。生成包含可操作数据清洗与改进建议的全面Markdown报告。

Quick Start

快速开始

Analyze any Excel file with a single command:
bash
cd /path/to/skill/scripts
bun install  # First time only
bun run analyze_excel.ts /path/to/data.xlsx
Output: Markdown report (
data_analysis.md
) with complete analysis.
只需一条命令即可分析任意Excel文件:
bash
cd /path/to/skill/scripts
bun install  # 首次运行时执行
bun run analyze_excel.ts /path/to/data.xlsx
输出结果:包含完整分析内容的Markdown报告(
data_analysis.md
)。

Core Capabilities

核心功能

1. Data Structure Detection

1. 数据结构检测

Automatically identifies:
  • Column names and data types (integer, float, string, date, email, boolean, mixed)
  • Row and column counts per sheet
  • Distinct value counts
  • Sample values for quick inspection
自动识别:
  • 列名与数据类型(整数、浮点数、字符串、日期、邮箱、布尔值、混合类型)
  • 每个工作表的行、列数量
  • 不同值的计数
  • 用于快速检查的样本值

2. Data Quality Analysis

2. 数据质量分析

Detects quality issues:
  • Missing values: Percentage and count of nulls per column
  • High null columns: Flags columns with >50% missing data
  • Mixed data types: Identifies columns with inconsistent types
  • Format issues: Detects leading/trailing whitespace, inconsistent casing, numeric strings
检测质量问题:
  • 缺失值:每列空值的占比与数量
  • 高空值列:标记空值占比超过50%的列
  • 混合数据类型:识别类型不一致的列
  • 格式问题:检测首尾空格、大小写不一致、数值型字符串

3. Statistical Summaries

3. 统计汇总

Generates statistics for numeric columns:
  • Min, max, mean, median, standard deviation
  • Outlier detection: Values beyond 3 standard deviations
  • Value distribution: Top 10 most frequent values with counts
For text columns:
  • Min/max/average length
  • Value frequency distribution
为数值列生成统计信息:
  • 最小值、最大值、平均值、中位数、标准差
  • 异常值检测:超出3倍标准差的值
  • 值分布:出现频率最高的前10个值及其计数
针对文本列:
  • 最小/最大/平均长度
  • 值频率分布

4. Quality Scoring

4. 质量评分

Assigns quality scores (0-100) based on:
  • Missing headers: -10 points
  • High null percentage columns: -15 points
  • Format inconsistencies: -10 points
  • Duplicate column names: -15 points
基于以下指标分配0-100分的质量分数:
  • 缺失表头:扣10分
  • 高空值占比列:扣15分
  • 格式不一致:扣10分
  • 重复列名:扣15分

5. Multi-Sheet Support

5. 多工作表支持

Analyzes all sheets in workbook:
  • Per-sheet quality scores
  • Sheet-by-sheet column analysis
  • Overall workbook quality score
分析工作簿中的所有工作表:
  • 各工作表的质量分数
  • 逐列的工作表分析
  • 整个工作簿的整体质量分数

Usage

使用方法

Basic Analysis

基础分析

bash
bun run analyze_excel.ts data.xlsx
Generates:
data_analysis.md
bash
bun run analyze_excel.ts data.xlsx
生成文件:
data_analysis.md

Custom Output Path

自定义输出路径

bash
bun run analyze_excel.ts data.xlsx --output reports/audit.md
bash
bun run analyze_excel.ts data.xlsx --output reports/audit.md

First-Time Setup

首次设置

Before running analysis scripts:
bash
cd /path/to/excel-data-analyzer/scripts
bun install
This installs required dependencies (xlsx library).
运行分析脚本前:
bash
cd /path/to/excel-data-analyzer/scripts
bun install
此步骤将安装所需依赖(xlsx库)。

Workflow

工作流程

When a user provides an Excel file for analysis:
  1. Run the analysis script on the provided file
  2. Read the generated report to understand findings
  3. Summarize key issues for the user:
    • Overall quality score
    • Most critical issues (missing values, format problems)
    • Columns requiring attention
  4. Provide recommendations based on analysis:
    • Which columns to investigate
    • Suggested cleaning strategies
    • Priority of fixes (high/medium/low)
当用户提供Excel文件进行分析时:
  1. 对提供的文件运行分析脚本
  2. 读取生成的报告以了解分析结果
  3. 为用户总结关键问题
    • 整体质量分数
    • 最严重的问题(缺失值、格式问题)
    • 需要重点关注的列
  4. 基于分析结果提供建议
    • 需要调查的列
    • 建议的清洗策略
    • 修复优先级(高/中/低)

Report Structure

报告结构

Generated markdown reports include:
生成的Markdown报告包含以下部分:

Executive Summary

执行摘要

  • File metadata (name, size, sheets)
  • Overall quality score
  • High-level findings
  • 文件元数据(名称、大小、工作表数量)
  • 整体质量分数
  • 高层级分析结果

Per-Sheet Analysis

逐工作表分析

  • Dimensions (rows × columns)
  • Quality score
  • Detected issues list
  • Column analysis table (type, distinct values, missing %, issues)
  • 维度(行数 × 列数)
  • 质量分数
  • 检测到的问题列表
  • 列分析表格(类型、不同值数量、缺失值占比、问题)

Detailed Column Information

详细列信息

For each column:
  • Data type classification
  • Missing value statistics
  • Sample values
  • Format issues (if any)
  • Statistical summaries (numeric columns)
  • Value distributions
针对每一列:
  • 数据类型分类
  • 缺失值统计
  • 样本值
  • 格式问题(如有)
  • 统计汇总(数值列)
  • 值分布

Common Data Issues

常见数据问题

High Priority Issues

高优先级问题

Mixed data types:
  • Column contains numbers, strings, and dates
  • Prevents proper analysis
  • Example:
    123
    ,
    "abc"
    ,
    2023-01-15
High missing percentage (>50%):
  • Column has insufficient data
  • Consider dropping or imputing
Duplicate column names:
  • Creates ambiguity in analysis
  • Requires renaming
混合数据类型
  • 列中包含数字、字符串和日期
  • 阻碍正常分析
  • 示例:
    123
    "abc"
    2023-01-15
高空值占比(>50%)
  • 列数据不足
  • 考虑删除或填充数据
重复列名
  • 导致分析歧义
  • 需要重命名

Medium Priority Issues

中优先级问题

Numeric strings:
  • Numbers stored as text:
    "123"
    instead of
    123
  • Prevents calculations
Format inconsistencies:
  • Leading/trailing whitespace:
    " value "
  • Inconsistent casing:
    "john"
    ,
    "JOHN"
    ,
    "John"
  • Mixed date formats:
    "2023-01-15"
    ,
    "01/15/2023"
Outliers:
  • Values beyond 3 standard deviations
  • May indicate errors or special cases
  • Requires investigation
数值型字符串
  • 数字以文本形式存储:
    "123"
    而非
    123
  • 阻碍计算
格式不一致
  • 首尾空格:
    " value "
  • 大小写不一致:
    "john"
    "JOHN"
    "John"
  • 日期格式混合:
    "2023-01-15"
    "01/15/2023"
异常值
  • 超出3倍标准差的值
  • 可能表示错误或特殊情况
  • 需要调查

Low Priority Issues

低优先级问题

Missing headers:
  • Empty column names
  • Generates systematic names (Column_1, Column_2)
Text length variations:
  • Wide range in string lengths
  • May indicate data entry inconsistencies
缺失表头
  • 列名为空
  • 自动生成系统名称(Column_1、Column_2)
文本长度差异
  • 字符串长度范围过大
  • 可能表示数据输入不一致

Advanced Patterns

高级模式

For detailed information on data quality patterns and detection methods, see:
references/analysis-patterns.md - Comprehensive guide covering:
  • Data type issues (mixed types, numeric strings, date formats)
  • Missing data patterns (high missing %, sparse data, placeholders)
  • Format inconsistencies (whitespace, casing, delimiters)
  • Statistical anomalies (outliers, skewed distributions)
  • Structural issues (duplicate names, empty rows/columns)
  • Domain-specific patterns (emails, phone numbers, dates)
  • Encoding issues (character encoding, Unicode)
Consult this reference when encountering unusual patterns or needing deeper analysis strategies.
如需了解数据质量模式和检测方法的详细信息,请参阅:
references/analysis-patterns.md - 全面指南,涵盖:
  • 数据类型问题(混合类型、数值型字符串、日期格式)
  • 缺失数据模式(高空值占比、稀疏数据、占位符)
  • 格式不一致(空格、大小写、分隔符)
  • 统计异常(异常值、偏态分布)
  • 结构问题(重复名称、空行/空列)
  • 领域特定模式(邮箱、电话号码、日期)
  • 编码问题(字符编码、Unicode)
遇到异常模式或需要更深入的分析策略时,请参考此文档。

Output Interpretation

输出解读

Quality Score Ranges

质量分数范围

  • 90-100: Excellent - minimal issues
  • 70-89: Good - minor format issues
  • 50-69: Fair - significant quality concerns
  • Below 50: Poor - major data problems
  • 90-100分:优秀 - 几乎无问题
  • 70-89分:良好 - 存在轻微格式问题
  • 50-69分:一般 - 存在显著质量问题
  • 低于50分:较差 - 存在重大数据问题

Prioritizing Fixes

修复优先级

  1. First: Address structural issues (duplicate columns, missing headers)
  2. Second: Fix high missing value columns (>50%)
  3. Third: Resolve mixed data types
  4. Fourth: Clean format inconsistencies
  5. Fifth: Investigate outliers
  1. 首要:解决结构问题(重复列、缺失表头)
  2. 其次:修复高空值占比列(>50%)
  3. 第三:解决混合数据类型问题
  4. 第四:清理格式不一致情况
  5. 第五:调查异常值

Performance

性能

Optimized for large files:
  • Bun runtime: Fast JavaScript execution
  • Streaming support: Memory-efficient for large datasets
  • xlsx library: Industry-standard Excel parsing
Typical performance:
  • Small files (<1MB): <1 second
  • Medium files (1-100MB): 1-10 seconds
  • Large files (>100MB): 10-60 seconds
针对大文件优化:
  • Bun运行时:快速JavaScript执行
  • 流式支持:内存高效处理大数据集
  • xlsx库:行业标准的Excel解析工具
典型性能:
  • 小文件(<1MB):<1秒
  • 中等文件(1-100MB):1-10秒
  • 大文件(>100MB):10-60秒

Limitations

局限性

  • Only generates analysis reports (does not perform data cleaning)
  • Text-based analysis (does not interpret business context)
  • Statistical methods assume numeric data for quantitative analysis
  • Outlier detection uses simple 3-sigma rule (not robust methods)
  • 仅生成分析报告(不执行数据清洗)
  • 基于文本的分析(不解读业务上下文)
  • 统计方法假设数值数据适用于定量分析
  • 异常值检测使用简单的3σ法则(非稳健方法)

Resources

资源

scripts/

scripts/

analyze_excel.ts - Main analysis script (Bun/TypeScript)
  • Parses Excel files using xlsx library
  • Detects data types and quality issues
  • Generates statistical summaries
  • Produces markdown reports
package.json - Bun dependencies
  • xlsx: Excel file parsing
analyze_excel.ts - 主分析脚本(Bun/TypeScript)
  • 使用xlsx库解析Excel文件
  • 检测数据类型和质量问题
  • 生成统计汇总
  • 生成Markdown报告
package.json - Bun依赖项
  • xlsx:Excel文件解析

references/

references/

analysis-patterns.md - Comprehensive guide to data quality patterns
  • Detailed detection methods
  • Impact assessments
  • Recommendations for each issue type
analysis-patterns.md - 数据质量模式全面指南
  • 详细检测方法
  • 影响评估
  • 针对每种问题类型的建议

assets/

assets/

report-template.md - Markdown report template structure
  • Shows expected output format
  • Reference for understanding report sections
report-template.md - Markdown报告模板结构
  • 展示预期输出格式
  • 用于理解报告各部分的参考