excel-data-analyzer
Compare original and translation side by side
🇺🇸
Original
English🇨🇳
Translation
ChineseExcel Data Analyzer
Excel 数据分析工具
Overview
概述
Analyze Excel files to identify data structure, quality issues, format inconsistencies, and statistical patterns. Generate comprehensive markdown reports with actionable insights for data cleaning and improvement.
分析Excel文件,识别数据结构、质量问题、格式不一致情况和统计模式。生成包含可操作数据清洗与改进建议的全面Markdown报告。
Quick Start
快速开始
Analyze any Excel file with a single command:
bash
cd /path/to/skill/scripts
bun install # First time only
bun run analyze_excel.ts /path/to/data.xlsxOutput: Markdown report () with complete analysis.
data_analysis.md只需一条命令即可分析任意Excel文件:
bash
cd /path/to/skill/scripts
bun install # 首次运行时执行
bun run analyze_excel.ts /path/to/data.xlsx输出结果:包含完整分析内容的Markdown报告()。
data_analysis.mdCore Capabilities
核心功能
1. Data Structure Detection
1. 数据结构检测
Automatically identifies:
- Column names and data types (integer, float, string, date, email, boolean, mixed)
- Row and column counts per sheet
- Distinct value counts
- Sample values for quick inspection
自动识别:
- 列名与数据类型(整数、浮点数、字符串、日期、邮箱、布尔值、混合类型)
- 每个工作表的行、列数量
- 不同值的计数
- 用于快速检查的样本值
2. Data Quality Analysis
2. 数据质量分析
Detects quality issues:
- Missing values: Percentage and count of nulls per column
- High null columns: Flags columns with >50% missing data
- Mixed data types: Identifies columns with inconsistent types
- Format issues: Detects leading/trailing whitespace, inconsistent casing, numeric strings
检测质量问题:
- 缺失值:每列空值的占比与数量
- 高空值列:标记空值占比超过50%的列
- 混合数据类型:识别类型不一致的列
- 格式问题:检测首尾空格、大小写不一致、数值型字符串
3. Statistical Summaries
3. 统计汇总
Generates statistics for numeric columns:
- Min, max, mean, median, standard deviation
- Outlier detection: Values beyond 3 standard deviations
- Value distribution: Top 10 most frequent values with counts
For text columns:
- Min/max/average length
- Value frequency distribution
为数值列生成统计信息:
- 最小值、最大值、平均值、中位数、标准差
- 异常值检测:超出3倍标准差的值
- 值分布:出现频率最高的前10个值及其计数
针对文本列:
- 最小/最大/平均长度
- 值频率分布
4. Quality Scoring
4. 质量评分
Assigns quality scores (0-100) based on:
- Missing headers: -10 points
- High null percentage columns: -15 points
- Format inconsistencies: -10 points
- Duplicate column names: -15 points
基于以下指标分配0-100分的质量分数:
- 缺失表头:扣10分
- 高空值占比列:扣15分
- 格式不一致:扣10分
- 重复列名:扣15分
5. Multi-Sheet Support
5. 多工作表支持
Analyzes all sheets in workbook:
- Per-sheet quality scores
- Sheet-by-sheet column analysis
- Overall workbook quality score
分析工作簿中的所有工作表:
- 各工作表的质量分数
- 逐列的工作表分析
- 整个工作簿的整体质量分数
Usage
使用方法
Basic Analysis
基础分析
bash
bun run analyze_excel.ts data.xlsxGenerates:
data_analysis.mdbash
bun run analyze_excel.ts data.xlsx生成文件:
data_analysis.mdCustom Output Path
自定义输出路径
bash
bun run analyze_excel.ts data.xlsx --output reports/audit.mdbash
bun run analyze_excel.ts data.xlsx --output reports/audit.mdFirst-Time Setup
首次设置
Before running analysis scripts:
bash
cd /path/to/excel-data-analyzer/scripts
bun installThis installs required dependencies (xlsx library).
运行分析脚本前:
bash
cd /path/to/excel-data-analyzer/scripts
bun install此步骤将安装所需依赖(xlsx库)。
Workflow
工作流程
When a user provides an Excel file for analysis:
- Run the analysis script on the provided file
- Read the generated report to understand findings
- Summarize key issues for the user:
- Overall quality score
- Most critical issues (missing values, format problems)
- Columns requiring attention
- Provide recommendations based on analysis:
- Which columns to investigate
- Suggested cleaning strategies
- Priority of fixes (high/medium/low)
当用户提供Excel文件进行分析时:
- 对提供的文件运行分析脚本
- 读取生成的报告以了解分析结果
- 为用户总结关键问题:
- 整体质量分数
- 最严重的问题(缺失值、格式问题)
- 需要重点关注的列
- 基于分析结果提供建议:
- 需要调查的列
- 建议的清洗策略
- 修复优先级(高/中/低)
Report Structure
报告结构
Generated markdown reports include:
生成的Markdown报告包含以下部分:
Executive Summary
执行摘要
- File metadata (name, size, sheets)
- Overall quality score
- High-level findings
- 文件元数据(名称、大小、工作表数量)
- 整体质量分数
- 高层级分析结果
Per-Sheet Analysis
逐工作表分析
- Dimensions (rows × columns)
- Quality score
- Detected issues list
- Column analysis table (type, distinct values, missing %, issues)
- 维度(行数 × 列数)
- 质量分数
- 检测到的问题列表
- 列分析表格(类型、不同值数量、缺失值占比、问题)
Detailed Column Information
详细列信息
For each column:
- Data type classification
- Missing value statistics
- Sample values
- Format issues (if any)
- Statistical summaries (numeric columns)
- Value distributions
针对每一列:
- 数据类型分类
- 缺失值统计
- 样本值
- 格式问题(如有)
- 统计汇总(数值列)
- 值分布
Common Data Issues
常见数据问题
High Priority Issues
高优先级问题
Mixed data types:
- Column contains numbers, strings, and dates
- Prevents proper analysis
- Example: ,
123,"abc"2023-01-15
High missing percentage (>50%):
- Column has insufficient data
- Consider dropping or imputing
Duplicate column names:
- Creates ambiguity in analysis
- Requires renaming
混合数据类型:
- 列中包含数字、字符串和日期
- 阻碍正常分析
- 示例:、
123、"abc"2023-01-15
高空值占比(>50%):
- 列数据不足
- 考虑删除或填充数据
重复列名:
- 导致分析歧义
- 需要重命名
Medium Priority Issues
中优先级问题
Numeric strings:
- Numbers stored as text: instead of
"123"123 - Prevents calculations
Format inconsistencies:
- Leading/trailing whitespace:
" value " - Inconsistent casing: ,
"john","JOHN""John" - Mixed date formats: ,
"2023-01-15""01/15/2023"
Outliers:
- Values beyond 3 standard deviations
- May indicate errors or special cases
- Requires investigation
数值型字符串:
- 数字以文本形式存储:而非
"123"123 - 阻碍计算
格式不一致:
- 首尾空格:
" value " - 大小写不一致:、
"john"、"JOHN""John" - 日期格式混合:、
"2023-01-15""01/15/2023"
异常值:
- 超出3倍标准差的值
- 可能表示错误或特殊情况
- 需要调查
Low Priority Issues
低优先级问题
Missing headers:
- Empty column names
- Generates systematic names (Column_1, Column_2)
Text length variations:
- Wide range in string lengths
- May indicate data entry inconsistencies
缺失表头:
- 列名为空
- 自动生成系统名称(Column_1、Column_2)
文本长度差异:
- 字符串长度范围过大
- 可能表示数据输入不一致
Advanced Patterns
高级模式
For detailed information on data quality patterns and detection methods, see:
references/analysis-patterns.md - Comprehensive guide covering:
- Data type issues (mixed types, numeric strings, date formats)
- Missing data patterns (high missing %, sparse data, placeholders)
- Format inconsistencies (whitespace, casing, delimiters)
- Statistical anomalies (outliers, skewed distributions)
- Structural issues (duplicate names, empty rows/columns)
- Domain-specific patterns (emails, phone numbers, dates)
- Encoding issues (character encoding, Unicode)
Consult this reference when encountering unusual patterns or needing deeper analysis strategies.
如需了解数据质量模式和检测方法的详细信息,请参阅:
references/analysis-patterns.md - 全面指南,涵盖:
- 数据类型问题(混合类型、数值型字符串、日期格式)
- 缺失数据模式(高空值占比、稀疏数据、占位符)
- 格式不一致(空格、大小写、分隔符)
- 统计异常(异常值、偏态分布)
- 结构问题(重复名称、空行/空列)
- 领域特定模式(邮箱、电话号码、日期)
- 编码问题(字符编码、Unicode)
遇到异常模式或需要更深入的分析策略时,请参考此文档。
Output Interpretation
输出解读
Quality Score Ranges
质量分数范围
- 90-100: Excellent - minimal issues
- 70-89: Good - minor format issues
- 50-69: Fair - significant quality concerns
- Below 50: Poor - major data problems
- 90-100分:优秀 - 几乎无问题
- 70-89分:良好 - 存在轻微格式问题
- 50-69分:一般 - 存在显著质量问题
- 低于50分:较差 - 存在重大数据问题
Prioritizing Fixes
修复优先级
- First: Address structural issues (duplicate columns, missing headers)
- Second: Fix high missing value columns (>50%)
- Third: Resolve mixed data types
- Fourth: Clean format inconsistencies
- Fifth: Investigate outliers
- 首要:解决结构问题(重复列、缺失表头)
- 其次:修复高空值占比列(>50%)
- 第三:解决混合数据类型问题
- 第四:清理格式不一致情况
- 第五:调查异常值
Performance
性能
Optimized for large files:
- Bun runtime: Fast JavaScript execution
- Streaming support: Memory-efficient for large datasets
- xlsx library: Industry-standard Excel parsing
Typical performance:
- Small files (<1MB): <1 second
- Medium files (1-100MB): 1-10 seconds
- Large files (>100MB): 10-60 seconds
针对大文件优化:
- Bun运行时:快速JavaScript执行
- 流式支持:内存高效处理大数据集
- xlsx库:行业标准的Excel解析工具
典型性能:
- 小文件(<1MB):<1秒
- 中等文件(1-100MB):1-10秒
- 大文件(>100MB):10-60秒
Limitations
局限性
- Only generates analysis reports (does not perform data cleaning)
- Text-based analysis (does not interpret business context)
- Statistical methods assume numeric data for quantitative analysis
- Outlier detection uses simple 3-sigma rule (not robust methods)
- 仅生成分析报告(不执行数据清洗)
- 基于文本的分析(不解读业务上下文)
- 统计方法假设数值数据适用于定量分析
- 异常值检测使用简单的3σ法则(非稳健方法)
Resources
资源
scripts/
scripts/
analyze_excel.ts - Main analysis script (Bun/TypeScript)
- Parses Excel files using xlsx library
- Detects data types and quality issues
- Generates statistical summaries
- Produces markdown reports
package.json - Bun dependencies
- xlsx: Excel file parsing
analyze_excel.ts - 主分析脚本(Bun/TypeScript)
- 使用xlsx库解析Excel文件
- 检测数据类型和质量问题
- 生成统计汇总
- 生成Markdown报告
package.json - Bun依赖项
- xlsx:Excel文件解析
references/
references/
analysis-patterns.md - Comprehensive guide to data quality patterns
- Detailed detection methods
- Impact assessments
- Recommendations for each issue type
analysis-patterns.md - 数据质量模式全面指南
- 详细检测方法
- 影响评估
- 针对每种问题类型的建议
assets/
assets/
report-template.md - Markdown report template structure
- Shows expected output format
- Reference for understanding report sections
report-template.md - Markdown报告模板结构
- 展示预期输出格式
- 用于理解报告各部分的参考