crawl4ai-skill

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

Crawl4AI Skill - Web Crawler & Scraper

Crawl4AI Skill - 网页爬虫与抓取工具

Web Crawling 网页爬虫 | Web Scraping 网页爬取 | LLM 优化输出

智能网页爬虫和爬取工具，支持搜索、全站爬取、动态页面抓取。Free web crawler and scraper with LLM-optimized Markdown output.

网页爬取 | 网页抓取 | LLM优化输出

智能网页爬虫和抓取工具，支持搜索、全站爬取、动态页面抓取。免费网页爬虫与抓取工具，输出经过LLM优化的Markdown格式内容。

核心功能 | Core Features

🔍 Web Search 网页搜索 - DuckDuckGo search, 免 API key
🕷️ Web Crawling 网页爬虫 - Site crawler, spider, sitemap 识别
📝 Web Scraping 网页抓取 - Smart scraper, data extraction
📄 LLM-Optimized Output - Fit Markdown, 省 Token 80%
⚡ Dynamic Page Scraping - JavaScript 渲染页面爬取

🔍 网页搜索 - 基于DuckDuckGo搜索，无需API密钥
🕷️ 全站爬虫 - 支持站点爬虫、蜘蛛爬取、站点地图识别
📝 网页抓取 - 智能抓取，数据提取
📄 LLM优化输出 - 适配Markdown格式，节省80% Token
⚡ 动态页面抓取 - 支持JavaScript渲染页面爬取

快速开始 | Quick Start

安装 | Installation

bash

pip install crawl4ai-skill

bash

pip install crawl4ai-skill

Web Search | 网页搜索

网页搜索 | Web Search

bash

undefined

bash

undefined

Search the web with DuckDuckGo

使用DuckDuckGo进行网页搜索

crawl4ai-skill search "python web scraping"

undefined

crawl4ai-skill search "python web scraping"

undefined

Web Scraping | 单页爬取

单页爬取 | Web Scraping

bash

undefined

bash

undefined

Scrape a single web page

抓取单个网页

crawl4ai-skill crawl https://example.com

undefined

crawl4ai-skill crawl https://example.com

undefined

Web Crawling | 全站爬虫

全站爬虫 | Web Crawling

bash

undefined

bash

undefined

Crawl entire website / spider

爬取整个网站 / 蜘蛛爬取

crawl4ai-skill crawl-site https://docs.python.org --max-pages 50

---

crawl4ai-skill crawl-site https://docs.python.org --max-pages 50

---

使用场景 | Use Cases

场景 1：Web Crawler for Documentation | 文档站爬虫

场景1：文档站爬虫 | Web Crawler for Documentation

bash

undefined

bash

undefined

Crawl documentation site with spider

使用蜘蛛爬取文档站点

crawl4ai-skill crawl-site https://docs.fastapi.com --max-pages 100


**爬虫效果 | Crawler Output:**
- ❌ 移除：导航栏、侧边栏、广告
- ✅ 保留：标题、正文、代码块
- 📊 **Token：50,000 → 10,000（-80%）**

crawl4ai-skill crawl-site https://docs.fastapi.com --max-pages 100


**爬虫效果 | Crawler Output:**
- ❌ 移除：导航栏、侧边栏、广告
- ✅ 保留：标题、正文、代码块
- 📊 **Token：50,000 → 10,000（减少80%）**

场景 2：Search + Scrape | 搜索+爬取

场景2：搜索+爬取 | Search + Scrape

bash

undefined

bash

undefined

Search and scrape top results

搜索并抓取顶部结果

crawl4ai-skill search-and-crawl "Vue 3 best practices" --crawl-top 3

undefined

crawl4ai-skill search-and-crawl "Vue 3 best practices" --crawl-top 3

undefined

场景 3：Dynamic Page Scraping | 动态页面抓取

场景3：动态页面抓取 | Dynamic Page Scraping

JavaScript 渲染的页面爬取（雪球、知乎等）：

bash

undefined

支持JavaScript渲染的页面爬取（如雪球、知乎等）：

bash

undefined

Scrape JavaScript-heavy pages

抓取重度依赖JavaScript的页面

crawl4ai-skill crawl https://xueqiu.com/S/BIDU --wait-until networkidle --delay 2

---

crawl4ai-skill crawl https://xueqiu.com/S/BIDU --wait-until networkidle --delay 2

---

命令参考 | Commands

命令 Command	说明 Description
`search <query>`	Web search 网页搜索
`crawl <url>`	Web scraping 单页爬取
`crawl-site <url>`	Web crawling 全站爬虫
`search-and-crawl <query>`	Search + scrape 搜索并爬取

命令 Command	说明 Description
`search <query>`	网页搜索
`crawl <url>`	单页爬取
`crawl-site <url>`	全站爬虫
`search-and-crawl <query>`	搜索并爬取

常用参数 | Common Options

bash

undefined

bash

undefined

Web Search 搜索

网页搜索

--num-results 10 # Number of results

--num-results 10 # 结果数量

Web Scraping 爬取

网页抓取

--format fit_markdown # Output format --output result.md # Output file --wait-until networkidle # Wait strategy for dynamic pages --delay 2 # Additional wait time (seconds) --wait-for ".selector" # Wait for specific element

--format fit_markdown # 输出格式 --output result.md # 输出文件 --wait-until networkidle # 动态页面等待策略 --delay 2 # 额外等待时间（秒） --wait-for ".selector" # 等待特定元素加载

Web Crawling 爬虫

全站爬虫

--max-pages 100 # Max pages to crawl --max-depth 3 # Max crawl depth

---

--max-pages 100 # 最大爬取页面数 --max-depth 3 # 最大爬取深度

---

输出格式 | Output Formats

fit_markdown（推荐 Recommended）

智能提取，节省 80% Token。Smart extraction, save 80% tokens.

bash

crawl4ai-skill crawl https://example.com --format fit_markdown

智能提取内容，节省80% Token。

bash

crawl4ai-skill crawl https://example.com --format fit_markdown

raw_markdown

保留完整结构。Preserve full structure.

bash

crawl4ai-skill crawl https://example.com --format raw_markdown

保留页面完整结构。

bash

crawl4ai-skill crawl https://example.com --format raw_markdown

为什么选择这个爬虫？| Why This Crawler?

为什么选择这款爬虫？| Why This Crawler?

✅ 免费爬虫 Free Crawler - 无需 API key，开箱即用
✅ 智能爬取 Smart Scraper - 自动去噪，提取核心内容
✅ 全站爬虫 Site Crawler - 支持 sitemap，递归爬取
✅ 动态爬取 Dynamic Scraping - JavaScript 渲染页面支持
✅ 搜索集成 Search Integration - DuckDuckGo 搜索内置

✅ 免费爬虫 - 无需API密钥，开箱即用
✅ 智能抓取 - 自动去噪，提取核心内容
✅ 全站爬虫 - 支持站点地图，递归爬取
✅ 动态爬取 - 支持JavaScript渲染页面
✅ 搜索集成 - 内置DuckDuckGo搜索功能

链接 | Links

📦 PyPI
💻 GitHub
🦞 ClawHub

📦 PyPI
💻 GitHub
🦞 ClawHub