crawl4ai-skill

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

Crawl4AI Skill - Web Crawler & Scraper

Crawl4AI Skill - 网页爬虫与抓取工具

Web Crawling 网页爬虫 | Web Scraping 网页爬取 | LLM 优化输出
智能网页爬虫和爬取工具,支持搜索、全站爬取、动态页面抓取。Free web crawler and scraper with LLM-optimized Markdown output.
网页爬取 | 网页抓取 | LLM优化输出
智能网页爬虫和抓取工具,支持搜索、全站爬取、动态页面抓取。免费网页爬虫与抓取工具,输出经过LLM优化的Markdown格式内容。

核心功能 | Core Features

核心功能 | Core Features

  • 🔍 Web Search 网页搜索 - DuckDuckGo search, 免 API key
  • 🕷️ Web Crawling 网页爬虫 - Site crawler, spider, sitemap 识别
  • 📝 Web Scraping 网页抓取 - Smart scraper, data extraction
  • 📄 LLM-Optimized Output - Fit Markdown, 省 Token 80%
  • Dynamic Page Scraping - JavaScript 渲染页面爬取

  • 🔍 网页搜索 - 基于DuckDuckGo搜索,无需API密钥
  • 🕷️ 全站爬虫 - 支持站点爬虫、蜘蛛爬取、站点地图识别
  • 📝 网页抓取 - 智能抓取,数据提取
  • 📄 LLM优化输出 - 适配Markdown格式,节省80% Token
  • 动态页面抓取 - 支持JavaScript渲染页面爬取

快速开始 | Quick Start

快速开始 | Quick Start

安装 | Installation

安装 | Installation

bash
pip install crawl4ai-skill
bash
pip install crawl4ai-skill

Web Search | 网页搜索

网页搜索 | Web Search

bash
undefined
bash
undefined

Search the web with DuckDuckGo

使用DuckDuckGo进行网页搜索

crawl4ai-skill search "python web scraping"
undefined
crawl4ai-skill search "python web scraping"
undefined

Web Scraping | 单页爬取

单页爬取 | Web Scraping

bash
undefined
bash
undefined

Scrape a single web page

抓取单个网页

crawl4ai-skill crawl https://example.com
undefined
crawl4ai-skill crawl https://example.com
undefined

Web Crawling | 全站爬虫

全站爬虫 | Web Crawling

bash
undefined
bash
undefined

Crawl entire website / spider

爬取整个网站 / 蜘蛛爬取

crawl4ai-skill crawl-site https://docs.python.org --max-pages 50

---
crawl4ai-skill crawl-site https://docs.python.org --max-pages 50

---

使用场景 | Use Cases

使用场景 | Use Cases

场景 1:Web Crawler for Documentation | 文档站爬虫

场景1:文档站爬虫 | Web Crawler for Documentation

bash
undefined
bash
undefined

Crawl documentation site with spider

使用蜘蛛爬取文档站点

crawl4ai-skill crawl-site https://docs.fastapi.com --max-pages 100

**爬虫效果 | Crawler Output:**
- ❌ 移除:导航栏、侧边栏、广告
- ✅ 保留:标题、正文、代码块
- 📊 **Token:50,000 → 10,000(-80%)**
crawl4ai-skill crawl-site https://docs.fastapi.com --max-pages 100

**爬虫效果 | Crawler Output:**
- ❌ 移除:导航栏、侧边栏、广告
- ✅ 保留:标题、正文、代码块
- 📊 **Token:50,000 → 10,000(减少80%)**

场景 2:Search + Scrape | 搜索+爬取

场景2:搜索+爬取 | Search + Scrape

bash
undefined
bash
undefined

Search and scrape top results

搜索并抓取顶部结果

crawl4ai-skill search-and-crawl "Vue 3 best practices" --crawl-top 3
undefined
crawl4ai-skill search-and-crawl "Vue 3 best practices" --crawl-top 3
undefined

场景 3:Dynamic Page Scraping | 动态页面抓取

场景3:动态页面抓取 | Dynamic Page Scraping

JavaScript 渲染的页面爬取(雪球、知乎等):
bash
undefined
支持JavaScript渲染的页面爬取(如雪球、知乎等):
bash
undefined

Scrape JavaScript-heavy pages

抓取重度依赖JavaScript的页面

crawl4ai-skill crawl https://xueqiu.com/S/BIDU --wait-until networkidle --delay 2

---
crawl4ai-skill crawl https://xueqiu.com/S/BIDU --wait-until networkidle --delay 2

---

命令参考 | Commands

命令参考 | Commands

命令 Command说明 Description
search <query>
Web search 网页搜索
crawl <url>
Web scraping 单页爬取
crawl-site <url>
Web crawling 全站爬虫
search-and-crawl <query>
Search + scrape 搜索并爬取
命令 Command说明 Description
search <query>
网页搜索
crawl <url>
单页爬取
crawl-site <url>
全站爬虫
search-and-crawl <query>
搜索并爬取

常用参数 | Common Options

常用参数 | Common Options

bash
undefined
bash
undefined

Web Search 搜索

网页搜索

--num-results 10 # Number of results
--num-results 10 # 结果数量

Web Scraping 爬取

网页抓取

--format fit_markdown # Output format --output result.md # Output file --wait-until networkidle # Wait strategy for dynamic pages --delay 2 # Additional wait time (seconds) --wait-for ".selector" # Wait for specific element
--format fit_markdown # 输出格式 --output result.md # 输出文件 --wait-until networkidle # 动态页面等待策略 --delay 2 # 额外等待时间(秒) --wait-for ".selector" # 等待特定元素加载

Web Crawling 爬虫

全站爬虫

--max-pages 100 # Max pages to crawl --max-depth 3 # Max crawl depth

---
--max-pages 100 # 最大爬取页面数 --max-depth 3 # 最大爬取深度

---

输出格式 | Output Formats

输出格式 | Output Formats

fit_markdown(推荐 Recommended)

fit_markdown(推荐 Recommended)

智能提取,节省 80% Token。Smart extraction, save 80% tokens.
bash
crawl4ai-skill crawl https://example.com --format fit_markdown
智能提取内容,节省80% Token。
bash
crawl4ai-skill crawl https://example.com --format fit_markdown

raw_markdown

raw_markdown

保留完整结构。Preserve full structure.
bash
crawl4ai-skill crawl https://example.com --format raw_markdown

保留页面完整结构。
bash
crawl4ai-skill crawl https://example.com --format raw_markdown

为什么选择这个爬虫?| Why This Crawler?

为什么选择这款爬虫?| Why This Crawler?

免费爬虫 Free Crawler - 无需 API key,开箱即用
智能爬取 Smart Scraper - 自动去噪,提取核心内容
全站爬虫 Site Crawler - 支持 sitemap,递归爬取
动态爬取 Dynamic Scraping - JavaScript 渲染页面支持
搜索集成 Search Integration - DuckDuckGo 搜索内置

免费爬虫 - 无需API密钥,开箱即用
智能抓取 - 自动去噪,提取核心内容
全站爬虫 - 支持站点地图,递归爬取
动态爬取 - 支持JavaScript渲染页面
搜索集成 - 内置DuckDuckGo搜索功能

链接 | Links

链接 | Links