Crawl4AI：一款開源的AI友好型網(wǎng)絡(luò)爬蟲和抓取器

Crawl4AI于2025-04-09發(fā)布在Ai產(chǎn)品

Crawl4ai是什么？

Crawl4AI 是一款開源的 AI 友好型網(wǎng)絡(luò)爬蟲和抓取器，GitHub 上的熱門項(xiàng)目，專為 LLM、AI 代理和數(shù)據(jù)管道設(shè)計(jì)。它支持快速、靈活的網(wǎng)頁數(shù)據(jù)提取，生成適合 LLM 的 Markdown 格式數(shù)據(jù)，并具備結(jié)構(gòu)化數(shù)據(jù)提取、瀏覽器集成、動(dòng)態(tài)內(nèi)容處理等功能。

Crawl4AI：一款開源的AI友好型網(wǎng)絡(luò)爬蟲和抓取器.webp

Crawl4AI功能

Markdown 生成

清潔 Markdown：生成結(jié)構(gòu)清晰、格式準(zhǔn)確的 Markdown 文本。
適配 Markdown：基于啟發(fā)式算法過濾噪聲和無關(guān)內(nèi)容，生成適合 AI 處理的 Markdown。
引用和參考：將頁面鏈接轉(zhuǎn)換為編號(hào)參考列表，并提供清晰的引用。
自定義策略：用戶可以創(chuàng)建自己的 Markdown 生成策略，以滿足特定需求。
BM25 算法：基于 BM25 算法過濾內(nèi)容，提取核心信息，去除無關(guān)內(nèi)容。

結(jié)構(gòu)化數(shù)據(jù)提取

LLM 驅(qū)動(dòng)提?。褐С炙?LLM（開源和專有）進(jìn)行結(jié)構(gòu)化數(shù)據(jù)提取。
分塊策略：實(shí)現(xiàn)基于主題、正則表達(dá)式和句子級(jí)別的分塊處理。
余弦相似度：基于用戶查詢找到相關(guān)的內(nèi)容塊，實(shí)現(xiàn)語義提取。
CSS 基礎(chǔ)提?。菏褂?XPath 和 CSS 選擇器進(jìn)行快速模式化數(shù)據(jù)提取。
模式定義：定義自定義模式，從重復(fù)模式中提取結(jié)構(gòu)化 JSON 數(shù)據(jù)。

瀏覽器集成

托管瀏覽器：使用用戶自己的瀏覽器，避免被檢測(cè)為爬蟲。
遠(yuǎn)程瀏覽器控制：通過 Chrome 開發(fā)者工具協(xié)議連接到遠(yuǎn)程瀏覽器，進(jìn)行大規(guī)模數(shù)據(jù)提取。
瀏覽器配置文件：創(chuàng)建和管理持久化配置文件，保存認(rèn)證狀態(tài)、Cookie 和設(shè)置。
會(huì)話管理：保留瀏覽器狀態(tài)并重復(fù)使用，以支持多步驟爬取。
代理支持：無縫連接到帶認(rèn)證的代理，確保安全訪問。
完整瀏覽器控制：修改請(qǐng)求頭、Cookie、用戶代理等，以定制爬取設(shè)置。
多瀏覽器支持：兼容 Chromium、Firefox 和 WebKit。
動(dòng)態(tài)視口調(diào)整：自動(dòng)調(diào)整瀏覽器視口以匹配頁面內(nèi)容，確保完整渲染和捕獲所有元素。

爬取與抓取

媒體支持：提取圖片、音頻、視頻以及響應(yīng)式圖片格式（如 srcset 和 picture）。
動(dòng)態(tài)爬取：執(zhí)行 JavaScript 并等待異步或同步內(nèi)容，以提取動(dòng)態(tài)內(nèi)容。
截圖：在爬取過程中捕獲頁面截圖，用于調(diào)試或分析。
原始數(shù)據(jù)爬?。褐苯犹幚碓?HTML（raw:）或本地文件（file://）。
全面鏈接提?。禾崛?nèi)部、外部鏈接以及嵌入的 iframe 內(nèi)容。
自定義鉤子：在每個(gè)步驟定義鉤子，以自定義爬取行為。
緩存：緩存數(shù)據(jù)以提高速度，避免重復(fù)抓取。
元數(shù)據(jù)提?。簭木W(wǎng)頁中提取結(jié)構(gòu)化元數(shù)據(jù)。
iframe 內(nèi)容提?。簾o縫提取嵌入的 iframe 內(nèi)容。
懶加載處理：等待圖片完全加載，確保不因懶加載而遺漏內(nèi)容。
全頁掃描：模擬滾動(dòng)以加載和捕獲所有動(dòng)態(tài)內(nèi)容，適用于無限滾動(dòng)頁面。

其他功能

隱身模式：通過模仿真實(shí)用戶行為避免被檢測(cè)為爬蟲。
基于標(biāo)簽的內(nèi)容提?。焊鶕?jù)自定義標(biāo)簽、標(biāo)題或元數(shù)據(jù)細(xì)化爬取內(nèi)容。
鏈接分析：提取并分析所有鏈接，進(jìn)行詳細(xì)的數(shù)據(jù)探索。
錯(cuò)誤處理：強(qiáng)大的錯(cuò)誤管理，確保無縫執(zhí)行。
CORS 和靜態(tài)服務(wù)：支持基于文件系統(tǒng)的緩存和跨域請(qǐng)求。
清晰文檔：簡(jiǎn)化的入門和高級(jí)使用指南。

Crawl4AI優(yōu)勢(shì)

為 LLM 量身定制：生成適合 RAG 和微調(diào)應(yīng)用的智能、簡(jiǎn)潔 Markdown。
極速性能：實(shí)時(shí)、成本高效的性能，速度比傳統(tǒng)方法快 6 倍。
靈活的瀏覽器控制：提供會(huì)話管理、代理支持和自定義鉤子，確保無縫數(shù)據(jù)訪問。
啟發(fā)式智能：使用先進(jìn)算法高效提取內(nèi)容，減少對(duì)昂貴模型的依賴。
開源且可部署：完全開源，無需 API 密鑰，支持 Docker 和云集成。

Crawl4AI應(yīng)用場(chǎng)景

AI 和機(jī)器學(xué)習(xí)：為 LLM 提供高質(zhì)量的訓(xùn)練數(shù)據(jù)，支持自然語言處理和知識(shí)圖譜構(gòu)建。
數(shù)據(jù)管道：構(gòu)建高效的數(shù)據(jù)管道，實(shí)時(shí)提取和處理網(wǎng)頁數(shù)據(jù)。
內(nèi)容提?。簭木W(wǎng)頁中提取文本、圖片、視頻等多媒體內(nèi)容，用于內(nèi)容管理系統(tǒng)。
學(xué)術(shù)研究：幫助研究人員從網(wǎng)頁中提取論文和研究數(shù)據(jù)，支持學(xué)術(shù)研究工作。
商業(yè)智能：提取市場(chǎng)數(shù)據(jù)、產(chǎn)品信息和用戶評(píng)論，支持商業(yè)決策。
新聞媒體：快速抓取新聞內(nèi)容，支持新聞聚合和內(nèi)容分析。

Crawl4AI安裝使用教程

安裝

基本安裝：

pip install crawl4ai
crawl4ai-setup  # 設(shè)置瀏覽器

安裝預(yù)發(fā)布版本：

pip install crawl4ai --pre

開發(fā)安裝：

git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .  # 基本安裝
pip install -e ".[all]"  # 安裝所有可選功能

Github地址：https://github.com/unclecode/crawl4ai

Crawl4AI文檔：https://docs.crawl4ai.com/

Discord：https://discord.com/invite/jP8KfhDhyN

Cloudflare推出AutoRAG：一個(gè)完全托管的檢索增強(qiáng)生成（RAG）管道

百度地圖MCP：國(guó)內(nèi)首家兼容MCP協(xié)議的地圖服務(wù)

久久五月天婷婷_91精品国产高清久久久久久91裸体_久久精品日韩_美女亚洲精品_视频一区二区三区免费观看_久久国产精品一区二区三区_97国产超碰_精品午夜一区二区_色一情一乱一伦一区二区三区丨_国模精品娜娜一二三区

Crawl4AI：一款開源的AI友好型網(wǎng)絡(luò)爬蟲和抓取器

Crawl4ai是什么？

Crawl4AI功能

Markdown 生成

結(jié)構(gòu)化數(shù)據(jù)提取

瀏覽器集成

爬取與抓取

其他功能

Crawl4AI優(yōu)勢(shì)

Crawl4AI應(yīng)用場(chǎng)景

Crawl4AI安裝使用教程

安裝

相關(guān)文章

最新文章

最新工具

久久五月天婷婷_91精品国产高清久久久久久91裸体_久久精品日韩_美女亚洲精品_视频一区二区三区免费观看_久久国产精品一区二区三区_97国产超碰_精品午夜一区二区_色一情一乱一伦一区二区三区丨_国模精品娜娜一二三区

Crawl4AI：一款開源的AI友好型網(wǎng)絡(luò)爬蟲和抓取器

Crawl4ai是什么？

Crawl4AI功能

Markdown 生成

結(jié)構(gòu)化數(shù)據(jù)提取

瀏覽器集成

爬取與抓取

其他功能

Crawl4AI優(yōu)勢(shì)

Crawl4AI應(yīng)用場(chǎng)景

Crawl4AI安裝使用教程

安裝

相關(guān)文章

最新文章

最新工具

Crawl4ai是什么？