Crawl4AI:一款開源的AI友好型網(wǎng)絡(luò)爬蟲和抓取器
Crawl4ai是什么?
Crawl4AI 是一款開源的 AI 友好型網(wǎng)絡(luò)爬蟲和抓取器,GitHub 上的熱門項(xiàng)目,專為 LLM、AI 代理和數(shù)據(jù)管道設(shè)計(jì)。它支持快速、靈活的網(wǎng)頁數(shù)據(jù)提取,生成適合 LLM 的 Markdown 格式數(shù)據(jù),并具備結(jié)構(gòu)化數(shù)據(jù)提取、瀏覽器集成、動(dòng)態(tài)內(nèi)容處理等功能。

Crawl4AI功能
Markdown 生成
清潔 Markdown:生成結(jié)構(gòu)清晰、格式準(zhǔn)確的 Markdown 文本。
適配 Markdown:基于啟發(fā)式算法過濾噪聲和無關(guān)內(nèi)容,生成適合 AI 處理的 Markdown。
引用和參考:將頁面鏈接轉(zhuǎn)換為編號(hào)參考列表,并提供清晰的引用。
自定義策略:用戶可以創(chuàng)建自己的 Markdown 生成策略,以滿足特定需求。
BM25 算法:基于 BM25 算法過濾內(nèi)容,提取核心信息,去除無關(guān)內(nèi)容。
結(jié)構(gòu)化數(shù)據(jù)提取
LLM 驅(qū)動(dòng)提?。褐С炙?LLM(開源和專有)進(jìn)行結(jié)構(gòu)化數(shù)據(jù)提取。
分塊策略:實(shí)現(xiàn)基于主題、正則表達(dá)式和句子級(jí)別的分塊處理。
余弦相似度:基于用戶查詢找到相關(guān)的內(nèi)容塊,實(shí)現(xiàn)語義提取。
CSS 基礎(chǔ)提?。菏褂?XPath 和 CSS 選擇器進(jìn)行快速模式化數(shù)據(jù)提取。
模式定義:定義自定義模式,從重復(fù)模式中提取結(jié)構(gòu)化 JSON 數(shù)據(jù)。
瀏覽器集成
托管瀏覽器:使用用戶自己的瀏覽器,避免被檢測(cè)為爬蟲。
遠(yuǎn)程瀏覽器控制:通過 Chrome 開發(fā)者工具協(xié)議連接到遠(yuǎn)程瀏覽器,進(jìn)行大規(guī)模數(shù)據(jù)提取。
瀏覽器配置文件:創(chuàng)建和管理持久化配置文件,保存認(rèn)證狀態(tài)、Cookie 和設(shè)置。
會(huì)話管理:保留瀏覽器狀態(tài)并重復(fù)使用,以支持多步驟爬取。
代理支持:無縫連接到帶認(rèn)證的代理,確保安全訪問。
完整瀏覽器控制:修改請(qǐng)求頭、Cookie、用戶代理等,以定制爬取設(shè)置。
多瀏覽器支持:兼容 Chromium、Firefox 和 WebKit。
動(dòng)態(tài)視口調(diào)整:自動(dòng)調(diào)整瀏覽器視口以匹配頁面內(nèi)容,確保完整渲染和捕獲所有元素。
爬取與抓取
媒體支持:提取圖片、音頻、視頻以及響應(yīng)式圖片格式(如 srcset 和 picture)。
動(dòng)態(tài)爬取:執(zhí)行 JavaScript 并等待異步或同步內(nèi)容,以提取動(dòng)態(tài)內(nèi)容。
截圖:在爬取過程中捕獲頁面截圖,用于調(diào)試或分析。
原始數(shù)據(jù)爬?。褐苯犹幚碓?HTML(raw:)或本地文件(file://)。
全面鏈接提?。禾崛?nèi)部、外部鏈接以及嵌入的 iframe 內(nèi)容。
自定義鉤子:在每個(gè)步驟定義鉤子,以自定義爬取行為。
緩存:緩存數(shù)據(jù)以提高速度,避免重復(fù)抓取。
元數(shù)據(jù)提?。簭木W(wǎng)頁中提取結(jié)構(gòu)化元數(shù)據(jù)。
iframe 內(nèi)容提?。簾o縫提取嵌入的 iframe 內(nèi)容。
懶加載處理:等待圖片完全加載,確保不因懶加載而遺漏內(nèi)容。
全頁掃描:模擬滾動(dòng)以加載和捕獲所有動(dòng)態(tài)內(nèi)容,適用于無限滾動(dòng)頁面。
其他功能
隱身模式:通過模仿真實(shí)用戶行為避免被檢測(cè)為爬蟲。
基于標(biāo)簽的內(nèi)容提?。焊鶕?jù)自定義標(biāo)簽、標(biāo)題或元數(shù)據(jù)細(xì)化爬取內(nèi)容。
鏈接分析:提取并分析所有鏈接,進(jìn)行詳細(xì)的數(shù)據(jù)探索。
錯(cuò)誤處理:強(qiáng)大的錯(cuò)誤管理,確保無縫執(zhí)行。
CORS 和靜態(tài)服務(wù):支持基于文件系統(tǒng)的緩存和跨域請(qǐng)求。
清晰文檔:簡(jiǎn)化的入門和高級(jí)使用指南。
Crawl4AI優(yōu)勢(shì)
為 LLM 量身定制:生成適合 RAG 和微調(diào)應(yīng)用的智能、簡(jiǎn)潔 Markdown。
極速性能:實(shí)時(shí)、成本高效的性能,速度比傳統(tǒng)方法快 6 倍。
靈活的瀏覽器控制:提供會(huì)話管理、代理支持和自定義鉤子,確保無縫數(shù)據(jù)訪問。
啟發(fā)式智能:使用先進(jìn)算法高效提取內(nèi)容,減少對(duì)昂貴模型的依賴。
開源且可部署:完全開源,無需 API 密鑰,支持 Docker 和云集成。
Crawl4AI應(yīng)用場(chǎng)景
AI 和機(jī)器學(xué)習(xí):為 LLM 提供高質(zhì)量的訓(xùn)練數(shù)據(jù),支持自然語言處理和知識(shí)圖譜構(gòu)建。
數(shù)據(jù)管道:構(gòu)建高效的數(shù)據(jù)管道,實(shí)時(shí)提取和處理網(wǎng)頁數(shù)據(jù)。
內(nèi)容提?。簭木W(wǎng)頁中提取文本、圖片、視頻等多媒體內(nèi)容,用于內(nèi)容管理系統(tǒng)。
學(xué)術(shù)研究:幫助研究人員從網(wǎng)頁中提取論文和研究數(shù)據(jù),支持學(xué)術(shù)研究工作。
商業(yè)智能:提取市場(chǎng)數(shù)據(jù)、產(chǎn)品信息和用戶評(píng)論,支持商業(yè)決策。
新聞媒體:快速抓取新聞內(nèi)容,支持新聞聚合和內(nèi)容分析。
Crawl4AI安裝使用教程
安裝
基本安裝:
pip install crawl4ai crawl4ai-setup # 設(shè)置瀏覽器
安裝預(yù)發(fā)布版本:
pip install crawl4ai --pre
開發(fā)安裝:
git clone https://github.com/unclecode/crawl4ai.git cd crawl4ai pip install -e . # 基本安裝 pip install -e ".[all]" # 安裝所有可選功能
Github地址:https://github.com/unclecode/crawl4ai
Crawl4AI文檔:https://docs.crawl4ai.com/
Discord:https://discord.com/invite/jP8KfhDhyN
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)










