PDF Document Layout Analysis:基于Docker的PDF文檔布局分析和PDF OCR服務(wù)
PDF Document Layout Analysis是什么?
PDF Document Layout Analysis 是一個基于 Docker 的服務(wù),用于分析 PDF 文檔的布局。它能夠?qū)?PDF 頁面的不同部分進(jìn)行分割和分類,能準(zhǔn)確自動識別 PDF 頁面中的文本、標(biāo)題、圖片、表格等元素,并確定這些元素的正確順序。

PDF Document Layout Analysis功能特征
1. OCR 功能
多語言支持:支持多種語言的 OCR 功能,用戶可以通過指定語言參數(shù)來處理不同語言的 PDF 文檔。
文本提?。簩?PDF 中的圖像或不可搜索的文本轉(zhuǎn)換為可搜索的文本格式,便于后續(xù)處理和分析。
2. 頁面分割和分類
識別多種元素:能夠識別和分類 PDF 頁面中的多種元素:
文本:普通文本內(nèi)容。
標(biāo)題:文檔的標(biāo)題和小標(biāo)題。
圖片:頁面中的圖像。
表格:表格內(nèi)容。
公式:數(shù)學(xué)公式,支持 LaTeX 格式輸出。
列表項:有序或無序的列表。
頁眉和頁腳:頁面的頁眉和頁腳。
腳注:文檔中的腳注。
其他:如圖片說明、表格標(biāo)題等。
精確分類:使用先進(jìn)的視覺模型(如 Vision Grid Transformer - VGT)和機器學(xué)習(xí)模型(如 LightGBM),確保高精度的分類結(jié)果。
3. 元素排序
邏輯順序:根據(jù)頁面布局和元素類型,自動確定元素的邏輯順序,確保輸出結(jié)果符合文檔的閱讀順序。
自定義排序規(guī)則:結(jié)合 Poppler 的初始閱讀順序和段落類型,對元素進(jìn)行排序,確保輸出的邏輯性和連貫性。
4. 可視化輸出
可視化 PDF:支持將分析結(jié)果可視化為新的 PDF 文件,用戶可以直觀地查看分割和分類的結(jié)果。
標(biāo)注功能:在可視化輸出中,不同類型的元素會以不同的顏色或樣式進(jìn)行標(biāo)注,便于區(qū)分。
5. 表格和公式提取
表格提取:支持將表格提取為多種格式,如 Markdown、LaTeX 或 HTML,便于進(jìn)一步處理和分析。
公式提取:公式以 LaTeX 格式輸出,方便在學(xué)術(shù)和工程文檔中使用。

PDF Document Layout Analysis應(yīng)用場景
學(xué)術(shù)研究:從研究論文中提取和組織文本、圖表、表格和參考文獻(xiàn),便于文獻(xiàn)綜述和數(shù)據(jù)分析。
法律文檔分析:分析和結(jié)構(gòu)化法律文件、合同和案例文件。
商業(yè)報告:自動化提取財務(wù)數(shù)據(jù)、圖表和關(guān)鍵指標(biāo),便于生成見解和摘要。
檔案和數(shù)字化:數(shù)字化和分類歷史文檔、手稿和檔案,以易于搜索的格式保存。
出版和媒體:組織和格式化手稿、文章和報告的內(nèi)容,確保一致性和質(zhì)量。
快速開始
運行服務(wù):支持 GPU 和非 GPU 模式。
OCR 功能:支持多種語言,通過 curl 命令調(diào)用。
獲取分割結(jié)果:通過 curl 命令發(fā)送 PDF 文件,獲取分割后的結(jié)果。
停止服務(wù):提供停止服務(wù)器的命令。
依賴和要求
Docker Desktop:需要安裝 Docker Desktop 4.25.0 或更高版本。
GPU 支持:如果需要 GPU 加速,需要安裝相應(yīng)的 GPU 支持軟件。
硬件要求:至少需要 2 GB 內(nèi)存,如果使用 GPU,需要 5 GB GPU 內(nèi)存。
模型
視覺模型(Vision Grid Transformer - VGT):默認(rèn)模型,由阿里巴巴研究團(tuán)隊訓(xùn)練,支持更復(fù)雜的布局分析,但需要更多資源。
LightGBM 模型:非視覺模型,使用 Poppler 提取的 XML 信息進(jìn)行分類和分割,速度更快,資源占用更少。
數(shù)據(jù)
訓(xùn)練數(shù)據(jù):使用 DocLayNet 數(shù)據(jù)集,包含 11 種類別,如標(biāo)題、腳注、公式、列表項等。
使用方法
基本命令:通過 curl 命令發(fā)送 PDF 文件,選擇使用視覺模型或非視覺模型。
可視化輸出:支持將分析結(jié)果可視化為 PDF 文件。
表格和公式提取:支持將表格和公式以不同格式(如 LaTeX、Markdown)提取。
輸出順序
排序規(guī)則:基于 Poppler 的初始閱讀順序和段落類型進(jìn)行排序,確保輸出的邏輯順序。
性能和速度
性能:VGT 模型在 PubLayNet 數(shù)據(jù)集上的表現(xiàn)優(yōu)異,平均準(zhǔn)確率超過 96%。
速度:非視覺模型在 CPU 上每頁處理速度為 0.42 秒,視覺模型在 GPU 上為 1.75 秒,在 CPU 上為 13.5 秒。
相關(guān)鏈接
GitHub:https://github.com/huridocs/pdf-document-layout-analysis
DockerHub:https://hub.docker.com/r/huridocs/pdf-document-layout-analysis
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺










