Nanonets-OCR-s:能把圖片里的表格轉(zhuǎn)換成Markdown格式模型
Nanonets-OCR-s是什么?
Nanonets-OCR-s,能把圖片里的表格轉(zhuǎn)換成Markdown格式,而且還能識別 LaTeX 語法。它還能找到圖片的位置,轉(zhuǎn)換成 <img> 標簽。簽名會被轉(zhuǎn)換成 <signature> 標簽,復(fù)選框之類的符號會用顏文字表示。它還能處理合并單元格的表格,并輸出為 HTML 格式。這個模型大小是 3.75B,是基于 Qwen2.5-VL-3B-Instruct 微調(diào)的,所以中文支持得很好。

功能亮點
表格轉(zhuǎn)換:可以精準提取復(fù)雜表格,并將其轉(zhuǎn)換為清晰的 Markdown 和 HTML 格式。
公式識別:能夠?qū)⑽臋n中的數(shù)學(xué)公式準確轉(zhuǎn)換為 LaTeX 語法,無論是內(nèi)聯(lián)公式還是獨立公式都能輕松應(yīng)對。
圖像處理:自動識別文檔中的圖片,并用 <img> 標簽進行描述,方便后續(xù)處理。
簽名與水印提?。嚎梢詸z測到文檔中的簽名和水印,并分別用 <signature> 和 <watermark> 標簽標記出來。
復(fù)選框處理:將文檔中的復(fù)選框和單選按鈕轉(zhuǎn)換為標準的 Unicode 符號,方便閱讀和編輯。
使用方式
通過 Python 庫:
安裝必要的庫(如 transformers 等)。
加載預(yù)訓(xùn)練模型,然后處理圖像并提取內(nèi)容。
通過服務(wù)器接口:
啟動服務(wù)器,通過 Python 和相關(guān)客戶端發(fā)送請求,獲取轉(zhuǎn)換結(jié)果。
通過簡化工具:
使用 docext 等工具,一鍵啟動應(yīng)用,簡化操作流程。
適用場景
學(xué)術(shù)研究:快速將論文中的公式、圖表和表格轉(zhuǎn)換為可編輯的 Markdown 格式,方便整理和進一步研究。
商業(yè)辦公:處理合同、報表等文件,提取關(guān)鍵信息并保持格式一致,提高工作效率。
法律領(lǐng)域:識別和隔離簽名、水印等重要元素,確保文檔的完整性和準確性。
優(yōu)勢
功能強大:能識別多種文檔元素,滿足不同場景的需求。
智能高效:通過智能識別和語義標記,讓輸出內(nèi)容更易于處理。
輕量便捷:模型大小適中,基于現(xiàn)有技術(shù)優(yōu)化,支持中文。
項目地址
https://huggingface.co/nanonets/Nanonets-OCR-s
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺










