Magi
Magi簡介
Magi模型,可以自動將漫畫轉(zhuǎn)錄成文字并自動生成劇本,還可以通過識別漫畫頁面上的面板、文字塊和角色,重新排序和關(guān)聯(lián),輸出連貫的對話內(nèi)容,準(zhǔn)確地為每幅漫畫生成文本記錄,從而保證輸出文本的邏輯性,使整個流程更加高效。Magi模型由牛津大學(xué)工程科學(xué)系的視覺幾何組開發(fā)。
Magi適用于那些需要將漫畫圖片自動化生成文本的研究人員、開發(fā)者或者漫畫愛好者。它為這些用戶提供了方便快捷的工具,從而幫助他們輕松進(jìn)行數(shù)字化漫畫內(nèi)容及索引。
Magi GitHub源碼:https://github.com/ragavsachdeva/magi
Magi論文:https://arxiv.org/abs/2401.10224

Magi模型主要功能:
面板檢測:精確識別漫畫頁面上的各個面板,即畫家繪制的獨立矩形畫框,這是理解漫畫頁面布局和內(nèi)容的第一步。
文本檢測:在每個面板內(nèi)部定位文字區(qū)域,提取包含重要對話或敘述的文本塊,這是理解面板內(nèi)容的基礎(chǔ)。
角色檢測:檢測每個面板內(nèi)出現(xiàn)的角色,獲取其在圖像中的邊界框、姿態(tài)、表情等視覺信息,這對后續(xù)分析至關(guān)重要。
角色識別:基于檢測結(jié)果,識別每個角色的身份信息,如名字、稱呼等,這可以幫助跟蹤故事中的人物。
角色聚類:根據(jù)面部特征、服裝特征等信息,將同一角色的不同姿態(tài)圖片聚類到一起,從而區(qū)分頁面上的不同角色。
語音分配:判斷文本塊屬于頁面上哪個角色的對話,將語音正確分配給對應(yīng)的角色,這對生成精確的劇本必不可少。
閱讀排序:根據(jù)面板位置、閱讀順序,將分散的文本塊重新排序和連接,輸出連貫的對話內(nèi)容,從而保證輸出文本的邏輯性。
Magi如何使用?
1、上傳漫畫圖片
2、系統(tǒng)自動識別并提取漫畫圖片相關(guān)信息生成文本
3、用戶根據(jù)需要對文本進(jìn)行編輯和修改
通過Magi的這些功能,Magi能夠自動將漫畫頁面轉(zhuǎn)化為詳細(xì)的文字劇本,解決漫畫頁面的自動理解和劇本生成問題,包含角色對話和相應(yīng)的動作或情境描述,這使得漫畫內(nèi)容的數(shù)字化處理變得輕松快捷,使讀者能夠通過閱讀文本來完整地體驗漫畫故事。
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺



