Fin-R1：一款基于Qwen2.5的金融推理型大語言模型

映技派于2025-03-22發(fā)布在Ai產(chǎn)品

Fin-R1是什么？

Fin-R1 是一款由上海財經(jīng)大學(xué)統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院張立文教授團隊（SUFE-aiFLM-Lab）聯(lián)合財躍星辰開發(fā)的金融領(lǐng)域推理型大語言模型，F(xiàn)in-R1模型以 Qwen2.5-7B-Instruct 為基座，利用 DeepSeek-R1 框架進行“數(shù)據(jù)蒸餾”與“雙輪質(zhì)量篩選”，通過高質(zhì)量思維鏈數(shù)據(jù)的監(jiān)督微調(diào)+ 強化學(xué)習，有效解決了金融領(lǐng)域中數(shù)據(jù)碎片化、推理邏輯不可控和業(yè)務(wù)泛化能力不足等問題，為金融行業(yè)的智能化轉(zhuǎn)型提供了有力支持。

Fin-R1：一款專為金融領(lǐng)域設(shè)計的推理型大語言模型.webp

模型架構(gòu)

Fin-R1 采用兩階段架構(gòu)進行訓(xùn)練：

數(shù)據(jù)生成階段：通過數(shù)據(jù)蒸餾和篩選方法，從多個權(quán)威數(shù)據(jù)源構(gòu)建高質(zhì)量的金融推理數(shù)據(jù)集 Fin-R1-Data。
模型訓(xùn)練階段：基于 Qwen2.5-7B-Instruct 模型，通過監(jiān)督微調(diào)（SFT）和強化學(xué)習（RL）進行訓(xùn)練。

Fin-R1數(shù)據(jù)集特點

規(guī)模與質(zhì)量：Fin-R1-Data 包含約 60,091 條完整的思考鏈（CoT），涵蓋中英文金融垂直領(lǐng)域的多維度專業(yè)知識。
模塊化設(shè)計：數(shù)據(jù)集分為金融代碼、金融專業(yè)知識、金融非推理類業(yè)務(wù)知識和金融推理類業(yè)務(wù)知識四大模塊。

Fin-R1核心特點

專業(yè)領(lǐng)域：專注于金融推理，涵蓋金融代碼、專業(yè)知識、業(yè)務(wù)知識等多個維度。
數(shù)據(jù)驅(qū)動：基于高質(zhì)量的金融推理數(shù)據(jù)集 Fin-R1-Data 進行訓(xùn)練，包含約 60,091 條完整的思考鏈。
訓(xùn)練方式：采用監(jiān)督微調(diào)（SFT）和強化學(xué)習（RL）相結(jié)合的方式，確保模型在金融推理任務(wù)中的準確性和可靠性。
輕量化設(shè)計：參數(shù)量僅為 7 億，但性能表現(xiàn)出色。

Fin-R1：一款專為金融領(lǐng)域設(shè)計的推理型大語言模型.webp