銀行賬戶(hù)是資金管理的重要組成部分,是資金業(yè)務(wù)承載的主體。全面、精準的銀行賬戶(hù)用途標簽可以應用于賬戶(hù)畫(huà)像生成、賬戶(hù)異常識別等業(yè)務(wù)場(chǎng)景,對于提升賬戶(hù)管理精細化水平、防范資金安全風(fēng)險有非常重要的意義?;谧匀徽Z(yǔ)言處理的銀行賬戶(hù)用途標簽提取技術(shù),能夠將海量銀行交易流水中非結構化的摘要數據標簽化,形成全面、精準的銀行賬戶(hù)用途標簽數據,幫助資金管理人員全面了解銀行賬戶(hù)的歷史交易行為,及時(shí)洞察賬戶(hù)異常,精準定位交易風(fēng)險。
一、建設背景
2022年1月,國務(wù)院國資委發(fā)布《關(guān)于推動(dòng)中央企業(yè)加快司庫體系建設進(jìn)一步加強資金管理的意見(jiàn)》?!兑庖?jiàn)》要求,中央企業(yè)要把銀行賬戶(hù)、票據管理、資金結算等操作類(lèi)業(yè)務(wù)和資金集中、債務(wù)融資等運營(yíng)類(lèi)業(yè)務(wù)作為司庫管理的重點(diǎn),納入信息系統,固化管理要求、規范操作流程,實(shí)現穿透監測;要加大5G、大數據、云計算、物聯(lián)網(wǎng)、區塊鏈、人工智能等現代信息技術(shù)在司庫信息系統建設中的創(chuàng )新應用力度等。
電網(wǎng)企業(yè)資金流動(dòng)規模大、交易頻繁,是典型的資金密集型企業(yè)。當前,電網(wǎng)企業(yè)在銀行賬戶(hù)、資金安全管理方面仍存在精細化水平不足、監控規則不完善等問(wèn)題。其中,在銀行賬戶(hù)方面,由于賬戶(hù)交易量大,缺乏有效管理手段,無(wú)法感知賬戶(hù)的交易行為,容易形成管理盲區,存在一定的安全隱患。
二、解決方案和技術(shù)
為了提升電網(wǎng)企業(yè)銀行賬戶(hù)管理精細化水平,防范資金安全風(fēng)險,本方案應用自然語(yǔ)言處理技術(shù),對企業(yè)海量銀行交易流水的摘要數據,進(jìn)行句法關(guān)系解析,智能提取交易標簽和業(yè)務(wù)標簽(如下圖1所示),形成動(dòng)態(tài)、完整、全面的資金賬戶(hù)用途標簽數據,并通過(guò)對比歷史和近期標簽,發(fā)現賬戶(hù)異常行為,為銀行賬戶(hù)提供有力的管理抓手。
圖1 交易標簽(左)和業(yè)務(wù)標簽(右)
本方案的主要技術(shù)分為4部分:數據預處理、詞庫構建、語(yǔ)義結構提取及標簽提取,如下圖2所示:
圖2 標簽提取流程
2.1 數據預處理
本步驟主要是去重和剔除摘要中的噪聲數據,比如日期、數字、英文及收款單位名稱(chēng),清洗后的摘要只保留了關(guān)鍵信息,如下表1所示:
表1 數據預處理示例
2.2 詞庫構建
本步驟應用的詞庫有業(yè)務(wù)同義詞庫、業(yè)務(wù)動(dòng)詞庫及業(yè)務(wù)關(guān)鍵字庫,其中業(yè)務(wù)同義詞庫用于合并語(yǔ)義相同的交易業(yè)務(wù),例如<差旅費、出差費>;業(yè)務(wù)動(dòng)詞庫用于識別業(yè)務(wù)動(dòng)作,例如退、預收、上繳等;業(yè)務(wù)關(guān)鍵詞庫用于精準判別和定位交易業(yè)務(wù),例如費、稅、金等,具體如表2所示:
表2 詞庫示例
2.3 語(yǔ)義結構提取
本步驟利用哈爾濱工業(yè)大學(xué)的LTP(Language Technology Platform)開(kāi)源中文NLP系統對預處理后的交易摘要進(jìn)行句法解析,包括分詞、詞性標注、命名實(shí)體識別、依存句法分析四個(gè)步驟,最終生成依存句法依賴(lài)關(guān)系樹(shù),如下圖3所示:
圖3 依存句法依賴(lài)關(guān)系樹(shù)
根據銀行流水摘要的特點(diǎn),本方案主要用到關(guān)系包括核心詞(HED)、主謂關(guān)系(SBV)、動(dòng)賓關(guān)系(VOB)、并列關(guān)系(COO)及狀中關(guān)系(ATT)。
2.4 標簽提取
標簽提取是本方案的核心步驟,包括交易標簽提取、業(yè)務(wù)標簽提取及未提取標簽填充3部分。
(1)交易標簽提取
根據句法依賴(lài)關(guān)系樹(shù),按規則(如下表3所示)提取交易標簽,例如差旅費、購電費等主要用到了業(yè)務(wù)同義詞庫。
表3 交易標簽提取規則
(2)業(yè)務(wù)標簽提取
根據句法依賴(lài)關(guān)系樹(shù),按規則(如下表4、表5所示)提取業(yè)務(wù)標簽,例如報銷(xiāo)差旅費、預付購電費等,主要用到了業(yè)務(wù)動(dòng)詞庫和業(yè)務(wù)關(guān)鍵詞庫。由于交易業(yè)務(wù)往往會(huì )帶有明顯的關(guān)鍵詞,比如費、款、金等,因此業(yè)務(wù)標簽提取規則將圍繞這些關(guān)鍵字展開(kāi)設計。
規則1:分詞結果能模糊匹配關(guān)鍵詞庫中的詞,模糊匹配的詞記為H。將分詞結果中的詞與業(yè)務(wù)動(dòng)詞庫中的詞相匹配。挑選優(yōu)先級最高的動(dòng)詞記為V,默認V為“付”。如果V是H的子字符串,業(yè)務(wù)標簽為H;否則業(yè)務(wù)標簽為V+H。
表4 業(yè)務(wù)標簽規則1示例
規則2:分詞結果能完全匹配關(guān)鍵詞庫中的詞。完全匹配的詞記為H,根據句法分析結果找到與H有ATT關(guān)系的詞,記為ATTH。將分詞結果中的詞與業(yè)務(wù)動(dòng)詞庫中的詞相匹配。挑選優(yōu)先級最高的動(dòng)詞記為V,默認V為“付”。如果V是ATTH+H的子字符串,業(yè)務(wù)標簽為ATTH+H;否則業(yè)務(wù)標簽為V+ATTH+H。
表5 業(yè)務(wù)標簽規則2示例
(3)未提取標簽填充
對于未能提取交易標簽但提取了業(yè)務(wù)標簽的摘要,將業(yè)務(wù)標簽去除與業(yè)務(wù)動(dòng)詞庫相匹配的詞,即可獲得交易標簽,例如:<付牛羊肉款>轉為交易標簽<牛羊肉款>
對于提取了交易標簽但未能提取業(yè)務(wù)標簽的摘要,將交易標簽加上摘要分詞結果中與業(yè)務(wù)動(dòng)詞庫相匹配的詞,即可獲得業(yè)務(wù)標簽,例如:摘要為“光伏發(fā)電”,交易標簽提取為<光伏費>,業(yè)務(wù)標簽沒(méi)有提取成功,根據本規則,業(yè)務(wù)標簽填充為<付光伏費>。
三、建設成效
本方案應用于某省電網(wǎng)公司,使用6個(gè)月近百萬(wàn)的銀行交易流水數據對模型的效果進(jìn)行測試和評估,獲得了96%以上F1值,證實(shí)了模型有效性和實(shí)用性,能夠在電網(wǎng)企業(yè)進(jìn)行推廣應用。
作者:尊龙凯时軟件股份有限公司 李玫 丁德智 張允君 李國棟
咨見(jiàn) 第九期
“咨見(jiàn)”專(zhuān)欄自2022年1月起推出,匯聚尊龙凯时軟件咨詢(xún)及實(shí)施專(zhuān)家團隊智慧,解讀最新政策,聚焦行業(yè)觀(guān)點(diǎn),分享優(yōu)秀案例,輸出數字企業(yè)、智慧能源方案及新興科技研究等內容,形成“尊龙凯时咨詢(xún)智庫”,分享尊龙凯时專(zhuān)家們的智慧洞察,積累專(zhuān)業(yè)知識,謹與大家一起學(xué)習交流,共同成長(cháng)。
服務(wù)熱線(xiàn):
0756-3399888
留言板
返回頂部