国产精品无码无卡无需播放器,日韩AV无码午夜免费福利制服,世界上面积最大的国家,黑森林福利视频导航

金融審計(jì)數(shù)據(jù)分析研究

前言:尋找寫作靈感?中文期刊網(wǎng)用心挑選的金融審計(jì)數(shù)據(jù)分析研究,希望能為您的閱讀和創(chuàng)作帶來靈感,歡迎大家閱讀并分享。

金融審計(jì)數(shù)據(jù)分析研究

摘要:針對由于初始變量數(shù)據(jù)過多,導(dǎo)致金融審計(jì)數(shù)據(jù)挖掘精度不足的問題,進(jìn)行基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析研究。本文首先從被審計(jì)的金融機(jī)構(gòu)信息系統(tǒng)中提取所需數(shù)據(jù),并對其進(jìn)行預(yù)處理,包括缺失值處理、重復(fù)數(shù)據(jù)處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)變換等,其次利用主成分分析方法解決初始變量數(shù)據(jù)過多問題,降低數(shù)據(jù)維度,最后選取聚類算法作為挖掘方法,實(shí)現(xiàn)金融審計(jì)異常數(shù)據(jù)分析。結(jié)果表明:與神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法相比,本方法精度更高,以期為后續(xù)研究提供參考。

關(guān)鍵詞:數(shù)據(jù)挖掘;金融審計(jì)數(shù)據(jù);聚類算法;數(shù)據(jù)維度

審計(jì)機(jī)關(guān)是推動(dòng)完善公共治理的重要力量,它可以通過提供以證據(jù)為基礎(chǔ)的解決系統(tǒng)性問題的意見及建議,促進(jìn)、完善政策和方案,發(fā)揮審計(jì)的監(jiān)督、洞察和前瞻功能,推動(dòng)改善公共治理[1]。近年來,審計(jì)機(jī)關(guān)通過開展金融審計(jì)工作,有效地發(fā)揮了監(jiān)督、洞察與前瞻功能,在促進(jìn)防范和化解金融風(fēng)險(xiǎn),提高金融服務(wù)實(shí)體經(jīng)濟(jì)質(zhì)量和效益,完善金融監(jiān)管體制,推動(dòng)金融體制改革和金融領(lǐng)域反腐倡廉等方面發(fā)揮了重要作用。然而,在審計(jì)機(jī)構(gòu)進(jìn)行金融審計(jì)時(shí),面臨海量的數(shù)據(jù),僅僅依靠傳統(tǒng)的數(shù)據(jù)檢索機(jī)制和方法是遠(yuǎn)遠(yuǎn)不夠的,存在審計(jì)效率低下等問題。在上述背景下,數(shù)據(jù)挖掘技術(shù)應(yīng)用成為審計(jì)領(lǐng)域研究的重點(diǎn)課題。利用數(shù)據(jù)挖掘技術(shù)尋找數(shù)據(jù)間潛在的關(guān)聯(lián),關(guān)鍵在于挖掘算法的選擇上。常用的挖掘算法有很多,如Desaietal利用神經(jīng)網(wǎng)絡(luò)分類挖掘算法對3000個(gè)觀察數(shù)據(jù)進(jìn)行分析;孫北伐、張高煜、徐倩蓉等在《大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘在審計(jì)中的分析與應(yīng)用》中介紹決策樹算法和隨機(jī)森林算法的數(shù)據(jù)分析過程。此外,數(shù)據(jù)挖掘還包括聚類算法、神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法等[2]。本文在已有研究經(jīng)驗(yàn)的基礎(chǔ)上,以聚類算法為基礎(chǔ),進(jìn)行數(shù)據(jù)挖掘研究。研究過程如下:首先進(jìn)行金融審計(jì)數(shù)據(jù)采集并進(jìn)行預(yù)處理,提高數(shù)據(jù)質(zhì)量,然后選取聚類算法作為挖掘算法,設(shè)置挖掘條件,進(jìn)行模式匹配,找尋可疑數(shù)據(jù)。通過這些可疑數(shù)據(jù),審計(jì)機(jī)構(gòu)可以以此為依據(jù)進(jìn)行追蹤,探尋企業(yè)違法犯罪行為,為金融領(lǐng)域反腐倡廉工作提供依據(jù)。

1基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析方法

隨著計(jì)算機(jī)網(wǎng)絡(luò)以及信息技術(shù)的不斷發(fā)展,各行各業(yè)對信息系統(tǒng)的依賴程度越來越深,其中金融審計(jì)就是其中一個(gè)。金融審計(jì)就是在海量數(shù)據(jù)中尋找異常數(shù)據(jù),從而發(fā)現(xiàn)問題,得出各種金融機(jī)構(gòu)的經(jīng)營狀況,以便避免出現(xiàn)金融風(fēng)險(xiǎn),揭露隱藏的違法違規(guī)行為,推進(jìn)反腐倡廉工作。現(xiàn)代金融審計(jì)人員面對的不再是簡單的紙質(zhì)賬目,而是存儲(chǔ)在計(jì)算機(jī)系統(tǒng)數(shù)據(jù)庫中的種類繁多的電子數(shù)據(jù),要想通過人工完成數(shù)據(jù)分析是不現(xiàn)實(shí)的,因此本文通過數(shù)據(jù)挖掘技術(shù)進(jìn)行金融審計(jì)數(shù)據(jù)分析。

1.1金融審計(jì)數(shù)據(jù)采集。金融審計(jì)數(shù)據(jù)采集進(jìn)行數(shù)據(jù)挖掘的第一步,也是后續(xù)進(jìn)行數(shù)據(jù)分析的基礎(chǔ)和前提。金融審計(jì)數(shù)據(jù)采集是指審計(jì)人員在利用計(jì)算機(jī)審計(jì)時(shí),需要根據(jù)審計(jì)要求從被審計(jì)的金融機(jī)構(gòu)信息系統(tǒng)中提取數(shù)據(jù)文件的過程[3]。目前,采集方式主要有三種,即直接讀取數(shù)據(jù)的方式、數(shù)據(jù)庫連接性的方式以及數(shù)據(jù)傳輸?shù)姆绞?,三種方式特點(diǎn)比較如表1所示

1.2金融審計(jì)數(shù)據(jù)預(yù)處理。從各個(gè)金融機(jī)構(gòu)系統(tǒng)數(shù)據(jù)采集得到的數(shù)據(jù)受到人為因素、系統(tǒng)因素等的影響,數(shù)據(jù)質(zhì)量并不高,若直接用于后續(xù)數(shù)據(jù)挖掘,將會(huì)導(dǎo)致數(shù)據(jù)分析準(zhǔn)確性降低。為此,需要對采集到的數(shù)據(jù)進(jìn)行預(yù)處理,具體包括缺失值處理、重復(fù)數(shù)據(jù)處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)變換等[4]。1.2.1缺失值處理采集得到的原始數(shù)據(jù)極有可能存在缺失值,但是缺失值并不意味數(shù)據(jù)有錯(cuò)誤。缺失值在整個(gè)數(shù)據(jù)集若是一個(gè)關(guān)鍵值,就需要進(jìn)行填補(bǔ)。缺失值填補(bǔ)的方法有很多,如人工填寫、平均值填充、最鄰近方法填充、期望值最大化方法填充、貝葉斯Boostrap方法填充、回歸法填充等。1.2.2重復(fù)數(shù)據(jù)處理在采集到的原始金融審計(jì)數(shù)據(jù)中還存在一些重復(fù)記錄的數(shù)據(jù),這些數(shù)據(jù)也被稱為冗余數(shù)據(jù)。冗余數(shù)據(jù)的存在會(huì)增加后續(xù)數(shù)據(jù)挖掘和分析的計(jì)算量,降低數(shù)據(jù)分析效率。對于重復(fù)數(shù)據(jù)的處理,需要進(jìn)行記錄排序,即根據(jù)關(guān)鍵字、詞等進(jìn)行排序,然后識(shí)別重復(fù)記錄,將重復(fù)的數(shù)據(jù)進(jìn)行合并。對于重復(fù)記錄識(shí)別,可以通過簡單的模糊匹配或各個(gè)角度的相似度計(jì)算來完成。1.2.3噪聲數(shù)據(jù)處理由于各種原因?qū)е聦傩灾挡徽_或不一致的數(shù)據(jù)被稱為噪聲數(shù)據(jù)。對于噪聲數(shù)據(jù),處理方法主要有三種:分箱、回歸以及聚類,如表2所示。1.2.4數(shù)據(jù)變換采集到的原始金融審計(jì)數(shù)據(jù)可能來自被審計(jì)金融機(jī)構(gòu)的不同類型的數(shù)據(jù)庫,而不同類型的數(shù)據(jù)庫的數(shù)據(jù)是不同的,無法進(jìn)行比較分析,因此需要將不同形式的金融審計(jì)數(shù)據(jù)轉(zhuǎn)換成適合的審計(jì)分析軟件處理所需要的形式,將數(shù)據(jù)規(guī)范成相對統(tǒng)計(jì)的形式,去除量綱,即數(shù)據(jù)規(guī)范化。數(shù)據(jù)規(guī)范化方法主要有以下三種。(1)Min-Max標(biāo)準(zhǔn)化(Min-Maxnormalization)Min-Max標(biāo)準(zhǔn)化,也稱為最小-最大規(guī)范化,基本原理是對原始金融審計(jì)數(shù)據(jù)進(jìn)行線性變換,使變換后的結(jié)果落到[0,1]區(qū)間內(nèi)。Min-Max標(biāo)準(zhǔn)化表達(dá)式如下:其中,為規(guī)范化后數(shù)據(jù);為原始數(shù)據(jù);為樣本數(shù)據(jù)的最大值;為樣本數(shù)據(jù)的最小值。(2)Z-score標(biāo)準(zhǔn)化(zero-meannormalization)Z-score標(biāo)準(zhǔn)化,也稱為標(biāo)準(zhǔn)差規(guī)范化,基本原理是讓經(jīng)過處理的原始金融審計(jì)數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1。Z-score標(biāo)準(zhǔn)化表達(dá)式如下:其中,為對應(yīng)特征均值;為標(biāo)準(zhǔn)差。(3)小數(shù)定標(biāo)標(biāo)準(zhǔn)化(Decimalscaling)小數(shù)定標(biāo)標(biāo)準(zhǔn)化基本原理是通過移動(dòng)數(shù)據(jù)屬性值的小數(shù)點(diǎn)位置來進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化的結(jié)果最終落到[-1,1]區(qū)間內(nèi)。小數(shù)點(diǎn)移動(dòng)多少位取決于屬性取值中的最大絕對值。小數(shù)定標(biāo)標(biāo)準(zhǔn)化表達(dá)式如下:其中,為滿足條件的最小整數(shù)。

1.3金融審計(jì)數(shù)據(jù)降維。以往利用數(shù)據(jù)挖掘算法進(jìn)行直接金融審計(jì)數(shù)據(jù)分析時(shí),往往存在計(jì)算量大、分析不準(zhǔn)確的問題,而導(dǎo)致這一現(xiàn)象的主要原因是后續(xù)輸入到數(shù)據(jù)挖掘算法中初始變量數(shù)據(jù)過多。對于上述問題,將數(shù)據(jù)降維十分必要。數(shù)據(jù)降維是指在保證原始數(shù)據(jù)損失量最小的前提下,優(yōu)化數(shù)據(jù)組成,降低數(shù)據(jù)維度,減少數(shù)據(jù)規(guī)模。對于數(shù)據(jù)降維問題,解決方法有很多,大致分為線性映射和非線性映射方法兩大類。在本文中選擇主成分分析方法進(jìn)行金融審計(jì)數(shù)據(jù)降維。具體過程如下:步驟1:假設(shè)待分析原始金融審計(jì)數(shù)據(jù)的形式是一個(gè)X包含n個(gè)樣本的樣本集。步驟2:對樣本集中的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,處理方法見1.2.4中數(shù)據(jù)變換處理方法,最后得到的標(biāo)準(zhǔn)化矩陣Z。步驟3:計(jì)算標(biāo)準(zhǔn)化矩陣Z的相關(guān)系數(shù)矩陣R。步驟4:用雅克比方法解矩陣R的特征方程,得特征根和特征向量(主成分)。步驟5:計(jì)算主成分累計(jì)貢獻(xiàn)率,一般選擇超過85%貢獻(xiàn)率的主成分作為重要主成分。步驟6:重要主成分即為降維后數(shù)據(jù)。

1.4金融審計(jì)數(shù)據(jù)挖掘分析。數(shù)據(jù)挖掘的概念是在20世紀(jì)80年代提出的,其定義是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中找尋價(jià)值信息和知識(shí)的過程,因此數(shù)據(jù)挖掘也被稱為“知識(shí)發(fā)現(xiàn)”,一般分為以下幾個(gè)過程,如圖1所示。從圖1中可以看出,前文已經(jīng)介紹了數(shù)據(jù)挖掘的準(zhǔn)備環(huán)節(jié),現(xiàn)進(jìn)行數(shù)據(jù)挖掘分析。在數(shù)據(jù)挖掘中,關(guān)鍵在于算法的選擇上。數(shù)據(jù)挖掘算法有很多,如聚類算法、神經(jīng)網(wǎng)絡(luò)算法、決策樹算法、遺傳算法等。選擇聚類算法進(jìn)行數(shù)據(jù)挖掘,其理由是該算法具有可伸縮性,圖形數(shù)據(jù)集的劃分效果良好,并且十分高效。聚類算法是指按照某種數(shù)據(jù)特征進(jìn)行分類,同一類的數(shù)據(jù)具有相同的特征,從而從中分辨出不同特征的數(shù)據(jù),即異常數(shù)據(jù)。具體過程大致分為以下五個(gè)步驟。步驟1:從金融審計(jì)數(shù)據(jù)中隨機(jī)選定K個(gè)樣本數(shù)據(jù)點(diǎn)作為初始聚類中心;步驟2:計(jì)算這K個(gè)初始聚類中心到其他樣本數(shù)據(jù)點(diǎn)的距離,包括閔可夫斯基距離、歐式距離、曼哈頓距離等;步驟3:根據(jù)距離計(jì)算結(jié)果對每一個(gè)樣本數(shù)據(jù)點(diǎn)進(jìn)行分類;步驟4:重新計(jì)算每個(gè)類的類中心;步驟5:判斷得到的新聚類中心是否與原來的初始聚類中心相同。若相同,聚類結(jié)束,輸出聚類結(jié)果;否則回到步驟2,重新進(jìn)行聚類,直到目標(biāo)函數(shù)收斂。

2實(shí)驗(yàn)分析

本文為測試基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析方法的性能,以神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法等數(shù)據(jù)挖掘方法作為對比項(xiàng),進(jìn)行實(shí)驗(yàn)分析。

2.1實(shí)驗(yàn)數(shù)據(jù)。保險(xiǎn)公司是我國重要的金融機(jī)構(gòu)之一,關(guān)系國計(jì)民生,關(guān)系社會(huì)生活中的每一分子,因此本文就選取某保險(xiǎn)公司業(yè)務(wù)及管理費(fèi)的核算數(shù)據(jù)作為仿真實(shí)驗(yàn)數(shù)據(jù)。利用本文章節(jié)1.1數(shù)據(jù)采集方法,從該公司財(cái)務(wù)系統(tǒng)中獲取2008年與業(yè)務(wù)及管理費(fèi)相關(guān)的全部憑證明細(xì)。據(jù)統(tǒng)計(jì),獲取的某保險(xiǎn)公司2008年與業(yè)務(wù)及管理費(fèi)相關(guān)的全部憑證明細(xì)數(shù)據(jù)共計(jì)1268825條,全部為正常數(shù)據(jù),因此本實(shí)驗(yàn)通過手動(dòng)篡改其中1562條數(shù)據(jù),作為異常數(shù)據(jù),用于后續(xù)數(shù)據(jù)挖掘。

2.2數(shù)據(jù)挖掘工具。本文數(shù)據(jù)預(yù)處理、降維以及挖掘分析都通過SPSS公司開發(fā)的Clementine12.0數(shù)據(jù)挖掘軟件來實(shí)現(xiàn)。通過Clementine12.0,可以將數(shù)據(jù)放到軟件上進(jìn)行分析,從而利用內(nèi)置的強(qiáng)大算法以及圖形功能預(yù)測未來數(shù)據(jù)的走勢,提前定制公司項(xiàng)目計(jì)劃,定制未來開發(fā)的具體流程,并且可以將分析結(jié)果建立模型或流程圖,方便整個(gè)數(shù)據(jù)挖掘過程將數(shù)據(jù)部署到企業(yè)開發(fā)計(jì)劃上,從而完善企業(yè)后期決策計(jì)劃。

2.3數(shù)據(jù)挖掘評(píng)價(jià)指標(biāo)。數(shù)據(jù)挖掘目標(biāo)是從正常數(shù)據(jù)中找出異常數(shù)據(jù),因此數(shù)據(jù)有兩類,即為正例(positive)和負(fù)例(negtive),構(gòu)建混淆矩陣如表3所示。2.4結(jié)果分析利用Clementine12.0數(shù)據(jù)挖掘軟件進(jìn)行數(shù)據(jù)挖掘,并統(tǒng)計(jì)挖掘結(jié)果,如表4所示。從表4中可以看出,利用本文方法進(jìn)行數(shù)據(jù)挖掘后,從1268825條正常數(shù)據(jù)中找尋1562條異常數(shù)據(jù)的精度達(dá)到96.38%,高于神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法三種挖掘方法,證明了本研究的有效性。

3結(jié)語

綜上所述,面對海量的金融審計(jì)數(shù)據(jù),如何有效地從中挖掘出有價(jià)值的潛在信息對于審計(jì)部門來說至關(guān)重要,為此本文基于數(shù)據(jù)挖掘進(jìn)行金融審計(jì)數(shù)據(jù)分析研究,并取得了一定的成果,但是由于個(gè)人能力有限,還存在不足之處,如在進(jìn)行仿真研究時(shí),樣本數(shù)量并不符合數(shù)據(jù)挖掘?qū)Υ罅繑?shù)據(jù)的要求,且財(cái)務(wù)指標(biāo)不夠全面,因此得出的結(jié)果可能與實(shí)際結(jié)果存在一定的誤差,因此有待進(jìn)一步的探討和研究。

作者:趙瀏洋 單位:長春財(cái)經(jīng)學(xué)院

主站蜘蛛池模板: 富锦市| 通江县| 华安县| 波密县| 怀化市| 女性| 朔州市| 屯门区| 镇巴县| 涪陵区| 德庆县| 霸州市| 固镇县| 阳西县| 广安市| 张北县| 抚远县| 峨山| 温宿县| 西吉县| 吴桥县| 乾安县| 拜泉县| 靖江市| 马鞍山市| 丹阳市| 卓尼县| 吉首市| 屯留县| 西平县| 龙岩市| 天峻县| 屏东市| 通榆县| 阿勒泰市| 定州市| 永川市| 普陀区| 体育| 北安市| 宝兴县|