網(wǎng)站seo應(yīng)用微信營銷軟件排行榜
0 概述
論文:A literature review on one?class classification and its potential applications in big data
發(fā)表:Journal of Big Data
在嚴重不平衡的數(shù)據(jù)集中,使用傳統(tǒng)的二分類或多分類通常會導致對具有大量實例的類的偏見。在這種情況下,對少數(shù)類實例的建模和檢測是非常困難的。一分類(OCC)是一種檢測與已知類實例相比較的異常數(shù)據(jù)點的方法,可以用于解決與嚴重不平衡數(shù)據(jù)集相關(guān)的問題,這在大數(shù)據(jù)中尤其常見。我們對近十年來出版的與OCC相關(guān)的文獻作品進行了詳細的調(diào)查。我們將不同的工作分為三類: 異常值檢測、新穎性檢測、深度學習和OCC。我們仔細檢查和評估有關(guān)OCC的選定作品,以便在綜述中呈現(xiàn)出方法、手段和應(yīng)用領(lǐng)域的良好橫截面。討論了OCC中常用的離群值檢測技術(shù)和新穎性檢測技術(shù)。我們觀察到,在與OCC相關(guān)的文獻中,有一個領(lǐng)域在很大程度上被忽略了,那就是OCC在大數(shù)據(jù)中的應(yīng)用背景及其固有的相關(guān)問題,如嚴重的類失衡、類稀缺、噪聲數(shù)據(jù)、特征選擇和數(shù)據(jù)約簡。我們認為這項綜述將受到大數(shù)據(jù)領(lǐng)域研究人員的歡迎。
1 引言
大數(shù)據(jù)的五個v是體積(volume)、種類(variety)、價值(value)、準確性(veracity)和速度(velocity)。巨大的大數(shù)據(jù)量帶來了獨特的挑戰(zhàn),例如,在二分類問題中,與負類的實例數(shù)量相比,正類(感興趣的類)的實例數(shù)量微不足道。這就帶來了一些問題,如如何處理大數(shù)據(jù)中非常高的類別不平衡,大數(shù)據(jù)中積極類別實例的類別稀缺性[1-4],以及對消極類別(興趣較少的類別)的建模偏差。多樣性表明大數(shù)據(jù)可以有多個來源的數(shù)據(jù)。價值通常被認為是大數(shù)據(jù)最重要的方面,這是因為挖掘如此龐大的數(shù)據(jù)語料庫應(yīng)該產(chǎn)生對最終用戶具有實際業(yè)務(wù)價值的結(jié)果。大數(shù)據(jù)中的準確性通常是指大數(shù)據(jù)集中數(shù)據(jù)點的真實性,例如,缺失的數(shù)據(jù)點如何處理?如何清理數(shù)據(jù)集?數(shù)據(jù)點有多準確?速度表示數(shù)據(jù)輸入的速度,以及它可能如何改變大數(shù)據(jù)量的特征。有限的實時數(shù)據(jù)是否比低速的大量數(shù)據(jù)更好?
雖然我們不打算在本文中關(guān)注大數(shù)據(jù)的每個方面,但我們關(guān)注的是一分類(OCC)如何幫助歸因于大數(shù)據(jù)的特定問題。其中包括嚴重的類不平衡、類稀有、為提高數(shù)據(jù)質(zhì)量而進行的數(shù)據(jù)清理、特征選擇和數(shù)據(jù)量減少。為此,清楚地理解數(shù)據(jù)挖掘和機器學習領(lǐng)域中的單分類領(lǐng)域是很重要的。在本文中,我們重點探討了在一分類中所做的各種工作。此外,我們還評論了在OCC與大數(shù)據(jù)方面是否已經(jīng)做了足夠的工作,為研究人員提供了解決上述大數(shù)據(jù)問題的技術(shù)。我們認為,當前對OCC方法的調(diào)查將為解決大數(shù)據(jù)遇到的一些具體問題提供深入的見解。
在具有正類和負類實例的二分類問題中,傳統(tǒng)的機器學習算法旨在區(qū)分這兩個類,并建立一個預測模型,該模型可以準確地對這兩個類的未標記(以前未見過)實例進行分類。然而,在類不平衡的情況下,與正類(感興趣的類)中的實例數(shù)量相比,負類中的實例數(shù)量不成比例地高。在這種情況下,典型的分類器將傾向于具有較多實例的類,即負類。當類失衡嚴重時,使用傳統(tǒng)的二分類器對正類進行準確分類是非常具有挑戰(zhàn)性的,有時甚至是不切實際的。例如,在銀行非法交易的調(diào)查中,積極事例(非法交易)的數(shù)量遠遠少于消極事例(合法交易)的數(shù)量,因此存在嚴重的類不平衡。在這種情況下,如果積極實例上的數(shù)據(jù)可用,而消極實例上的數(shù)據(jù)要么不可用,要么未標記,那么如何執(zhí)行基于分類的預測建模?為了解決這樣的問題,可以使用基于單分類(OCC)概念的方法。
單分類是多類或二分類的一種特定類型,其中通過檢查和分析一個類(通常是感興趣的類)的實例來解決分類問題。在OCC問題場景中,正類的標記實例要么不可用,要么數(shù)量不足,無法訓練傳統(tǒng)的機器學習者。重新審視對合法/非法銀行交易進行分類的問題,OCC可以用來將以前看不見的交易分類為合法或非法。我們將在下一節(jié)中進一步討論OCC。在本研究中,我們對過去10-11年(即2010-2021年)的文獻中關(guān)于OCC的方法、方法和算法進行了綜述。綜述的目的是提供不同的方法和途徑的OCC和它的應(yīng)用綜述在過去10-11年的一個很好的橫截面,并不意味著是一個詳盡的綜述所有相關(guān)工作。
在我們的調(diào)查工作中,觀察到異常值檢測和新穎性檢測是一分類的主要應(yīng)用領(lǐng)域。此外,我們還在單分類的背景下基于深度學習的使用對綜述作品進行了分類。離群點檢測和新穎性檢測在概念和應(yīng)用上有細微的差別。在新穎性檢測中,在測試數(shù)據(jù)集中檢測異常,而訓練數(shù)據(jù)集中不包含任何異常數(shù)據(jù)點。在異常點檢測中,訓練數(shù)據(jù)集可能包含正常和異常數(shù)據(jù)點,任務(wù)是確定兩者之間的邊界。邊界隨后應(yīng)用于測試數(shù)據(jù)集,測試數(shù)據(jù)集也可能包含正常和異常數(shù)據(jù)點。
本文的其余部分結(jié)構(gòu)如下?!耙环诸悺币还?jié)提供了OCC及其主要類型的進一步詳細信息?!罢{(diào)研成果總結(jié)”部分從離群值檢測、新穎性檢測、深度學習在OCC中的應(yīng)用等方面對OCC的調(diào)研成果進行了詳細的總結(jié)。本節(jié)還討論了以前關(guān)于OCC的調(diào)查論文,以及本文與那些論文的不同之處?!坝懻摗辈糠痔峁┝藢φ{(diào)查工程和整體OCC問題的討論。結(jié)語部分對本文進行總結(jié),并對今后的工作提出建議。
2 一分類
在一些真實世界的數(shù)據(jù)集中,標記的例子只能用于一個類。由于未標記樣本的數(shù)量可能很大,這增加了標準分類方法的學習時間,這主要是由于數(shù)據(jù)集的規(guī)模很大。此時,解決分類問題的解決方案之一是采用一類分類,將看不見的交易分類為合法(正常)或非法(異常)。由于單類分類僅由一個類的實例執(zhí)行,因此需要更復雜的解決方案才能獲得準確的結(jié)果。單類分類(OCC)是一種特定類型的多分類或二元分類任務(wù),僅由一個類的實例完成。其他類樣本要么不可用,要么數(shù)量不夠,無法訓練更傳統(tǒng)的(非OCC)分類器。在某些情況下,采集的樣本數(shù)量不能令人滿意。
為了闡明OCC的概念,我們考慮一些例子??紤]一些具體的問題,比如向客戶發(fā)放信用卡。在此示例中,提供信用卡的組織需要評估新客戶的申請或現(xiàn)有客戶的行為,以接受或拒絕它們。由于大多數(shù)客戶償還貸款,很少有人違約,我們沒有一個可接受的違約比例,數(shù)據(jù)集非常不平衡。又如,在渦輪機或海上平臺的健康監(jiān)測中,設(shè)備狀態(tài)的正常數(shù)據(jù)非常豐富。然而,異常狀態(tài)很少發(fā)生,專家們對檢測這些罕見情況很感興趣??梢砸闷渌愃频睦觼斫忉孫CC的使用和重要性。
假設(shè)訓練集的樣本充足的類作為目標類,而異常類實例非常稀疏或不可用。異常類的不可用性可能導致測量困難,或者收集樣本的成本高。在一些單分類算法中,尋找訓練集上的決策邊界是一個目標。OCC的主要特點是它可以通過單類學習來區(qū)分一個類對象和其他對象。這意味著即使沒有其他類的示例,OCC也是適用的。此外,由于OCC的目標之一是識別目標類樣本的隱藏異常值,因此產(chǎn)生魯棒決策邊界是OCC的基本部分。單類分類器的目標可以通過不同的類型來獲得,例如分配一個類標簽,考慮一個類周圍的區(qū)域,或者一個對象屬于(和不屬于)一個類。使用OCC的流行原因之一是它在檢測異常對象或異常值或可疑模式方面的效力。僅使用目標類對象進行訓練,使OCC成為離群點檢測和新穎性檢測的實用選擇。
缺乏來自單分類的實例可能會破壞分類過程。只有一個訓練有素的類使得其示例之間的決策邊界區(qū)分變得困難。此外,單個類實例給特征選擇帶來了問題[5,6],因為與傳統(tǒng)的二元或多類問題相比,我們只需要處理一個類。因此,在類之間找到具有適當分離的最佳特征子集是一項繁重的工作。由于沒有離群值實例,訓練集只包含目標實例,使得數(shù)據(jù)邊界非凸[7]。因此,與更傳統(tǒng)或傳統(tǒng)的多/二分類問題相比,需要額外的實例數(shù)量來訓練模型。在典型的單類分類中,決定接受一個數(shù)據(jù)點為內(nèi)樣點還是離群點是基于兩個參數(shù):一個是計算樣本到目標類的距離的參數(shù),另一個是用戶定義的比較距離和接受或拒絕該對象為內(nèi)樣點的閾值限制[8]。Khan等人[9]基于分類器的模型、被分析的數(shù)據(jù)類型和特征的時間關(guān)系對OCC技術(shù)進行了分類。分類器的模型分為基于密度的、基于邊界的和基于重構(gòu)的三種類型。
基于密度的單類分類方法基于估計訓練數(shù)據(jù)密度來執(zhí)行,該密度與閾值(模型參數(shù))進行比較。這些類型的方法適用于具有大量訓練樣本的良好采樣數(shù)據(jù)。高斯法、混合高斯法和帕森密度法被歸類為基于密度的方法。在基于邊界的方法中,建立了一個封閉的邊界和內(nèi)層周圍的邊界,這使得邊界的優(yōu)化成為建模的挑戰(zhàn)。任何在邊界外的樣本都被認為是一個離群值。一類支持向量機(OCSVM)是基于支持向量機(svm)的一種基于核的方法。OCSVM是通過開發(fā)一個超平面來構(gòu)建的,該超平面使離原點距離最大化,并將離群點與內(nèi)線點分離[10]。另一種基于核的一類分類方法是支持向量數(shù)據(jù)描述(SVDD),它構(gòu)建一個半徑最小的超球,該超球由目標樣本組成,任何在超球之外的樣本都被視為離群值[11]。與基于密度的方法相比,基于邊界的方法需要更少的數(shù)據(jù)樣本來獲得相似的性能。在基于重構(gòu)的方法中,在生成模型時需要特定領(lǐng)域的歷史數(shù)據(jù)(先驗知識)作為假設(shè)。異常樣本通常不符合模型中嵌入的歷史數(shù)據(jù)假設(shè),因此,任何具有高重構(gòu)誤差的樣本都被認為是異常樣本。在該方法中,輸入模式被表示為輸出,重構(gòu)誤差被最小化?;?span id="ieo6y2aa" class="katex--inline"> k k k均值聚類的一類分類器[12],基于主成分分析(PCA)的一類分類器[13],基于學習向量量化(LVQ)的一類分類器[14],以及Auto-Encoder[15]或多層感知器(multilayer Perceptron (MLP)[16]方法都是基于重構(gòu)的模型。
基于集成的單類分類器是多個單類分類器的組合,以共同受益于每個分類器。Desir 等人[17] 提出了單類隨機森林 (OCRF),它增強了一些弱分類器,并集成了人工離群點生成過程,將單分類變?yōu)槎獙W習器?;谝活惥垲惖募?OCClustE)從特征空間構(gòu)建聚類[18]。這種方法大大減少了處理時間。一類線性規(guī)劃(One-Class Linear Programming, OCLP)是一種檢測不相似表示的有效方法[19]。OCLP方法的優(yōu)點是減少了測試對象的數(shù)量?;趫D的OCSVM半監(jiān)督一類分類方法用于檢測正常樣本較少的異常肺音[20]。作者建立了一個譜圖來顯示樣本之間的關(guān)系。[21]對基于極限學習(ELM)的單類分類進行了全面比較,其中包括兩種基于邊界的方法和基于重建的方法。Krawczyk和Wozniak提出了增量學習和遺忘的加權(quán)單類支持向量機[22]。在增量學習中,定期使用數(shù)據(jù)來增加模型知識,從而改變先前的決策邊界。該方法可用于數(shù)據(jù)流建模和分析。
3 已有工作概述
本節(jié)總結(jié)了一組關(guān)于單分類的精選著作。精選組是在過去十年(2010-2021)的OCC相關(guān)作品中獲得的。雖然不打算對所有OCC相關(guān)作品進行詳盡的調(diào)查,但我們試圖呈現(xiàn)一個很好的橫截面(據(jù)我們所知)在過去十年中出版的單分類作品。根據(jù)概述工作的重點和方法,我們將其分為三類: 異常值檢測和OCC、新穎性檢測和OCC、深度學習和OCC。
3.1 異常值檢測和OCC
Bartkowiak[7]提出了一個在計算機系統(tǒng)調(diào)用中檢測異常模式(或偽裝者)的案例研究。該數(shù)據(jù)集表示50個用戶,每個用戶有15000個系統(tǒng)調(diào)用序列。系統(tǒng)調(diào)用的集合被抽象為兩個集合,即50個塊(A部分)和100個塊(B部分),每個塊包含100個調(diào)用。在A部分中沒有假面者,而在B部分中,一些區(qū)塊被20個冒充假面者的用戶的區(qū)塊所取代。這里的OCC問題是檢測這些偽裝塊。對一個用戶的異常塊進行了詳細的分析,該用戶的異常塊大約有20個。在偽裝器檢測中,使用OCC對數(shù)據(jù)密度建模來建立決策邊界。構(gòu)造基于經(jīng)典高斯分布、魯棒高斯分布和支持向量機。作者表明,在案例研究的背景下,應(yīng)用OCC方法監(jiān)測異常事件是可行的。研究還表明,重建方法可能是有用的,因為用戶調(diào)查了大約一半的植入塊(偽裝者)需要被檢測到。除了案例研究之外,本文還討論了統(tǒng)計方法和機器學習方法在網(wǎng)絡(luò)異常檢測中的優(yōu)勢。如果實際的外來(未經(jīng)授權(quán)的)用戶參與數(shù)據(jù)集并被檢測到,該研究可能會對偽裝者檢測有更可靠的吸引力。此外,具有大量用戶和系統(tǒng)調(diào)用的案例研究將有助于改進工作的泛化性。
Leng 等人[23]提出了一種基于極端學習機(ELM)的單類分類器,其中神經(jīng)網(wǎng)絡(luò)的隱層不需要調(diào)整,輸出權(quán)重通過分析計算得出,因此學習時間相對較短。他們將自己提出的方法與自動編碼器神經(jīng)網(wǎng)絡(luò)進行了比較,并采用重構(gòu)方法建立了單類分類器。離群點檢測分析 對七個 UCI 數(shù)據(jù)集和三個人工生成的數(shù)據(jù)集進行了離群點檢測分析。雖然隨機特征映射和內(nèi)核都可用于所提議的分類器,但后者比前者能產(chǎn)生更好的結(jié)果。主要比較研究 基于 ELM 的模型和自動編碼器神經(jīng)網(wǎng)絡(luò)之間的主要比較研究表明,前者有一個分析解決方案,可以獲得更好的泛化性能,而且在網(wǎng)絡(luò)學習時間相對較短的情況下也是如此。而且網(wǎng)絡(luò)學習時間相對較短。這項研究的一個缺點是,研究中調(diào)查的數(shù)據(jù)集相對較少。本研究的不足之處在于,研究中調(diào)查的數(shù)據(jù)集規(guī)模相對較小,因此在如何將所建議的方法擴展到更大的規(guī)模方面還存在研究空白。特別是由于神經(jīng)網(wǎng)絡(luò)以學習速度相對較慢而臭名昭著。作者基于 ELM 的 方法如何在大數(shù)據(jù)中有效發(fā)揮作用?
Gautam等人[21]提出了六種OCC方法,分為兩類: 三種基于重建的OCC方法和三種基于邊界的OCC方法。所提出的OCC方法基于ELM和在線順序極限學習機(OSELM)。作者討論了OCC的在線和離線方法。在四種離線方法中,兩種方法執(zhí)行隨機特征映射,另外兩種方法執(zhí)行核特征映射。案例研究數(shù)據(jù)集由兩個人工創(chuàng)建的數(shù)據(jù)集和來自不同領(lǐng)域的八個基準數(shù)據(jù)集組成,用于評估OCC模型的性能。作者指出,所提出的分類器比十個傳統(tǒng)的OCC和兩個基于elm的分類器性能更好。在OCC背景下,ELM也被其他研究使用,例如Dai等[24]和Leng等[23]。 雖然作者使用了一些基準數(shù)據(jù)集,但他們的分析和結(jié)論也是基于人工生成的數(shù)據(jù)集。
Dreiseitl等[25]研究了一類支持向量機在黑色素瘤異常預后檢測中的異常值檢測。一類分類旨在模擬未獲得轉(zhuǎn)移狀態(tài)的黑色素瘤患者的分布,在這種情況下,這是黑色素瘤患者的正常類別(病例)。案例研究數(shù)據(jù)來自維也納醫(yī)科大學皮膚學系。清洗后的數(shù)據(jù)集包括270個血清學血液測試,其中包括37名轉(zhuǎn)移性疾病患者和233名無轉(zhuǎn)移性疾病患者。將一類支持向量機方法與常規(guī)兩類支持向量機和人工神經(jīng)網(wǎng)絡(luò)(ANN)算法進行了比較。使用WEKA數(shù)據(jù)挖掘工具對這些進行了調(diào)查[26]。他們的實證工作表明,一類支持向量機是標準分類算法的一個很好的替代方案,在這種情況下,只有少數(shù)病例來自感興趣的類別,即在這種情況下,轉(zhuǎn)移性疾病的患者。當一類支持向量機模型在少數(shù)類中使用的案例數(shù)少于一半時,一類支持向量機模型的性能優(yōu)于兩類支持向量機模型。本研究的一個潛在問題是案例研究的數(shù)據(jù)集規(guī)模非常小,以及他們的方法是否可擴展到更大的數(shù)據(jù)集,如大數(shù)據(jù)。
Mouro- miranda等[27]提出了一種用一類支持向量機(OCSVM)對患者腦活動進行分類的方法。該方法分析了功能性磁共振成像(fMRI)對抑郁癥患者悲傷面部表情的反饋。他們檢查了這些患者的功能磁共振成像,將他們與健康(非抑郁)患者進行比較,并得出結(jié)論,抑郁患者的功能磁共振成像反應(yīng)被歸類為異常值。數(shù)據(jù)集包括19名抑郁癥患者和19名非抑郁癥患者。OCSVM分類顯示,健康患者邊界與抑郁癥漢密爾頓評定量表之間存在很強的相互聯(lián)系。此外,OCSVM在患者中發(fā)現(xiàn)了兩個亞類。這些子類別是根據(jù)患者對治療的反應(yīng)進行分類的。為了將個體劃分為抑郁和健康,該算法使用了兩種類型的大腦數(shù)據(jù),如全腦和大腦區(qū)域的體素(體素大小是圖像的空間3D分辨率),它提取了大約500個全腦特征和348個區(qū)域特征??紤]腦區(qū)域圖像并使用OCSVM對患者進行治療,使本研究成為OCC在醫(yī)療保健中應(yīng)用的一個值得注意的工作。案例研究的數(shù)據(jù)集非常小,很難得出廣泛的泛化結(jié)論,特別是在大數(shù)據(jù)的背景下。
Bartkowiak和Zimroz[28]研究了行星齒輪箱(安裝在斗輪挖掘機上)的振動信號并檢測到離群數(shù)據(jù)。他們從分割的振動信號頻譜中收集了兩個數(shù)據(jù)集,分別作為“好”數(shù)據(jù)集和“壞”數(shù)據(jù)集。在齒輪箱處于不良狀態(tài)時,產(chǎn)生的諧波信號較多,信噪比較高,而在齒輪箱處于良好狀態(tài)時,諧波和信噪比相對較低。好的數(shù)據(jù)集的樣本數(shù)為951,有15個屬性。他們應(yīng)用神經(jīng)尺度技術(shù)(一種可視化方法)將屬性減少到兩個特征,因此,數(shù)據(jù)可以繪制在x-y平面上。為了估計數(shù)據(jù)的分布,作者使用了三種方法,包括Parzen窗口,支持向量數(shù)據(jù)描述(SVDD)和混合高斯。由于這些方法都是邊界方法,所以對好的數(shù)據(jù)建立一類決策邊界,用壞的數(shù)據(jù)對模型進行檢驗。結(jié)果表明,在測試數(shù)據(jù)集上,模型識別出98%是壞的,即異常值。這項工作是在機械系統(tǒng)中發(fā)現(xiàn)異常值作為故障的一個很好的例子,因為這些信息在系統(tǒng)診斷中是有用的。
Desir等人[29]提出了一項實證研究,研究了他們之前提出的一類隨機森林(OCRF)[17]的行為,該方法基于隨機森林學習器和一種新的離群值生成過程。后者既減少了要創(chuàng)建的人工異常值的數(shù)量,也減少了生成異常值的特征空間的大小。在[29]中,作者在幾個UCI數(shù)據(jù)集的背景下,對OCRF與一些參考的一類分類算法(即高斯密度模型、Parzen估計器、高斯混合模型和一類支持向量機)進行了比較案例研究。他們的工作表明,帶有離群值生成的ocf方法的性能與上述參考算法相似或更好。此外,他們提出的解決方案在高維特征空間中表現(xiàn)出穩(wěn)定的性能,而其他一些OCC算法可能表現(xiàn)不佳。雖然沒有在[29]中進行探討,但我們認為他們的方法可以潛在地用于大數(shù)據(jù),其中大量特征通常是一個有問題的問題。
Krawczyk等[18]提出了一種基于加權(quán)單類支持向量機(OCSVM)的多分類器系統(tǒng),并對目標類中的數(shù)據(jù)點進行聚類。多分類器系統(tǒng)構(gòu)建一個分類器的集合,在這種情況下,它是基于從目標類的實例池派生的集群構(gòu)建的分類器。作者提出了“一個彈性和高效的框架來完成這項任務(wù),它只需要選擇幾個組件,即聚類算法、個體分類器模型和融合方法[18]?!?基于多個基準數(shù)據(jù)集(包括來自UCI庫的19個數(shù)據(jù)集)的實證案例研究表明,該方法優(yōu)于幾種OCC方法,包括單類和多類問題的OCSVM。作者沒有與SVDD進行比較,SVDD是一種有效的OCC方法,基于我們對調(diào)查中探索的各種研究的觀察。此外,所有的案例研究數(shù)據(jù)集的規(guī)模都相對較小,這就把模型的可擴展性問題擺在了前面。
Lang等人[20]提出了一種使用基于圖的半監(jiān)督OCSVM的新方法。應(yīng)用領(lǐng)域是異常肺音的檢測,在遠程醫(yī)療中肺部疾病的診斷和患者監(jiān)護中具有重要意義。該方法利用少量標記的正常實例和大量未標記的實例來描述正常的肺音并檢測異常的肺音。構(gòu)建了一個譜圖來表示所有樣本之間的關(guān)系,這豐富了只有少數(shù)標記的正態(tài)樣本所提供的信息。然后,建立了基于圖的半監(jiān)督OCSVM模型,并給出了求解方法。利用譜圖中的信息,提高了識別和泛化的效果,這是有效檢測異常肺音的關(guān)鍵。”[20]。該方法的性能隨著未標記異常實例數(shù)量的增加而提高。
Krawczyk和Wo?niak[22]解決了處理數(shù)據(jù)流的問題,特別是在存在概念漂移的情況下。討論了OCC在數(shù)據(jù)流分析中是一個很有前途的研究方向,可用于單類實例的二值分類、離群值檢測和新穎性檢測。提出了一種新的加權(quán)OCSVM,該算法可以處理逐漸的概念漂移。所提出的OCC可以使其決策邊界適應(yīng)新的傳入數(shù)據(jù),因為它還采用了一種遺忘方案,提高了分類器跟蹤模型變化的能力。此外,本文還提出了不同的增量學習和遺忘策略,并在幾個案例研究的背景下進行了評估。主要結(jié)論是所提出的OCC對于存在概念漂移的數(shù)據(jù)流分類問題具有有效的可用性。在大數(shù)據(jù)概念漂移的背景下,觀察所提出的解決方案的有效性將是一件有趣的事情。與其他流行的OCC方法的比較將為所提出的方法提供更強的驗證。
Das等人[30]在智能家居中應(yīng)用傳感器網(wǎng)絡(luò)監(jiān)測癡呆癥患者活動的背景下研究了OCC。監(jiān)測這些事件總是與檢測錯誤相關(guān)聯(lián),在[30]的背景下,這意味著(癡呆癥患者)沒有正確完成一項活動?;顒油瓿珊湾e誤問題被表述為異常值檢測的一類分類。個案研究的基礎(chǔ)是監(jiān)測諸如吸塵、除塵、澆花、接電話等常見家庭活動的完成情況或缺乏情況。完全完成一項活動的問題被認為是一個異常值。不同類型的運動檢測和壓力檢測振動傳感器用于數(shù)據(jù)收集。提出的分類模型,檢測實時活動錯誤(DERT),是由580個數(shù)據(jù)點組成的無錯誤數(shù)據(jù)(即一個類)訓練的?;贠CSVM的DERT表現(xiàn)優(yōu)于簡單的基線離群值檢測方法。所提議的方法的驗證需要通過與其他OCC技術(shù)(包括SVDD)的比較研究來支持。
Deng等人[31]重點研究了物聯(lián)網(wǎng)傳感器數(shù)據(jù)中的異常值檢測問題。他們開發(fā)了一類支持塔克機(OCSTuM),這是一種涉及塔克分解技術(shù)的無監(jiān)督異常值檢測方法。塔克分解通過產(chǎn)生一個核心張量和因子矩陣來表示張量。案例研究數(shù)據(jù)存在高維問題,需要將特征子集選擇作為解決方案的一部分。作者提出了一種應(yīng)用遺傳算法改進OCSTuM的特征選擇和離群點檢測的方法(稱為GA-OCSTuM)。他們的工作涉及多個數(shù)據(jù)集,包括Montes傳感器數(shù)據(jù)集、TAO項目傳感器數(shù)據(jù)集、日常和體育活動數(shù)據(jù)集(DSAD)、開放采樣設(shè)置中的氣體傳感器陣列數(shù)據(jù)集(GSAOSD)和南佛羅里達大學步態(tài)數(shù)據(jù)集(USFGD)。OCC訓練數(shù)據(jù)集是干凈的,沒有任何異常值,但測試數(shù)據(jù)混合了5%的異常值樣本。將所提算法與基線方法(如OCSVM)進行比較。實證結(jié)果表明,GA-OCSTuM方法在所有數(shù)據(jù)集上都優(yōu)于基線方法(包括SVDD、R-SVDD、OCSVM和OCSTuM)。在OCC離群值檢測的背景下,研究中考慮的數(shù)據(jù)集與其說是一個大數(shù)據(jù)問題,不如說是一個高維問題。此外,已知遺傳算法(GAs)的計算性能較慢,并且該研究并未揭示遺傳算法對所提出的GA-OCSTuM解決方案的時間性能的影響。
Gautam等人[32]開發(fā)了一種基于深度核的單類分類器(DKRLVOC)模型,通過一對自編碼器的幫助來減少對象方差并改善特征學習。該方法在18個數(shù)據(jù)集和2個真實數(shù)據(jù)集上進行了測試,其中包括fMRI數(shù)據(jù)集檢測阿爾茨海默氏癥和病理圖像數(shù)據(jù)集檢測乳腺癌。提出的基于最小方差嵌入深度核的一類分類方法包括三層:基于最小方差嵌入核的自編碼器、基于核的自編碼器和基于核的OCC。該方法與三種基于核的極限學習機方法OCKELM、VOCKELM[33]和ML-OCKELM進行了比較。關(guān)于這些模型的更多細節(jié)見[32]。實證結(jié)果表明,對于較小的生物醫(yī)學數(shù)據(jù)集,所提出的方法在F1得分方面表現(xiàn)最好。對于中等規(guī)模的生物醫(yī)學數(shù)據(jù)集,本文方法的有效性高于ML-OCKELM和OCKELM,但低于VOCKELM。這組作者在小型和中型生物醫(yī)學數(shù)據(jù)集的背景下比較了不同的模型,這讓人們對他們推薦的方法如何在更大的數(shù)據(jù)集(如大數(shù)據(jù))上執(zhí)行產(chǎn)生了一些懷疑。
Kauffmann等人[34]開發(fā)了一種方法,一類深度泰勒分解(OCDTD),用于解釋一類支持向量機中的異常值。在異常值檢測過程之后,提供解釋性解釋是有益的,這表明這些輸入負責產(chǎn)生異常值。這種解釋最大限度地發(fā)揮了由神經(jīng)網(wǎng)絡(luò)創(chuàng)建的結(jié)構(gòu)的優(yōu)勢。在他們的方法中,OCSVM被輸入到一個“神經(jīng)化”的過程中,以揭示異常值解釋的結(jié)構(gòu)。隨后,將結(jié)構(gòu)饋送到深度泰勒分解中,并將預測反向傳播到顯示有效生成異常值的輸入。在生成離群值時最具影響力的特征表示為熱圖。為了最大化使用神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,應(yīng)用了分層相關(guān)傳播技術(shù),其中應(yīng)用了一組傳播規(guī)則來向后傳播預測[35]。鑒于神經(jīng)網(wǎng)絡(luò)環(huán)境中使用了反向傳播,計算時間性能研究將為實驗結(jié)果和研究分析提供更好的見解。
Aguilera等人[36]在OCC背景下提出了k- strong - strengths (kSS)算法[37]的兩種變體。這兩種算法分別被命名為OCC-kSS和Global Strength Classifier (gSC),并使用抑郁癥和厭食癥基準數(shù)據(jù)集進行評估。此外,作者在kSS方法的背景下引入了質(zhì)量,作為確定社交媒體數(shù)據(jù)中抑郁癥和厭食癥文本相關(guān)性的措施。算法使用四個數(shù)據(jù)集進行評估,分別為Dep2017、Dep2018、Anx2018和Anx2019,這些數(shù)據(jù)集來自2017-2109版本的eRisk共享任務(wù)。結(jié)果表明,gSC算法總體上優(yōu)于OCC-kSS算法。這項工作缺乏與其他現(xiàn)有OCC方法的比較,特別是本文中討論的幾個方法。
Wang等人[38]使用KDD入侵檢測數(shù)據(jù)集(簡稱NSL-KDD)的修改版本,提出了一種在網(wǎng)絡(luò)入侵檢測系統(tǒng)(NIDS)背景下進行異常檢測的組合方法。該方法結(jié)合子空間聚類(SSC)和OCSVM進行NIDS異常檢測,并與K-means、DBSCAN和SSC- ea方法進行比較[39]。基于真陽性率、假陽性率和ROC曲線(兩個閾值),作者證明了他們的方法比其他三種方法產(chǎn)生更好的性能。據(jù)報道,該方法的計算時間高于K-means和DBSCAN。KDD數(shù)據(jù)集及其變體在網(wǎng)絡(luò)安全和入侵檢測方面有點過時。在該領(lǐng)域有更多的當前數(shù)據(jù)集供研究人員探索,然而,在他們的研究中沒有這樣做。
在橋梁自主結(jié)構(gòu)健康監(jiān)測的背景下,Favarelli和Giorgetti[40]提出了一種機器學習方法,用于從振動數(shù)據(jù)中自動檢測橋梁結(jié)構(gòu)中的異常。他們提出了兩種異常檢測方法:一類分類器神經(jīng)網(wǎng)絡(luò)OCCNN和OCCNN2。案例研究數(shù)據(jù)基于一座橋梁結(jié)構(gòu)(Z-24)的加速度測量數(shù)據(jù)數(shù)據(jù)庫[40]。OCCNN采用粗邊界估計和細邊界估計兩步方法檢測正常運行條件下特征空間的正常類邊界。OCCNN2是基于將OCCNN方法的兩步方法與自關(guān)聯(lián)神經(jīng)網(wǎng)絡(luò)(ANN)相結(jié)合[40]。將這兩種方法與現(xiàn)有的一些異常檢測方法進行了比較,包括:主成分分析、核主成分分析、高斯混合模型(GMM)和神經(jīng)網(wǎng)絡(luò)。與其他方法相比,OCCNN方法具有更好的準確性和F1分數(shù);然而,OCCNN2方法在響應(yīng)性、準確性和F1分數(shù)方面表現(xiàn)最佳。
Mahfouz等[41]提出了一種基于OCSVM的網(wǎng)絡(luò)入侵檢測模型,該模型在正常網(wǎng)絡(luò)流量樣本上進行訓練,形成n維特征空間中正常數(shù)據(jù)具有高概率密度的區(qū)域。隨后,不出現(xiàn)在或代表這些(正常)區(qū)域內(nèi)的數(shù)據(jù)樣本被標記為異常(即入侵)。雖然他們對網(wǎng)絡(luò)指令異常檢測的定義并不新穎,但本文的主要貢獻在于創(chuàng)建并用于案例研究的網(wǎng)絡(luò)入侵數(shù)據(jù)集。作者實現(xiàn)了現(xiàn)代蜂蜜網(wǎng)絡(luò)(MHN),一個集中式服務(wù)器來管理和收集來自蜜罐的數(shù)據(jù)[41]。他們使用Excel創(chuàng)建了一個數(shù)據(jù)集工具,將來自不同蜜罐的獨立網(wǎng)絡(luò)監(jiān)視器的數(shù)據(jù)聚合到一個數(shù)據(jù)集中。訓練和測試數(shù)據(jù)分割為70:30,所提出模型的準確率略低于98%。作者沒有將他們的方法與現(xiàn)有的幾種網(wǎng)絡(luò)入侵異常檢測方法進行比較。
在初步研究中,Zaidi和Lee[42]討論了軟件開發(fā)中現(xiàn)有的bug分類方法無法為bug報告分配新添加的開發(fā)人員。
“Bug分類是一個軟件工程問題,其中一個開發(fā)人員被分配到一個Bug報告中?!癧42]。作者引用了現(xiàn)有的方法,這些方法使用社交網(wǎng)絡(luò)分析、主題建模、挖掘存儲庫、機器學習和深度學習來完成開發(fā)人員分配給bug報告的任務(wù)。但是,這些方法不能將新添加的開發(fā)人員分配給bug報告。他們的實證研究使用了Eclipse[43]和Mozilla[44]軟件項目中的Bug報告數(shù)據(jù)。利用正樣本建立OCSVM模型,實現(xiàn)對負樣本的檢測。作者聲明他們的經(jīng)驗結(jié)果是可以接受的,并且對于分配新添加的開發(fā)人員到bug報告的挑戰(zhàn)性問題進行額外的研究是有保證的。
表1總結(jié)了OCC和離群值檢測綜述工作的關(guān)鍵信息。
3.2 新穎性檢測和OCC
如前所述,異常值檢測和新穎性檢測在概念和應(yīng)用上有著微妙的區(qū)別。在新穎性檢測中,在測試數(shù)據(jù)集中檢測異常,而訓練數(shù)據(jù)集中不包含任何異常數(shù)據(jù)點。在離群點檢測中,訓練數(shù)據(jù)集可能同時包含正常和異常數(shù)據(jù)點,任務(wù)是確定兩者之間的邊界,然后將該邊界應(yīng)用于同樣可能包含正常和異常數(shù)據(jù)點的測試數(shù)據(jù)集。
Clifton等[45]利用改進的OCSVM方法在基于生命體征健康數(shù)據(jù)(如呼吸頻率、血氧飽和度、心率等)識別患者惡化的背景下進行新穎性檢測。新穎性檢測模型通過正常數(shù)據(jù)進行訓練,然后對測試數(shù)據(jù)進行檢測,將測試數(shù)據(jù)分類為正?;虍惓!S柧殧?shù)據(jù)是通過監(jiān)測19名患者收集的,產(chǎn)生了1500個實例的數(shù)據(jù)集。用該方法對高斯混合模型(GMM)和OCSVM兩種模型進行了測試,結(jié)果表明OCSVM優(yōu)于GMM模型。案例研究數(shù)據(jù)是從降壓單元(SDU)收集的,它的急性程度低于重癥監(jiān)護病房的數(shù)據(jù)。數(shù)據(jù)集的規(guī)模很小,這對所得結(jié)果和結(jié)論的泛化產(chǎn)生了一些懷疑。
Kemmler等[46]提出了一種基于高斯過程回歸和近似高斯分類的單類分類新穎性檢測框架。將該方法與SVDD的新穎性檢測方法和Parzen密度估計方法進行了比較。實驗使用來自多個領(lǐng)域的數(shù)據(jù)集,并使用不同的圖像核函數(shù)。案例研究結(jié)果表明,該方法的性能與其他兩種方法相似,甚至優(yōu)于其他兩種方法。他們的方法的應(yīng)用,特別是基于高斯過程回歸的OCC分數(shù),將是理解大數(shù)據(jù)中的類稀缺性問題的一個有趣的研究。
Beghi等[47]研究了一種用于HVAC系統(tǒng)新穎性檢測的OCSVM方法。預先監(jiān)測可能出現(xiàn)的故障有助于節(jié)省成本和能源。在如此的系統(tǒng)中,異常的數(shù)據(jù)很少,而且通常是不可用的。研究了冷凝器結(jié)垢、制冷機泄漏、蒸發(fā)器水流量減少和冷凝器水流量減少四種故障類型。調(diào)查的案例研究數(shù)據(jù)來自美國采暖、制冷和空調(diào)工程師協(xié)會(ASHRAE)。作者將主成分分析(PCA)與OCSVM模型相結(jié)合,觀察到與單獨使用OCSVM相比,主成分分析與OCSVM相結(jié)合的AUC性能有所提高。作者沒有與文獻中的其他新穎性檢測方法進行比較,這限制了其工作在更廣泛意義上的推廣和應(yīng)用有效性。
Domingues等[48]提出了一種基于深度高斯過程(Deep Gaussian Processes, DGP)的自動編碼器配置的無監(jiān)督新異檢測建模方法。所提出的DGP自編碼器通過使用隨機特征展開來逼近DGP層,并通過對隨后的近似模型進行隨機變分推理來訓練。DGP自編碼器可以對復雜的數(shù)據(jù)分布進行建模,并有助于提出一種新穎性檢測的評分方法。在7個UCI數(shù)據(jù)集和4個來自國際航空服務(wù)提供商的數(shù)據(jù)集的背景下,將所提出的模型與隔離森林和魯棒密度估計方法進行了比較。實證結(jié)果表明,該模型優(yōu)于其他兩種方法。雖然作者在多個數(shù)據(jù)集上進行了實驗,但其中大多數(shù)數(shù)據(jù)集的規(guī)模相對較小,因此無法深入了解他們的方法在大數(shù)據(jù)上的性能。
Sadooghi和Khadem[49]在OCSVM中引入了預處理步驟以提高其性能。他們的工作背景是旋轉(zhuǎn)系統(tǒng)軸承振動信號的新穎性檢測。預處理包括一種新的去噪方案、特征提取、向量化、歸一化和降維,每一項都使用詳細的系統(tǒng)方法實現(xiàn)。案例研究來自case Western Reserve大學軸承數(shù)據(jù)中心、Tarbiat Modares大學試驗臺數(shù)據(jù)和PRONOSTIA平臺數(shù)據(jù)。要了解這些數(shù)據(jù)資源的更多細節(jié),請參考[49]。本文提出的系統(tǒng)方法表明,非線性特征本身可以有效地提高新穎性檢測的性能,包括顯著提高OCSVM的分類率(在某些情況下可達到95%至100%)。所提出的OCSVM修正方案似乎與案例研究的領(lǐng)域緊密耦合,并且沒有確定這些方案在其他領(lǐng)域的應(yīng)用,這限制了它們在其他領(lǐng)域的應(yīng)用。
Yin等人[50]研究并提出了一種基于主動學習的方法來改進新穎性檢測背景下的SVDD。SVDD是目前應(yīng)用最廣泛的新穎性檢測方法之一,對其進行改進是本文的一個很好的研究方向。然而,當數(shù)據(jù)量太大或數(shù)據(jù)質(zhì)量差時,SVDD可能會表現(xiàn)不佳。用少量的標記樣本描述數(shù)據(jù)分布在機器學習中有它的好處,例如,可以保證有限的數(shù)據(jù)是無噪聲和高質(zhì)量的。提出的基于主動學習的SVDD方法可以減少標記數(shù)據(jù)的數(shù)量,推廣數(shù)據(jù)的分布,并利用局部密度來指導選擇過程,減少噪聲的影響。案例研究數(shù)據(jù)包括三個UCI數(shù)據(jù)集(電離層、Splice和圖像分割)和田納西東部過程基準數(shù)據(jù)。 實證結(jié)果表明,基于主動學習的SVDD在UCI數(shù)據(jù)集上具有明顯的優(yōu)勢。主動學習是基于用專家(“專家”)標記的數(shù)據(jù)取代未標記的數(shù)據(jù),但幾乎沒有提供關(guān)于基于專家的數(shù)據(jù)標記過程的信息。此外,雖然本文的目標是將主動學習與SVDD結(jié)合起來以提高其在大型數(shù)據(jù)集上的性能,但沒有進行關(guān)于改變數(shù)據(jù)集大小和調(diào)查基于SVDD的主動學習性能的研究。
Mohammadian等[51]研究了一種基于OCSVM的新穎檢測方法,用于檢測帕金森和自閉癥患者的異?;顒?。在帕金森和自閉癥譜系障礙(ASD)疾病中,使用可穿戴和慣性測量單元(IMU)傳感器進行患者監(jiān)測已經(jīng)引起了相當大的關(guān)注。早期發(fā)現(xiàn)病人不尋常的身體活動對他們的護理和治療至關(guān)重要。本文采用深度規(guī)范建模的方法,彌補了OCSVM在大數(shù)據(jù)和噪聲數(shù)據(jù)中表現(xiàn)不佳的不足。由于標記數(shù)據(jù)的限制,生成正常模型來展示患者的正常運動,正常運動模型的大(實質(zhì)性)變化被認為是異常。在步態(tài)凍結(jié)(FOG)和典型運動(SMMs)數(shù)據(jù)集上對該方法進行了測試,結(jié)果表明該模型在相對較大的數(shù)據(jù)中是新穎性檢測的替代選擇,并且具有實時非典型運動檢測的潛力。作者指出,他們的方法僅限于基于距離的新穎性檢測方法,因此不適用于基于密度的新穎性檢測方法。
Sabokrou等人[52]提出了一種生成式對抗網(wǎng)絡(luò)(GAN)[53],用于不同圖像和視頻數(shù)據(jù)集背景下的新穎性檢測。作者提出了OCC問題的端到端深度網(wǎng)絡(luò)。該體系結(jié)構(gòu)由R和d兩個模塊組成。R模塊對輸入進行細化,并在學習過程中逐漸注入判別規(guī)則,以創(chuàng)建積極和新奇的實例(內(nèi)線和離群值),而第二個模塊(檢測器)將積極和新奇的實例分離開來。他們的方法用兩個圖像數(shù)據(jù)集進行了研究,包括MNIST和Caltech-256數(shù)據(jù)集。此外,他們還研究了一個視頻數(shù)據(jù)集UCSDPed2。對于圖像數(shù)據(jù)集,與局部離群因子(LOF)和區(qū)分重建自動編碼器(DRAE)方法相比,該方法顯示出更高的f1分數(shù)。對于視頻數(shù)據(jù)集,視頻數(shù)據(jù)中的行人被認為是正類,其他任何東西都被認為是異常。該異常檢測方法與一些新穎性檢測方法具有可比性。在Sabokrou等人[54]的相關(guān)工作中,提出了一種對抗訓練模型來檢測端到端深度學習模型中的異常值。他們在圖像和視頻數(shù)據(jù)集上測試了他們的方法,并得出結(jié)論,所提出的模型可以有效地學習檢測異常值。他們的方法在圖像/視頻數(shù)據(jù)以外的領(lǐng)域,特別是大數(shù)據(jù)領(lǐng)域的效果還有待觀察。
Oosterlink等人[55]提出了一項新穎性檢測的研究,將單類分類與基于專家的兩類分類進行了比較。作者研究了一種檢測電信公司訂閱新的移動家庭計劃服務(wù)中的欺詐行為的方法。由于欺詐,組織和公司的經(jīng)濟損失可能相當大,對這些交易的檢測很有吸引力。一個有效的欺詐檢測系統(tǒng)是每個服務(wù)提供商公司的關(guān)鍵前提。為了解決這一問題,人類行為跟蹤在檢測人類活動異常和欺詐檢測方面是實用的。作者探討了將專家制備的合成陰性樣品與陽性樣品相結(jié)合的有效性。這項工作證實,使用專家知識來構(gòu)建負樣本并將一類分類轉(zhuǎn)換為二元分類可以提高分類器的性能。兩類專家生成樣本方法優(yōu)于人工生成和傳統(tǒng)的一類分類方法。在建模過程中引入專家進行決策可能會導致人為錯誤,本文未對其對模型性能的影響進行研究。
Xing和Liu[56]提出了一種結(jié)合OCSVM的改進AdaBoost算法來提高單類分類的性能。AdaBoost[57]與支持向量機的結(jié)合總體上提高了二值和多類分類問題的性能;然而,AdaBoost結(jié)合OCSVM并沒有提高OCC的性能。提出了一種基于魯棒AdaBoost的OCSVM集成方法,該方法利用牛頓-拉夫森技術(shù)改變AdaBoost的權(quán)重。案例研究數(shù)據(jù)包括兩個合成數(shù)據(jù)集,正弦離群值和平方離群值,以及來自UCI存儲庫的20個數(shù)據(jù)集。該方法優(yōu)于多種單類分類方法,包括AdaBoost OCSVM集成、基于隨機子空間方法的OCSVM集成、基于聚類的OCSVM集成和高斯核OCSVM。該方法的平均性能優(yōu)于大多數(shù)其他方法。由于所探索的所有數(shù)據(jù)集都相對較小,因此所提出的方法的可擴展性需要進一步研究。
Perera等人[58]提出了一種用于新穎性檢測的單類GAN (OCGAN)模型,其解決方案基于使用去噪自編碼器網(wǎng)絡(luò)學習類內(nèi)樣本的潛在表示。作者認為,新穎性檢測涉及兩種類型的表征建模,包括確保類內(nèi)樣本得到很好的表征和確保類外樣本得到很差的表征。他們指出,在新穎性檢測方面,先前的現(xiàn)有工作尚未解決后者,而這正是他們的主要貢獻所在。他們提出的模型考慮了兩種類型的表示需求的建模。案例研究數(shù)據(jù)由四個公開的多類目標識別數(shù)據(jù)集組成,包括MNIST、FMNIST、COIL100和CIFAR10[58]。對于本文所考慮的四種數(shù)據(jù)集,該模型的新穎性優(yōu)于現(xiàn)有的一類新穎性檢測方法。不同技術(shù)之間的比較工作缺乏對模型性能的統(tǒng)計驗證和驗證。此外,作者沒有討論所提出的方法對非圖像數(shù)據(jù)集的適用性。
在圖像新穎性檢測方面,Zhang等[59]提出了“基于置信度估計的對抗學習一類新穎性檢測”模型。作者認為,大多數(shù)現(xiàn)有的新穎性檢測方法,特別是那些使用深度學習技術(shù)的方法,都不是端到端的,并且往往對新穎性檢測預測過于自信。該模型包括兩個模塊:表示模塊和檢測模塊,這兩個模塊通過對抗性建模來協(xié)同訓練和學習數(shù)據(jù)語料庫的早期分布。此外,該模型使用基于置信度的估計來確保其預測的更高效率。該模型使用四個公開可用的圖像數(shù)據(jù)集進行檢驗,即:MNIST, FMINST, COIL100,和CIFAR10,并與現(xiàn)有的幾種新穎性檢測方法進行比較[59]。作者的結(jié)論是,他們提出的模型優(yōu)于幾種現(xiàn)有的一類新穎性檢測方法。此外,一項消融研究表明,所提出模型的每個模塊在其功能上都是至關(guān)重要的。與之前的研究類似,本研究中不同技術(shù)之間的比較工作缺乏對模型性能的統(tǒng)計驗證和驗證。
表2總結(jié)了OCC和新穎性檢測方面調(diào)查工作的關(guān)鍵信息。