汽車保險網(wǎng)站crm系統(tǒng)
TIFS期刊 A類期刊
新知識點
Introduction
Linguistic Steganalysis in Few-Shot Scenario模型是個預(yù)訓(xùn)練方法。
評估了四種文本加密分析方法,TS-CSW、TS-RNN、Zou、SeSy,用于分析和訓(xùn)練的樣本都由VAE-Stego生產(chǎn)(編碼方式使用AC編碼)。
實驗是對比在少樣本的情況下,各個模型的效果,當訓(xùn)練樣本少于10的時候(few-shot),上面提到的TS-CSW和TS-RNN的表現(xiàn)都不好。
Zou和SeSy的方法用了pre-trained language mode,當訓(xùn)練標記樣本到達1000的時候表現(xiàn)更好。
TS-CSW和TS-RNN的方法當樣本達到10000的時候表現(xiàn)也很好。
表明,現(xiàn)有的分析網(wǎng)絡(luò)需要大量樣本作為訓(xùn)練的鋪墊。
之前的文章 Few-shot text steganalysis based on attentional meta-learner[30]這篇文章考慮了few-shot的問題,但是作者的評價是:
Although this linguistic steganalysis method performs well when combined with multi-task scenario, there are some
problems in practical applications. Firstly, this method may not be able to demonstrate its advantages when there are
too few labeled samples to constitute multi-task, which limits its scope of application. Secondly, it is time-consuming
and labor-intensive to label samples accurately with various embedding rates and steganography algorithms
為了分析現(xiàn)實世界的實用場景,這篇文章只關(guān)注只有少量標記樣本的實際場景(practiacl scenario)。
實驗
第一階段用 labeled data 去 fune-tune pretrained language model
第二階段用 unlabeled data去進行 self-training(這個沒太懂場景和效果問題)
總結(jié)的文本分析所用的方法和模型。👆
這是作者所用的模型,她提出了一個概念是,在slef-training的模型中,通過無標簽(不知道是否是stego還是正常的cover)的文本來進行分析,選擇more obvious and easier samples去標記pseudo-labeled(偽標記) dataset--------- D p D_p Dp?。 D p D_p Dp?便于后續(xù)的訓(xùn)練過程,提取和學(xué)習(xí)足夠和更明顯的特征,逐漸澄清分布差異。我們可以重復(fù)這個過程,然后得到了一種有效的少鏡頭語言步進分析方法。
basic model
對于基礎(chǔ)模型,通過已標記數(shù)據(jù)集 D l D_l Dl?來訓(xùn)練模型 B W ( ? ) B^W(*) BW(?)(Bert)。
訓(xùn)練的損失函數(shù)是:
N s N_s Ns?是batch size,y_hat是預(yù)測結(jié)果,y是真實結(jié)果。
Self-Training Framework
其中的MC dropout是一種選擇模型確定性較大的label給數(shù)據(jù)貼上。(個人理解類似于max_pooling,通過多次的選取特征明顯的值來獲取模型最能分辨的一些語句)。
MC dropout
其中 6 ,7 ,8 ,9 ,10幾個公式在論文中展示了,效果就是從無標簽的文本中選出最大特征的數(shù)據(jù)(這種數(shù)據(jù)對于basic model的訓(xùn)練效果最佳),從而實現(xiàn)對于整個模型的正循環(huán)的訓(xùn)練。
實驗
dataset
使用IMDB和Twitter、News的文本,然后使用BERT-LSTM的架構(gòu)訓(xùn)練一個VAE-stego的加密模型,對于每個模型,都使用了HC(Huffman Coding)和AC(Arithmetic Coding)兩種編碼方式來實現(xiàn)。
選擇了嵌入率是,HC的candidate pool size 設(shè)為了32,每個單詞的平均嵌入bit約為5。
AC的candidate pool size 設(shè)為了dictionary size,每個單詞的平均嵌入bit約為7。
experimental settings
實驗?zāi)P褪褂玫腷ert,12層transformer,hidden dimension為768, 最大句子長度是128。
相同的steganalysis methods,做了對比試驗,都使用bert作為基本模型,使用了 Zou,SeSy和FSStega進行了對比,在訓(xùn)練labeled sample小于等于10的情況下,作者的準確率(acc)要高于其他幾個10%左右。
performance on unlabeled dataset
為了模擬真實場景(因為真實場景所含有的加密的樣本比較少),作者把Cover:Stego的比例從2:1調(diào)整到1:0。然后在IMDB數(shù)據(jù)集上面的AC編碼進行訓(xùn)練。由于訓(xùn)練的樣本較少,基礎(chǔ)模型不穩(wěn)地,所以這次訓(xùn)練選擇使用30個banlance labeled samples對之前的basic model進行再訓(xùn)練,然后再用unbalanced(正負樣本比例不均衡) 和 unlabeled dataset對self-training進行訓(xùn)練。
Performance on Unlabeled Datasets With Mixed Language Styles
把三個數(shù)據(jù)集混合進行訓(xùn)練,按占比不同做新的數(shù)據(jù)集訓(xùn)練,然后按照訓(xùn)練的步驟再進行實驗分類。
a是只進行basic model訓(xùn)練后的分類結(jié)果,b是通過unlabeled數(shù)據(jù)集訓(xùn)練后的分類結(jié)果,c是把a和b訓(xùn)練好的最終模型,來進行分類的結(jié)果(b產(chǎn)生的sample再進行a訓(xùn)練,把a的模型訓(xùn)練到最佳)。
Generality Test
一共六個數(shù)據(jù)集,選用了IMDB的AC編碼的數(shù)據(jù)集,來進行對其他5個數(shù)據(jù)集的驗證測試。
Efficiency Test
訓(xùn)練好的模型,做加密分析檢測一次所需要的時間/內(nèi)(顯)存👆。
Hyper-Parameters Adoption
其中 θ θ θ是當unlableed產(chǎn)生假標記的數(shù)據(jù)后,labeled的數(shù)據(jù)(原始數(shù)據(jù))再放進去訓(xùn)練basic model的比例(100%)則為完全的有監(jiān)督學(xué)習(xí)。
其中的 α α α是等式9的可更改選擇加標簽數(shù)據(jù)的比例。
作者做的實驗是真的全面,佩服!