當前位置：首頁 > news >正文

汽車保險網(wǎng)站crm系統(tǒng)

news 2025/7/5 3:25:57

汽車保險網(wǎng)站,crm系統(tǒng),長春百度網(wǎng)站快速優(yōu)化,湖南省人民政府官方網(wǎng)站TIFS期刊 A類期刊新知識點 Introduction Linguistic Steganalysis in Few-Shot Scenario模型是個預(yù)訓(xùn)練方法。評估了四種文本加密分析方法，TS-CSW、TS-RNN、Zou、SeSy，用于分析和訓(xùn)練的樣本都由VAE-Stego生產(chǎn)(編碼方式使用AC編碼)。實驗是對比在少樣…

TIFS期刊 A類期刊

新知識點

在這里插入圖片描述

Introduction

Linguistic Steganalysis in Few-Shot Scenario模型是個預(yù)訓(xùn)練方法。
評估了四種文本加密分析方法，TS-CSW、TS-RNN、Zou、SeSy，用于分析和訓(xùn)練的樣本都由VAE-Stego生產(chǎn)(編碼方式使用AC編碼)。
實驗是對比在少樣本的情況下，各個模型的效果，當訓(xùn)練樣本少于10的時候(few-shot)，上面提到的TS-CSW和TS-RNN的表現(xiàn)都不好。
Zou和SeSy的方法用了pre-trained language mode，當訓(xùn)練標記樣本到達1000的時候表現(xiàn)更好。
TS-CSW和TS-RNN的方法當樣本達到10000的時候表現(xiàn)也很好。
表明，現(xiàn)有的分析網(wǎng)絡(luò)需要大量樣本作為訓(xùn)練的鋪墊。

之前的文章 Few-shot text steganalysis based on attentional meta-learner[30]這篇文章考慮了few-shot的問題，但是作者的評價是：

Although this linguistic steganalysis method performs well when combined with multi-task scenario, there are some
problems in practical applications. Firstly, this method may not be able to demonstrate its advantages when there are
too few labeled samples to constitute multi-task, which limits its scope of application. Secondly, it is time-consuming
and labor-intensive to label samples accurately with various embedding rates and steganography algorithms

為了分析現(xiàn)實世界的實用場景，這篇文章只關(guān)注只有少量標記樣本的實際場景(practiacl scenario)。
實驗
第一階段用 labeled data 去 fune-tune pretrained language model
第二階段用 unlabeled data去進行 self-training(這個沒太懂場景和效果問題)
在這里插入圖片描述
總結(jié)的文本分析所用的方法和模型。👆

這是作者所用的模型，她提出了一個概念是，在slef-training的模型中，通過無標簽(不知道是否是stego還是正常的cover)的文本來進行分析，選擇more obvious and easier samples去標記pseudo-labeled(偽標記) dataset--------- $D_p$ 。 $D_p$ 便于后續(xù)的訓(xùn)練過程，提取和學(xué)習(xí)足夠和更明顯的特征，逐漸澄清分布差異。我們可以重復(fù)這個過程，然后得到了一種有效的少鏡頭語言步進分析方法。

basic model

對于基礎(chǔ)模型，通過已標記數(shù)據(jù)集 $D_l$ 來訓(xùn)練模型 $B^W(*)$ (Bert)。
訓(xùn)練的損失函數(shù)是：
在這里插入圖片描述

$N_s$ 是batch size,y_hat是預(yù)測結(jié)果，y是真實結(jié)果。

Self-Training Framework

在這里插入圖片描述
其中的MC dropout是一種選擇模型確定性較大的label給數(shù)據(jù)貼上。(個人理解類似于max_pooling，通過多次的選取特征明顯的值來獲取模型最能分辨的一些語句)。
MC dropout
其中 6 ，7 ，8 ，9 ，10幾個公式在論文中展示了，效果就是從無標簽的文本中選出最大特征的數(shù)據(jù)(這種數(shù)據(jù)對于basic model的訓(xùn)練效果最佳)，從而實現(xiàn)對于整個模型的正循環(huán)的訓(xùn)練。

實驗

dataset
使用IMDB和Twitter、News的文本，然后使用BERT-LSTM的架構(gòu)訓(xùn)練一個VAE-stego的加密模型，對于每個模型，都使用了HC(Huffman Coding)和AC(Arithmetic Coding)兩種編碼方式來實現(xiàn)。
選擇了嵌入率是，HC的candidate pool size 設(shè)為了32，每個單詞的平均嵌入bit約為5。
AC的candidate pool size 設(shè)為了dictionary size，每個單詞的平均嵌入bit約為7。
experimental settings
實驗?zāi)Ｐ褪褂玫腷ert，12層transformer，hidden dimension為768，最大句子長度是128。
相同的steganalysis methods，做了對比試驗，都使用bert作為基本模型，使用了 Zou，SeSy和FSStega進行了對比，在訓(xùn)練labeled sample小于等于10的情況下，作者的準確率(acc)要高于其他幾個10%左右。
在這里插入圖片描述

performance on unlabeled dataset
為了模擬真實場景(因為真實場景所含有的加密的樣本比較少)，作者把Cover:Stego的比例從2：1調(diào)整到1：0。然后在IMDB數(shù)據(jù)集上面的AC編碼進行訓(xùn)練。由于訓(xùn)練的樣本較少，基礎(chǔ)模型不穩(wěn)地，所以這次訓(xùn)練選擇使用30個banlance labeled samples對之前的basic model進行再訓(xùn)練，然后再用unbalanced(正負樣本比例不均衡) 和 unlabeled dataset對self-training進行訓(xùn)練。

Performance on Unlabeled Datasets With Mixed Language Styles
把三個數(shù)據(jù)集混合進行訓(xùn)練，按占比不同做新的數(shù)據(jù)集訓(xùn)練，然后按照訓(xùn)練的步驟再進行實驗分類。

在這里插入圖片描述
a是只進行basic model訓(xùn)練后的分類結(jié)果，b是通過unlabeled數(shù)據(jù)集訓(xùn)練后的分類結(jié)果，c是把a和b訓(xùn)練好的最終模型，來進行分類的結(jié)果(b產(chǎn)生的sample再進行a訓(xùn)練，把a的模型訓(xùn)練到最佳)。

Generality Test

一共六個數(shù)據(jù)集，選用了IMDB的AC編碼的數(shù)據(jù)集，來進行對其他5個數(shù)據(jù)集的驗證測試。
在這里插入圖片描述

Efficiency Test

在這里插入圖片描述
訓(xùn)練好的模型，做加密分析檢測一次所需要的時間/內(nèi)(顯)存👆。

Hyper-Parameters Adoption

其中 $θ$ 是當unlableed產(chǎn)生假標記的數(shù)據(jù)后，labeled的數(shù)據(jù)(原始數(shù)據(jù))再放進去訓(xùn)練basic model的比例(100%)則為完全的有監(jiān)督學(xué)習(xí)。
在這里插入圖片描述
其中的 $α$ 是等式9的可更改選擇加標簽數(shù)據(jù)的比例。

作者做的實驗是真的全面，佩服！

查看全文

http://aloenet.com.cn/news/32738.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡