京網(wǎng)站建設(shè)公司百度地圖收錄提交入口
1 卷積在圖像中有什么直觀作用
? 在卷積神經(jīng)網(wǎng)絡(luò)中,卷積常用來提取圖像的特征,但不同層次的卷積操作提取到的特征類型是不相同的,特征類型粗分如表1所示。
? 表1 卷積提取的特征類型
卷積層次 | 特征類型 |
---|---|
淺層卷積 | 邊緣特征 |
中層卷積 | 局部特征 |
深層卷積 | 全局特征 |
圖像與不同卷積核的卷積可以用來執(zhí)行邊緣檢測(cè)、銳化和模糊等操作。表5.3顯示了應(yīng)用不同類型的卷積核(濾波器)后的各種卷積圖像。
? 表2 一些常見卷積核的作用
卷積作用 | 卷積核 | 卷積后圖像 |
---|---|---|
輸出原圖 | [ 0 0 0 0 1 0 0 0 0 ] \begin{bmatrix} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{bmatrix} ?000?010?000? ? | ![]() |
| 邊緣檢測(cè)(突出邊緣差異) | [ 1 0 ? 1 0 0 0 ? 1 0 1 ] \begin{bmatrix} 1 & 0 & -1 \\ 0 & 0 & 0 \\ -1 & 0 & 1 \end{bmatrix} ?10?1?000??101? ? |
|
| 邊緣檢測(cè)(突出中間值) | [ ? 1 ? 1 ? 1 ? 1 8 ? 1 ? 1 ? 1 ? 1 ] \begin{bmatrix} -1 & -1 & -1 \\ -1 & 8 & -1 \\ -1 & -1 & -1 \end{bmatrix} ??1?1?1??18?1??1?1?1? ? |
|
| 圖像銳化 | [ 0 ? 1 0 ? 1 5 ? 1 0 ? 1 0 ] \begin{bmatrix} 0 & -1 & 0 \\ -1 & 5 & -1 \\ 0 & -1 & 0 \end{bmatrix} ?0?10??15?1?0?10? ? |
|
| 方塊模糊 | [ 1 1 1 1 1 1 1 1 1 ] × 1 9 \begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{bmatrix} \times \frac{1}{9} ?111?111?111? ?×91? |
|
| 高斯模糊 | [ 1 2 1 2 4 2 1 2 1 ] × 1 16 \begin{bmatrix} 1 & 2 & 1 \\ 2 & 4 & 2 \\ 1 & 2 & 1 \end{bmatrix} \times \frac{1}{16} ?121?242?121? ?×161? |
|
2 卷積層有哪些基本參數(shù)?
? 卷積層中需要用到卷積核(濾波器或特征檢測(cè)器)與圖像特征矩陣進(jìn)行點(diǎn)乘運(yùn)算,利用卷積核與對(duì)應(yīng)的特征感受域進(jìn)行劃窗式運(yùn)算時(shí),需要設(shè)定卷積核對(duì)應(yīng)的大小、步長(zhǎng)、個(gè)數(shù)以及填充的方式,如表3所示。
? 表3 卷積層的基本參數(shù)
參數(shù)名 | 作用 | 常見設(shè)置 |
---|---|---|
卷積核大小 (Kernel Size) | 卷積核的大小定義了卷積的感受野 | 在過去常設(shè)為5,如LeNet-5;現(xiàn)在多設(shè)為3,通過堆疊 3 × 3 3\times3 3×3的卷積核來達(dá)到更大的感受域 |
卷積核步長(zhǎng) (Stride) | 定義了卷積核在卷積過程中的步長(zhǎng) | 常見設(shè)置為1,表示滑窗距離為1,可以覆蓋所有相鄰位置特征的組合;當(dāng)設(shè)置為更大值時(shí)相當(dāng)于對(duì)特征組合降采樣 |
填充方式 (Padding) | 在卷積核尺寸不能完美匹配輸入的圖像矩陣時(shí)需要進(jìn)行一定的填充策略 | 設(shè)置為’SAME’表示對(duì)不足卷積核大小的邊界位置進(jìn)行某種填充(通常零填充)以保證卷積輸出維度與與輸入維度一致;當(dāng)設(shè)置為’VALID’時(shí)則對(duì)不足卷積尺寸的部分進(jìn)行舍棄,輸出維度就無法保證與輸入維度一致 |
輸入通道數(shù) (In Channels) | 指定卷積操作時(shí)卷積核的深度 | 默認(rèn)與輸入的特征矩陣通道數(shù)(深度)一致;在某些壓縮模型中會(huì)采用通道分離的卷積方式 |
輸出通道數(shù) (Out Channels) | 指定卷積核的個(gè)數(shù) | 若設(shè)置為與輸入通道數(shù)一樣的大小,可以保持輸入輸出維度的一致性;若采用比輸入通道數(shù)更小的值,則可以減少整體網(wǎng)絡(luò)的參數(shù)量 |
卷積操作維度變換公式:
O d = { ? ( I d ? k s i z e ) + 1 ) s ? , padding=VALID ? I d s ? , padding=SAME O_d =\begin{cases} \lceil \frac{(I_d - k_{size})+ 1)}{s}\rceil ,& \text{padding=VALID}\\ \lceil \frac{I_d}{s}\rceil,&\text{padding=SAME} \end{cases} Od?={?s(Id??ksize?)+1)??,?sId???,?padding=VALIDpadding=SAME?
其中, I d I_d Id?為輸入維度, O d O_d Od?為輸出維度, k s i z e k_{size} ksize?為卷積核大小, s s s為步長(zhǎng)
3 卷積核有什么類型?
? 常見的卷積主要是由連續(xù)緊密的卷積核對(duì)輸入的圖像特征進(jìn)行滑窗式點(diǎn)乘求和操作,除此之外還有其他類型的卷積核在不同的任務(wù)中會(huì)用到,具體分類如表5.5所示。
? 表4 卷積核分類
卷積類別 | 示意圖 | 作用 |
---|---|---|
標(biāo)準(zhǔn)卷積 | 最常用的卷積核,連續(xù)緊密的矩陣形式可以提取圖像區(qū)域中的相鄰像素之間的關(guān)聯(lián)關(guān)系, 3 × 3 3\times3 3×3的卷積核可以獲得 3 × 3 3\times3 3×3像素范圍的感受視野 | |
擴(kuò)張卷積(帶孔卷積或空洞卷積) | ![]() | |
引入一個(gè)稱作擴(kuò)張率(Dilation Rate)的參數(shù),使同樣尺寸的卷積核可以獲得更大的感受視野,相應(yīng)的在相同感受視野的前提下比普通卷積采用更少的參數(shù)。同樣是 3 × 3 3\times3 3×3的卷積核尺寸,擴(kuò)張卷積可以提取 5 × 5 5\times5 5×5范圍的區(qū)域特征,在實(shí)時(shí)圖像分割領(lǐng)域廣泛應(yīng)用 | ||
轉(zhuǎn)置卷積 | ![]() | |
先對(duì)原始特征矩陣進(jìn)行填充使其維度擴(kuò)大到適配卷積目標(biāo)輸出維度,然后進(jìn)行普通的卷積操作的一個(gè)過程,其輸入到輸出的維度變換關(guān)系恰好與普通卷積的變換關(guān)系相反,但這個(gè)變換并不是真正的逆變換操作,通常稱為轉(zhuǎn)置卷積(Transpose Convolution)而不是反卷積(Deconvolution)。轉(zhuǎn)置卷積常見于目標(biāo)檢測(cè)領(lǐng)域中對(duì)小目標(biāo)的檢測(cè)和圖像分割領(lǐng)域還原輸入圖像尺度。 | ||
可分離卷積 | ![]() | |
標(biāo)準(zhǔn)的卷積操作是同時(shí)對(duì)原始圖像 H × W × C H\times W\times C H×W×C三個(gè)方向的卷積運(yùn)算,假設(shè)有 K K K個(gè)相同尺寸的卷積核,這樣的卷積操作需要用到的參數(shù)為 H × W × C × K H\times W\times C\times K H×W×C×K個(gè);若將長(zhǎng)寬與深度方向的卷積操作分離出變?yōu)?span id="ieo6y2aa" class="katex--inline"> H × W H\times W H×W與 C C C的兩步卷積操作,則同樣的卷積核個(gè)數(shù) K K K,只需要 ( H × W + C ) × K (H\times W + C)\times K (H×W+C)×K個(gè)參數(shù),便可得到同樣的輸出尺度??煞蛛x卷積(Seperable Convolution)通常應(yīng)用在模型壓縮或一些輕量的卷積神經(jīng)網(wǎng)絡(luò)中,如MobileNet [ 1 ] ^{[1]} [1]、Xception [ 2 ] ^{[2]} [2]等 |
5 二維卷積與三維卷積有什么區(qū)別?
- 二維卷積
二維卷積操作如圖5.3所示,為了更直觀的說明,分別展示在單通道和多通道輸入中,對(duì)單個(gè)通道輸出的卷積操作。在單通道輸入的情況下,若輸入卷積核尺寸為 ( k h , k w , 1 ) ? (k_h, k_w, 1)? (kh?,kw?,1)?,卷積核在輸入圖像的空間維度上進(jìn)行滑窗操作,每次滑窗和 ( k h , k w ) ? (k_h, k_w)? (kh?,kw?)?窗口內(nèi)的值進(jìn)行卷積操作,得到輸出圖像中的一個(gè)值。在多通道輸入的情況下,假定輸入圖像特征通道數(shù)為3,卷積核尺寸則為 ( k h , k w , 3 ) ? (k_h, k_w, 3)? (kh?,kw?,3)?,每次滑窗與3個(gè)通道上的 ( k h , k w ) ? (k_h, k_w)? (kh?,kw?)?窗口內(nèi)的所有值進(jìn)行卷積操作,得到輸出圖像中的一個(gè)值。
- 三維卷積
3D卷積操作如圖所示,同樣分為單通道和多通道,且假定只使用1個(gè)卷積核,即輸出圖像僅有一個(gè)通道。對(duì)于單通道輸入,與2D卷積不同之處在于,輸入圖像多了一個(gè)深度(depth)維度,卷積核也多了一個(gè) k d ? k_d? kd??維度,因此3D卷積核的尺寸為 ( k h , k w , k d ) ? (k_h, k_w, k_d)? (kh?,kw?,kd?)?,每次滑窗與 ( k h , k w , k d ) ? (k_h, k_w, k_d)? (kh?,kw?,kd?)?窗口內(nèi)的值進(jìn)行相關(guān)操作,得到輸出3D圖像中的一個(gè)值。對(duì)于多通道輸入,則與2D卷積的操作一樣,每次滑窗與3個(gè)channels上的 ( k h , k w , k d ) ? (k_h, k_w, k_d)? (kh?,kw?,kd?)?窗口內(nèi)的所有值進(jìn)行相關(guān)操作,得到輸出3D圖像中的一個(gè)值。