YouTube stories 中的神經(jīng)網(wǎng)絡(luò)視頻分割(加特效)
雷鋒網(wǎng) AI 科技評(píng)論按:視頻分割是一項(xiàng)用途廣泛的技術(shù),把視頻的前景和背景分離之后,導(dǎo)演們、視頻制作者們就可以把兩者作為兩個(gè)不同的視覺(jué)層,便于后續(xù)的處理或者替換。對(duì)背景的修改可以傳遞不同的情緒、可以讓前景的主人公顯得去了另一個(gè)地方,又或者增強(qiáng)這條視頻消息的影響力。不過(guò),這項(xiàng)工作傳統(tǒng)上都是由人工完成的,非常費(fèi)時(shí)(比如需要逐幀把里面的人描選出來(lái));省時(shí)的辦法則需要一個(gè)專門的電影工作室,布置綠幕作為拍攝背景,從而實(shí)時(shí)替換成別的需要的內(nèi)容。
不過(guò),以往復(fù)雜的背景分割工作,現(xiàn)在僅僅靠一臺(tái)手機(jī)就可以完成了!谷歌今天在 YouTube app 中的 stories 里集成了一個(gè)新的視頻分割功能,在手機(jī)上就可以準(zhǔn)確、實(shí)時(shí)地分割視頻的前景背景。這個(gè)功能是專門為 YouTube 視頻作者們?cè)O(shè)計(jì)的,在目前的 beta 版中 stories 作為新的輕量級(jí)視頻格式,可以讓視頻作者們替換以及更改視頻背景,不需要專門的設(shè)備就可以輕松增加視頻的創(chuàng)作價(jià)值。谷歌也發(fā)布了一篇博客對(duì)其中的技術(shù)細(xì)節(jié)作了介紹,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng)) AI 科技評(píng)論編譯如下。
任務(wù)目標(biāo)
谷歌的研究人員們借助了機(jī)器學(xué)習(xí)的力量,把這個(gè)任務(wù)作為一個(gè)語(yǔ)義分割問(wèn)題來(lái)考慮,并設(shè)計(jì)了卷積神經(jīng)網(wǎng)絡(luò)來(lái)達(dá)到目標(biāo)。具體來(lái)說(shuō),他們針對(duì)手機(jī)的特點(diǎn)設(shè)計(jì)了適用的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練過(guò)程,遵循著這幾個(gè)要求和限制:
作為在手機(jī)上運(yùn)行的解決方案,它需要足夠輕量,運(yùn)行速度需要比目前最先進(jìn)的照片分割模型快 10 倍到 30 倍。對(duì)于實(shí)時(shí)推理任務(wù),所需的模型計(jì)算結(jié)果的速度至少需要達(dá)到每秒 30 幀。
作為視頻模型,它應(yīng)當(dāng)利用視頻的時(shí)間冗余性(相鄰的幀內(nèi)容相似),自己展現(xiàn)出時(shí)間持續(xù)性(相鄰的輸出結(jié)果相似)
作為基本規(guī)律,高質(zhì)量的結(jié)果也需要高質(zhì)量的標(biāo)注訓(xùn)練數(shù)據(jù)
數(shù)據(jù)集
為了給機(jī)器學(xué)習(xí)流水線提供高質(zhì)量的訓(xùn)練數(shù)據(jù),谷歌標(biāo)注了上萬(wàn)張照片,其中包含了各種各樣豐富的前景(人物)姿勢(shì)和背景內(nèi)容。標(biāo)注內(nèi)容里包括了精確到像素的前景人物的圖像結(jié)構(gòu),比如頭發(fā)、眼鏡、脖子、皮膚、嘴唇等等,各類背景則統(tǒng)一標(biāo)注為「背景」,標(biāo)注質(zhì)量在人類標(biāo)注員的交叉驗(yàn)證測(cè)試中取得了 98% 的 IOU。
一張仔細(xì)標(biāo)注為 9 個(gè)類別的訓(xùn)練樣本示例;前景元素的標(biāo)注區(qū)域直接覆蓋在圖像上
網(wǎng)絡(luò)輸入
這個(gè)視頻分割任務(wù)的具體定義是對(duì)視頻輸入的每一幀(RGB 三個(gè)通道)計(jì)算出一張二值掩蔽圖。這里需要解決的關(guān)鍵問(wèn)題是讓計(jì)算出的不同幀的掩蔽圖之間達(dá)到時(shí)間持續(xù)性。現(xiàn)有的使用 LSTM 和 GRU 的方法雖然有效,但對(duì)于要在手機(jī)上實(shí)時(shí)運(yùn)行的應(yīng)用來(lái)說(shuō),需要的計(jì)算能力太高了。所以谷歌研究人員們想到的替代方案是把前一幀計(jì)算出的掩蔽圖作為第四個(gè)通道,和新一幀本來(lái)的 RGB 三個(gè)通道一起作為網(wǎng)絡(luò)輸入,從而實(shí)現(xiàn)時(shí)間持續(xù)性。如下圖
一幀原始圖像(左圖)會(huì)分離為三色通道,然后再加上前一幀圖像算出的掩蔽圖(中)。這些會(huì)一起作為神經(jīng)網(wǎng)絡(luò)的輸入,用來(lái)預(yù)測(cè)當(dāng)前幀的掩蔽圖(右圖)。
訓(xùn)練過(guò)程
對(duì)于視頻分割任務(wù),我們希望達(dá)到幀與幀之間的時(shí)間連續(xù)性,同時(shí)也要照顧到圖像中內(nèi)容的突然變化,比如人突然出現(xiàn)在攝像頭視野中。為了訓(xùn)練模型能夠魯棒地處理這些使用狀況,谷歌的研究人員們對(duì)每張圖像的真實(shí)背景分割結(jié)果做了各種不同的處理后再作為來(lái)自前一幀的掩蔽圖:
空的前一幀掩蔽:這種情況用來(lái)訓(xùn)練網(wǎng)絡(luò)正確分割視頻的第一幀,以及正確分割視野中新出現(xiàn)的物體。這模擬了某人突然出現(xiàn)在攝像頭視野內(nèi)的狀況。
仿射變換過(guò)的真實(shí)背景掩蔽:輕微的變換可以訓(xùn)練網(wǎng)絡(luò)據(jù)此進(jìn)行調(diào)整,向前一幀的掩蔽適配。大幅度的變換就訓(xùn)練網(wǎng)絡(luò)判斷出掩蔽不適合并拋棄這個(gè)結(jié)果。
變換過(guò)的圖像:對(duì)視頻的原始圖像做薄板樣條平滑,模擬攝像頭快速移動(dòng)和轉(zhuǎn)動(dòng)時(shí)拍攝出的畫面
演示實(shí)時(shí)視頻分割
網(wǎng)絡(luò)架構(gòu)
根據(jù)修改過(guò)的輸入/輸出格式,谷歌的研究人員們以標(biāo)準(zhǔn)的沙漏型分割網(wǎng)絡(luò)架構(gòu)為基礎(chǔ),做了如下改進(jìn):
使用大卷積核、4 或者更大的大步距在高分辨率的 RGB 輸入幀內(nèi)檢測(cè)物體特征。對(duì)通道數(shù)不多的層做卷積的計(jì)算開(kāi)銷相對(duì)較小(在這種情況下就是 RGB 三個(gè)通道的輸入),所以在這里用大的卷積核幾乎對(duì)計(jì)算需求沒(méi)有影響。
為了提高運(yùn)行速度,模型中結(jié)合大步距和 U-Net 類似的跳躍連接,激進(jìn)地進(jìn)行下采樣,同時(shí)也在上采樣時(shí)保留低層次的特征。對(duì)于谷歌的這個(gè)分割模型,有跳躍連接的模型的 IOU 要比沒(méi)有跳躍連接的大幅提高 5%。
帶有跳躍連接的沙漏型分割網(wǎng)絡(luò)
為了進(jìn)一步提高速度,谷歌研究人員們優(yōu)化了默認(rèn)的殘差網(wǎng)絡(luò)瓶頸。在學(xué)術(shù)論文中,研究者們通常喜歡在網(wǎng)絡(luò)中部把通道數(shù)縮減為 1/4 (比如,通過(guò)使用 64 個(gè)不同的卷積核把 256 個(gè)通道縮減為 64 個(gè)通道)。不過(guò),谷歌的研究人員們認(rèn)為他們可以更加激進(jìn)地縮減通道,可以縮減為 1/16 甚至 1/32,而且并不會(huì)帶來(lái)性能的大幅下降。
大比例壓縮的 ResNet 瓶頸
為了美化圖像邊緣、提高圖像邊緣分割的準(zhǔn)確率,在整個(gè)分割網(wǎng)絡(luò)之上增加了幾層全分辨率的密集連接 DenseNet 層,這種做法和神經(jīng)網(wǎng)絡(luò)匹配很相似。這種技巧帶來(lái)的模型總體數(shù)值表現(xiàn)提升并不大,僅有 0.5% IOU,但是人類視覺(jué)感知上的分割質(zhì)量提升很明顯。
經(jīng)過(guò)這些修改之后,網(wǎng)絡(luò)在移動(dòng)設(shè)備上的運(yùn)行速度非常塊,不僅在 iPhone 7 上有超過(guò) 100 幀每秒、Pixel 2 上超過(guò)40 幀每秒的速度,而且還有很高的準(zhǔn)確率(根據(jù)谷歌的驗(yàn)證數(shù)據(jù)集達(dá)到了 94.8%),為 YouTube stories 功能提供了各種豐富流暢的實(shí)時(shí)響應(yīng)效果。
視頻分割團(tuán)隊(duì)的近期目標(biāo)是在 YouTube stories 功能的小規(guī)模開(kāi)放期間進(jìn)行更多測(cè)試。隨著分割技術(shù)改善、拓展到更多標(biāo)簽的識(shí)別分割,谷歌的 AR 服務(wù)中未來(lái)也有可能會(huì)把它集成進(jìn)去。
via GoogleBlog,雷鋒網(wǎng) AI 科技評(píng)論編譯