日審4億張色情圖片人工智能「鑒黃師」即將啟用

加拿大都市网

2018年8月19日 15:40

又一薪水高、「福利」好的職業或要被人工智能(AI)替代了。據澎湃新聞報道，隨着AI鑒黃技術的發展，人工鑒黃師逐漸從鑒黃行業里被解放出來。阿里安全部高級算法專家威視介紹，假設一天要審核4億張圖片，單純由人工來審，如果一人一天審1萬張，就需要4萬人。而經由AI鑒黃後需要交由人工審核的量大約只需20萬張，這樣只需要20人，大大節省了人力。

據僑報網整理報道，鑒黃師是一個因為「掃黃打非」的需要而設立的特殊崗位。其工作內容，就是將辦案單位送來的淫穢光碟一一審看，並根據內容開具鑒定結論。中國「鑒黃師」幾乎都是女民警。「鑒黃師」沒什麼具體要求的標準，唯一的要求就是已婚，其餘人員不得藉機觀看。除去已婚外，鑒黃民警還要辦事公正、堅持原則、業務和政治素質過硬。

鑒黃AI是怎樣煉成的？

據澎湃新聞報道，阿里的鑒黃AI做的色情圖片檢測，從原理上來說，就是一個典型的圖像分類問題。當前的解決方案是標註樣本後，使用深度學習技術訓練一個人工神經網絡。具體步驟包括明確分類標準→收集樣本→樣本打標→模型訓練，四個步驟。其中前三個步驟主要由人工完成。

這四個步驟聽起來似乎是最後一步的技術難度最高，實際上阿里的相關人士向澎湃新聞透露，花時間最久的是第一步。

「雖然實打實的比如『露點不露點』之類的色情，還有比較明確的判斷標準，」威視表示，「對於低俗和性感類，爭議就比較多，不同的人有不同的認識。」

現實世界是複雜的，威視舉了個例子，以兒童色情的問題為例：兒童露點算不算色情？有人會說：男孩不算，女孩算。又有人質疑：如果男孩年齡較大呢？如果是發育較早的孩子呢？於是又又有人說，十二三歲的男孩子露點算色情。那麼，十一歲的呢？或者，如何從圖片中判斷孩子年齡到底有多大呢？

威視表示，雖然明確分類標準是設計步驟時的第一步，但在後續打標過程中，遇到實際的問題還要再對標準進行不斷的修正和增補。

「AI最好的應用模式依然是人+機」

那麼，高效和低成本的AI鑒黃，是否會完全替代人工鑒黃師？

對此，阿里安全部產品專家念夏向澎湃新聞表示，目前AI鑒黃最好的應用模式仍然是人工+機器。不管是前期設計模型的標準和實際打標，還是後期人工複核，人的參與都是不可或缺的。

2015年7月的「北京三里屯優衣庫事件」，一段時長1分鐘的試衣間不雅視頻流出，並2個小時內在各大網絡平台上迅速完成了過億的轉發量。但目前只有人的頭腦擁有足夠的「意識」判斷這些單獨的突發性事件，是否屬於「違規」。

「已知的、有清晰標準定義的風險，AI都已經能解決了。」念夏表示，真正的難點是惡意的突發事件，爆發了就是爆發了，這種情況下，由於之前對該事件或場景缺乏標準的定義，當時要直接給AI及時去處理，是不可能的。」

另一種類型就是非常模稜兩可的場景，即AI打分在50-99分之間的內容。念夏表示，帶有主觀個人意識或者群體意識的部分，就是需要人工審核的核心部分。

此外，包括特定的體育運動以及國際標準差異等問題，前期模型調整和後期複核標準變化，也需要人工審核的出馬。

威視表示，目前像包括相撲、摔跤、藝術體操甚至游泳等門類的運動，由於穿着較為特殊，一般把這類多媒體作品定性為性感類，經由人工複核，終極目標還是希望能讓AI直接分辨出圖片上的人是在參加運動比賽。

從國際上來看，雖有通用的鑒黃標準，但也會有與國內標準大相徑庭的地方。念夏向澎湃新聞舉了個例子：「國內如果直播給小寶寶洗澡，其實沒什麼事，大家覺得很可愛。但在國外是絕對不行的，而且屬於嚴重違規。」

阿里的AI除了用於鑒黃，念夏表示利用這個原理，還能訓練AI做類似編審的工作，比如選取視頻封面、鑒定重複視頻等。「不僅是做合規方面的事情，我們希望利用AI去做真正的生產提效，用技術解決更多社會問題。（Alice編輯）