日审4亿张色情图片人工智能“鉴黄师”即将启用

加拿大都市网

2018年8月19日 15:40

又一薪水高、“福利”好的职业或要被人工智能(AI)替代了。据澎湃新闻报道，随着AI鉴黄技术的发展，人工鉴黄师逐渐从鉴黄行业里被解放出来。阿里安全部高级算法专家威视介绍，假设一天要审核4亿张图片，单纯由人工来审，如果一人一天审1万张，就需要4万人。而经由AI鉴黄后需要交由人工审核的量大约只需20万张，这样只需要20人，大大节省了人力。

据侨报网整理报道，鉴黄师是一个因为“扫黄打非”的需要而设立的特殊岗位。其工作内容，就是将办案单位送来的淫秽光碟一一审看，并根据内容开具鉴定结论。中国“鉴黄师”几乎都是女民警。“鉴黄师”没什么具体要求的标准，唯一的要求就是已婚，其余人员不得借机观看。除去已婚外，鉴黄民警还要办事公正、坚持原则、业务和政治素质过硬。

鉴黄AI是怎样炼成的？

据澎湃新闻报道，阿里的鉴黄AI做的色情图片检测，从原理上来说，就是一个典型的图像分类问题。当前的解决方案是标注样本后，使用深度学习技术训练一个人工神经网络。具体步骤包括明确分类标准→收集样本→样本打标→模型训练，四个步骤。其中前三个步骤主要由人工完成。

这四个步骤听起来似乎是最后一步的技术难度最高，实际上阿里的相关人士向澎湃新闻透露，花时间最久的是第一步。

“虽然实打实的比如‘露点不露点’之类的色情，还有比较明确的判断标准，”威视表示，“对于低俗和性感类，争议就比较多，不同的人有不同的认识。”

现实世界是复杂的，威视举了个例子，以儿童色情的问题为例：儿童露点算不算色情？有人会说：男孩不算，女孩算。又有人质疑：如果男孩年龄较大呢？如果是发育较早的孩子呢？于是又又有人说，十二三岁的男孩子露点算色情。那么，十一岁的呢？或者，如何从图片中判断孩子年龄到底有多大呢？

威视表示，虽然明确分类标准是设计步骤时的第一步，但在后续打标过程中，遇到实际的问题还要再对标准进行不断的修正和增补。

“AI最好的应用模式依然是人+机”

那么，高效和低成本的AI鉴黄，是否会完全替代人工鉴黄师？

对此，阿里安全部产品专家念夏向澎湃新闻表示，目前AI鉴黄最好的应用模式仍然是人工+机器。不管是前期设计模型的标准和实际打标，还是后期人工复核，人的参与都是不可或缺的。

2015年7月的“北京三里屯优衣库事件”，一段时长1分钟的试衣间不雅视频流出，并2个小时内在各大网络平台上迅速完成了过亿的转发量。但目前只有人的头脑拥有足够的“意识”判断这些单独的突发性事件，是否属于“违规”。

“已知的、有清晰标准定义的风险，AI都已经能解决了。”念夏表示，真正的难点是恶意的突发事件，爆发了就是爆发了，这种情况下，由于之前对该事件或场景缺乏标准的定义，当时要直接给AI及时去处理，是不可能的。”

另一种类型就是非常模棱两可的场景，即AI打分在50-99分之间的内容。念夏表示，带有主观个人意识或者群体意识的部分，就是需要人工审核的核心部分。

此外，包括特定的体育运动以及国际标准差异等问题，前期模型调整和后期复核标准变化，也需要人工审核的出马。

威视表示，目前像包括相扑、摔跤、艺术体操甚至游泳等门类的运动，由于穿着较为特殊，一般把这类多媒体作品定性为性感类，经由人工复核，终极目标还是希望能让AI直接分辨出图片上的人是在参加运动比赛。

从国际上来看，虽有通用的鉴黄标准，但也会有与国内标准大相径庭的地方。念夏向澎湃新闻举了个例子：“国内如果直播给小宝宝洗澡，其实没什么事，大家觉得很可爱。但在国外是绝对不行的，而且属于严重违规。”

阿里的AI除了用于鉴黄，念夏表示利用这个原理，还能训练AI做类似编审的工作，比如选取视频封面、鉴定重复视频等。“不仅是做合规方面的事情，我们希望利用AI去做真正的生产提效，用技术解决更多社会问题。（Alice编辑）