资讯首页 新闻资讯 云计算测评 云服务商动态 技术频道
上云无忧 > 云计算资讯  > 新闻资讯 > 每天处理 1 亿张色情图片,鹅厂鉴黄师身体吃得消吗?

每天处理 1 亿张色情图片,鹅厂鉴黄师身体吃得消吗?

发布时间: 2020-07-27 11:22:27 |浏览量:680| 评论: 0

吃得消!而且倍儿精神!



每天这么大的处理量,竟然还精神抖擞?


不要误会,这每天数亿张色情图片,靠的全是腾讯鉴黄师训练有素的AI人工智能高效处理,通过对算法模型的不断优化,每天处理数亿甚至10亿条不良信息,轻轻松松,而且鉴黄师们还有足够的时间锻炼身体,一口气做15个俯卧撑,谈笑间内容平台健康率直冲99.89%。


从文字到图片,从直播到短视频,这些让平台、企业头疼不已的不良内容,为何全被腾讯的这个AI人工智能轻松识别,AI人工智能又是如何炼的火眼金睛,且听产哥细细道来

靠技术的鉴黄师:“身体很好,勿念”

在很多人眼中,Fay的工作让人“羡慕”不已,甚至诸多鹅厂工程师自告奋勇,想帮Fay打下手,作为腾讯安全天御内容风控专家,Fay的主要工作便是和色情信息打交道,可谓是每天阅片无数,历尽人间“春”色。诸多网友后台提问:长年累月的接触这些“刺激内容”,Fay会不会身心损耗巨大?


“其实根本不是那么回事。”一边审片一边接受采访的Fay笑着大呼“冤枉”,他所在的内容风控团队每天要协助企业客户处理数亿甚至10亿条数据,“这么大的量级,光靠人识别根本不可能。”在腾讯,一线鉴黄的工作基本都由AI人工智能完成。目前业务健康程度已经达到了99.89%,守护着数万家客户的内容安全。


当然,AI不是一开始就那么聪明,需要经历人工标注+机器学习的反复过程。所以在腾讯安全天御内容风控专家志鸿眼中,比起大众眼中的“鉴黄师”,他们更像是AI人工智能训练师。


当然,普通人如果想跟他比拼人工鉴黄速度,“胜算”也很小——为了训练AI,志鸿和同事们每周会抽检数十万条数据,包括图片、音频、文本,进行人工审核,筛出不良内容、标注违规类型。这部分被标注的样本,将送给AI模型学习训练,理解其共同特征,在后续判定中“智能”识别不良内容。


鹅厂鉴黄师正在进行人工审核抽查

从传统的文字,到图片、视频、音频……三年来,Fay和志鸿接触到的违规内容,可谓形形色色,五花八门。为了消除网友们对他身体“过度消耗”的担心,Fay在产哥面前一口气做了十五个俯卧撑。


“工作之余的消遣跟其他程序员一样,到深圳湾跑跑步,在家看看电影,挺规律的。我们就是普通人,不用把我们想得那么神秘!”Fay回答到。

揭秘AI鉴黄:图文、视频、声音,轻松识别


图片和视频是流传最广泛、传播速度最快的色情信息内容,几乎所有互联网平台都要面临图片和视频、直播中存在的色情、低俗等问题。


最让志鸿和同事们头疼的是,互联网黑色产业已形成了高度成熟的产业链,不法团伙只要利用批量注册软件和自动化程序,就能快速实现这些不良内容的生产和传播。在和不法分子持续对抗的过程中,腾讯安全的技术武器也进行了多轮升级。


以图片和视频为例,从人肉眼的角度来看,通常会认为出现生殖器官、性行为或者身体大面积裸露属于色情视频。而且在人的认知中对于“性感”和“色情”有清晰的界定:泳装美女跳辣舞,属于性感,但露点美女跳广播体操,就属于色情了。按照这种思路,腾讯安全的鉴黄师们使用了大量样本来训练,让人工智能可以像人一样决策。


空间归一化多标签识别算法



鉴黄师们会把色情低俗等图片大致分成两类过滤情况,存在具体有害元素和抽象概念的。


对于存在露点、性行为等具体元素的图片可以通过经典的图像分类和目标检测算法来进行辨别,并通过Attention技术让模型更关注特定元素、忽视其他干扰元素。



通过Attention技术让模型更关注特定元素


而抽象隐晦图片(如挑逗、诱惑)等,则把问题上升到了图像认知的层次,此时鉴黄师们会通过积累大量的训练数据,覆盖形形色色各类标签,通过对单张图片输出多个标签,有效提升整体的识别效果。


而相对于文本和图片等静态内容,针对直播和短视频的鉴黄面临更高深的技术挑战。除了从视频中抽帧进行有害内容识别外,鉴黄师还需要兼顾实时性、高性能和准确的音频检测,这要求风控的算法模型的响应速度特别高。


目前,腾讯安全在视频检测中利用腾讯云的资源弹性伸缩,并且使用跳帧识别的方式,1分钟的视频最快10秒钟就可完成检测,效率相比传统手段提升了300%。


而且,即使一支视频画面正常,但播放中出现了没有任何对白的“娇喘”和“呻吟”,鉴黄师们同样可以做到实时识别和阻断,但训练过程也是一项浩瀚的工程。因为对于色情音频的定义,不同的人可能会有不同的理解;而且从生物特征上,不同类别的色情音频也差异巨大(比如“呻吟”和“吮吸”)。


经过长期的听音和大量的标记训练,目前,腾讯的鉴黄师团队积累了一套长达1000小时的色情音频数据集,并为各种业务场景提供在线娇喘识别服务,娇喘识别主要包括音频分割、embedding提取、类别识别和结果融合三个模块,基于海量业务数据的优势不断提升系统的性能和速度。



色情音频识别效果


目前,腾讯安全天御内容风控团队的这套覆盖文本、图像、视频、语音的AI及大数据算法模型,已经通过腾讯云和微信小程序,服务超过5万家开发者,行业渗透率高达90%,将行业的平均内容审核效率拉升了20倍以上,大大降低了人工审核的成本,守护了数万家客户的内容安全。


但和色情产业的黑产分子斗智斗勇,将是鹅厂鉴黄师们的一场持久战。色情、血腥、暴力、诈骗……在网络中隐秘的角落里,每分每秒都在产生新的有害信息,而这群“滤芯”一直在努力把肮脏和污晦隔绝在外。


“成年人的世界里没有‘容易’二字,净化‘成人世界’更是不容易,但我们会一直坚持下去。”志鸿骄傲的说道!


推荐:

【腾讯云】文本内容安全 TMS 优惠https://www.shangyun51.com/productdetail?id=250

【腾讯云】图片内容安全 IMS 优惠https://www.shangyun51.com/productdetail?id=251

【腾讯云】音频内容安全 AMS 优惠https://www.shangyun51.com/productdetail?id=252

【腾讯云】图片审核 IA 优惠https://www.shangyun51.com/productdetail?id=253


【阿里云】内容安全(图片/视频/语音/文字) 优惠https://www.shangyun51.com/productdetail?id=201

更多【新闻资讯】相关文章

有话要说

全部评论

暂无评论
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部