如何利用图像识别、语音识别、文本挖掘做好鉴黄

2017-01-12 13:10:00 作者:佚名 分类 : 人工智能

  更全面的定制服务体现在哪些地方?特地采访了极限元 CEO 雷臻,雷臻从图像识别、语音识别、文本挖掘三个维度讲解 AI 鉴黄,同时对一些工程细节进行阐述。

  直播鉴黄一般从哪些方面进行鉴定?

  通常情况下,直播鉴黄通过视频截图、图像识别、语音技审、弹幕监控、关键字抽取等能力智能识别色情内容。在向客户正式提供图像识别服务前,会先邀请直播平台用户进行体验测试,收集一些直播平台专属特征数据,比如不同的直播背景、环境光线强度、话题内容等,进行定制化的训练模型,不同的直播平台将获得定制化的专属图像识别服务。

  其中视频直播内容的审查鉴定可以从以下几个步骤:识别图像中是否存在人物体征,统计人数;识别图像中人物的性别、年龄区间;识别人物的肤色、肢体器官暴露程度;识别人物的肢体轮廓,分析动作行为;除了图像识别之外,还可以从音频信息中提取关键特征,判断是否存在敏感信息;实时分析弹幕文本内容,判断当前视频是否存在违规行为,动态调节图像采集频率。

  在图像识别方面,其中每分钟视频采集关键帧的频率可以由客户设定,从1秒到几十秒均可。例如可以默认5秒采集一次关键帧用于识别,也可以在出现疑似告警时动态调节采集频率,加快至每秒一张。

  您刚提到音频关键特征提取,这个可以深入讲讲吗?

  音频分析主要有以下几个方面:

   通过声纹识别技术,判断当前直播间的主播是否为注册主播本人,对主播身份进行识别。

   对主播的语音内容进行关键词检索,是否存在禁语、敏感词。

   对特定的连续语音数据段进行识别,是否存在不良信息。

   对口播广告的播出频次进行统计,分析广告投放效果。

  不过视频、音频双通道检测的方案由用户来决策,秀场直播通常用图像检测就可以满足绝大部分需求,音频检测可能更适用于语音内容为主的直播平台。两者结合起来会大大提高识别准确率、降低误报率,但成本也会相应提高,所以用户可以根据业务需求进行选择。

  目前的准确率、误报率、召回率大概是多少?是否会进行人工复审?

  目前直播平台涉黄图像检测的准确率高达99%以上,误报率低于1%,需要客户进行人工复核的比例不超过3%。通常情况下不提供人工复审的服务,但是会对疑似的图像进行标注并提醒用户进行人工复核。人工复核后的数据会被收集起来进行迭代训练,这样可以不断提升识别的准确率。

  直播的实时性、对于机器的图片识别处理速度要求特别高,对于机器的计算能力会不会特别高?采用什么样的方式进行处理?

  网络视频直播实时性强,对服务端图像识别处理的速度要求特别高,除了对带宽有较高的要求外,还需要识别服务器拥有强大的GPU运算能力,尤其是应用深度机器学习算法进行模型训练阶段,强大的GPU集群服务器是不可或缺的,并基于全链接层的特性去除了对训练图像大小的限制,快速提升算法处理速度。此外在采集视频图片时也可以采用动态调节采集频率的办法,通常情况下几秒一帧,出现敏感信息后加快采集频率,可以更及时的识别涉黄信息并提出告警。

  模型训练所需的数据的量有多大?一般什么原因会影晌鉴定准确率?

  以极限元为例,基础数据集有几千万张图片,此外每天还会追加两万张各类正、负样本图片,用于迭代训练,不断微调优化识别准确率。每周会进行一次基础模型训练,每1-2天会进行一次增量模型迭代训练。

  至于鉴定准确率影响层面,主要还是数据量的匮乏,样本对应用场景的覆盖不全面导致训练出的模型存在误报、漏报或者识别错误,随着深度机器学习算法的日趋成熟,数据来源的多样性、专业性反而成为模型构造的重中之重。

  此外,主播刻意进行一些干扰检测的手段,比如遮挡敏感部位、画中画等等,也会一定程度上影响到机器的识别判断。

  机器能不能自动处理:屏蔽、删除、禁播等?

  涉黄图片检测服务部署在云端,本身没有网络路径可以接触到用户的直播间管理系统,因此无法自动屏蔽、删除、暂停直播间的活动。但是如果用户选择私有云的部署方式,并授权识别服务器可以访问直播间管理系统,那么对涉黄直播间的删、停等操作是可以实现的。

  智能鉴黄相对于人工鉴黄、成本下降多少?

  以一家月直播10万小时的中小直播平台为例,如果采用传统的内容审核技术,100人的内容管理团队每月所花费的成本在80万上下。如果借助人工智能进行内容监控,人力投入可以削减到10人左右,综合投入不过10万到20万之间,将大大降低人力成本和管理费用。此外还有因此而节省的监视设备费、办公场地费等等。

  色情和非色情的界限怎么把握、拿捏?

  首先,在建立这样一个分类模型时,会有人工对图像大数据进行标注,存在一定主观判断误差,但也在大众理解的范围内。识别结果除了色情和正常外,还存在一个疑似或者称之为性感的类别,这些都是根据机器识别后的近似值进行匹配。

最近更新
科普

科普图集
带着朋友和机器人上月亮散步

带着朋友和机器人上月亮散步>>详情

比食人鱼更恐怖:长着人类牙齿的鱼

比食人鱼更恐怖:长着人类牙齿的鱼>>详情

邮件订阅

软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
网络周刊
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
存储周刊
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
安全周刊
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家网
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。