功能架构
VideoWorks作为百度智能云的音视频统一入口,提供了音视频上传与存储、处理与管理、分发加速、播放等端到端、覆盖音视频全生命周期的PaaS服务。 整体功能架构图如下所示,其中深灰色部分正在建设中,敬请期待
功能说明
媒资上传
VideoWorks的文件上传依赖于BOS,借助BOS的强大文件上传能力,为您提供了丰富的文件上传方式。
我们提供了多种音视频文件上传方式,包括:console、API、SDK(Java、Python、PHP、C#、Android等)。根据上传数据的大小,我们提供了两种方式:单文件上传(可上传最大5GB的单文件数据)、分块上传(可上传最大5TB的单文件数据),其中分块上传具备如下优势:
- 提高吞吐量:用户可以并行上传分块以提高吞吐量。
- 从网络问题中快速恢复:分块上传支持断点续传,可以将由网络错误而导致的上传产生的影响减至最低。
- 不需要确认Object的大小:在分块上传的场景下,用户可以不用关心Object的大小以及大小可能带来的上传失败场景。
-
支持流式上传文件。
备注:详情请见BOS-上传object。
此外,我们还提供了bce-bos-uploader工具帮助您实现客户端直传BOS。bce-bos-uploader是百度智能云基于Javascript SDK开发的一个ui组件,为了方便用户开发web直传应用而专门提供的,使用该工具用很少的几行代码就可以完成跟BOS服务的对接,详情请见BOS-Web端直传实践。
视频存储
百度对象存储BOS(Baidu Object Storage)提供稳定、安全、高效以及高扩展存储服务,支持单文件最大5TB的文本、多媒体、二进制等任何类型的数据存储。数据多地域跨集群的存储,以实现资源统一利用,降低使用难度,提高工作效率。"存储+计算框架"让您的数据加上“动力”引擎,让数据在传输、存储、处理和发布4个环节有机融为一体。
不同类型数据的使用方式、访问频率均有不同,同时数据也存在老化曲线。随着数据逐渐老化,其访问频率逐步降低,进入归档状态。分级存储是一种方法论,即将不同类别数据存放到不同存储类型,以降低总存储成本,同时满足服务要求。BOS针对不同存储场景,提供了标准存储、低频存储和冷存储三种存储类型。
详情请见对象存储BOS。
视频转码
音视频转码MCT(Multimedia Cloud Transcoder)针对海量媒资提供了高效、智能、稳定的媒体处理服务,包括:音视频转码、截图抽帧、视频加密、叠加水印、黑边裁剪、去logo、音频/视频抽取等能力。其中,智感超清系列结合了多种视觉AI与编码技术,通过AI模型深度学习,根据内容场景及复杂度,智能调节编码参数,并优化主观视觉体验,以更小的码率获得了更好的编码质量,包括:智感超清1.0、智感超清2.0(主观增强、老片修复)、超分辨率等。
MCT支持的转码格式如下:
类别 | 说明 |
---|---|
输入格式 |
· 封装格式:MP4、FLV、MOV、M3U8、3GP、AVI、MPG、ASF、WMV、MKV、TS、WebM、MXF; · 视频编码格式:H.264/AVC、H.265/HEVC、MPEG-1、MPEG-2、MPEG-4、MJPEG、VP8、VP9、Quicktime、RealVideo、Windows Media Video; · 音频编码格式:AAC、AC-3、ADPCM、AMR、DSD、MP1、MP2、MP3、PCM、RealAudio、Windows Media Audio; |
输出格式 |
· 视频封装格式:FLV、MP4、HLS(m3u8+ts)、MPEG-DASH(MPD+fMP4); · 音频封装格式:MP3、MP4、OGG、FLAC、m4a; · 图片封装格式:JPG、PNG、GIF、WEBP; · 视频编码格式:H.264/AVC、 H.265/HEVC; · 音频编码格式:MP3、AAC、VORBIS、FLAC; |
详情请见音视频转码MCT。
视频抽帧
MCT提供了多种截图方式,满足不同的应用场景需求,同时还支持设置图片宽高、图片伸缩策略、图片格式等参数,并支持进行图片黑边剪裁和图片去水印。具体如下:
功能 | 说明 |
---|---|
指定截图 |
· manual:按指定的起止时间和间隔时间截取缩略图; · split:按指定的起止时间和张数截取缩略图; · splitss0:在split模式的基础上保证截取首帧; |
智能截图 |
· auto:自动截取熵值较高的一帧; · shot:根据场景切换自动截取转场画面帧; · idl:使用百度IDL(Institute of Deep Learning)智能缩略图算法截取一帧缩略图; · highlight:根据AI模型,自动生成一个0.5s精彩片段,可设置截取时长; |
雪碧图 | 可指定雪碧图的行、列、外框宽度、子图间隔; |
图片格式 |
· 静态图片格式:jpg、png; · 动态图片:gif、webp、mp4; · 动态图片支持设置帧率和播放倍速; |
图片宽高 | 宽/高范围[10,2000],宽默认600,高默认450,若视频实际分辨率低于目标分辨率则按照实际分辨率输出; |
伸缩策略 |
· keep表示保持原始视频宽高比; · shrinkToFit表示保持原始视频宽高比并加黑边; · stretch表示拉伸原始视频; |
去水印 | 可指定去水印的模糊区域(x、y、width、height); |
黑边剪裁 | 可指定去黑边后的有效画面区域(x、y、width、height),支持自动黑边区域检测; |
视频审核
VideoWorks集成了媒体内容审核VCR产品,VCR基于百度自研的视觉分析、人脸识别、OCR、语音识别(ASR)、自然语义理解等业内前沿人工智能技术,利用百度多年沉淀的海量媒体数据,结合机器深度学习能力,提供对视频、语音、图片、文本的内容风险进行全维度的智能审核服务。我们拥有世界领先的 AI 尖端技术,在单项审核上具备高召回高准确的审核能力:
- 在涉黄审核方面:行业领先自研图像涉黄审核,准召率达85%以上,针对特殊垂类,如健身、艺术品等正常较裸露场景,保持更高精度;自研音频涉黄审核,识别视频音频中的涉黄片段;避免产品涉黄风险。
- 在暴恐审核方面:精准识别图像中是否包含杀人流血场景、暴恐袭击场景、恐怖分子头目照片、恐怖组织的旗帜、暴力行为等内容,准确率可达94%以上;避免产品涉及暴恐风险。
- 在涉政审核方面:精准识别图像中的政治人物,最小识别人脸80px*80px,保持高准召;利用文字和音频审核,规避财经类股评里提及政治敏感问题。
- 在广告审核方面:精确识别各类形式广告,通用LOGO库数量超2万,基于庞大品牌库的基础上,规避恶意\非法广告投放。
- 在违禁审核方面:准确识别各类违禁品,如器官变卖、毒品等,避免产品涉及违禁品风险。
详情请见媒体内容审核VCR
工作流
VideoWoks提供了灵活的工作流能力,用户可以通过控制台可视化的进行工作流的配置。媒资上传完成后指定某个工作流,即可按照工作流设定的执行节点处理直至结束,大大降低了不同任务多次调用的复杂性,可更加灵活的应对不同业务的处理流程需求。工作流支持串行/并行设置,当前支持的处理节点类型包括:
- 输入:必选项;
- 转码:可设置不同转码模版节点,转码出不同清晰度的视频,用于多码率播放;
- 缩略图:支持7种截图模式的设置;
- 黑边检测:支持对视频进行自动黑边区域检测,后续节点一般设置为转码,可进行自动黑边裁剪;
- 元信息提取:支持自动提取分辨率、码率、大小、格式等多项媒体元信息;
- 源文件发布:支持源文件不经过转码/审核等任何处理,直接发布播放;
- 智能审核:配置审核模版后,自动对视频内容进行审核,并返回审核结果;
- 发布:必选项,可设置整体工作流处理完成的消息通知,当配置了智能审核节点,可在发布节点设置自动封禁。
视频分发
内容分发网络CDN(Content Delivery Network)将源站内容分发至遍布全国的加速节点,缩短用户查看内容的延迟,提高用户访问网站的响应速度与网站的可用性,解决网络带宽小、用户访问量大、网点分布不均等问题。百度智能云CDN线路接入电信、联通、移动、广电、铁通、鹏博士、华数、BGP等网络,节点覆盖全国30多个省市,为用户提供可靠的服务。
- 图片鉴黄:CDN图片鉴黄是百度基于云计算平台,通过对海量数据进行快速扫描,来检测出通过CDN加速的图片是否涉黄,能够帮助用户节省90%以上的人力审核成本。
- 访问安全:支持设置refer/IP黑白名单、URL高级鉴权、设置IP访问限频、配置单请求响应限速、多用户访问权限控制、跨域访问等。
详情请见内容分发网络CDN。
视频播放
百度智能云提供Web、Android及iOS平台的播放器SDK,为开发者提供简单、便捷的开发接口,帮助开发者在各类终端设备上实现媒体播放功能。
- 支持目前所有主流的媒体格式播放(mp4、avi、wmv、flv、mkv、mov、rmvb等),以及支持多种格式文件渐进式和流式播放(HLS、RTMP、HTTP Pseudo-Streaming等)。
- 性能强大、功能丰富:CPU/内存占用率低,视频加载速度快、卡顿率低。支持预取、边播边存、多码率无缝切换、拖动实时显示缩略图等高级功能。
- 低门槛、高灵活度实现播放功能:提供了与系统播放器MPMoviePlayerController高度相似的调用接口,便于开发者快速开发媒体播放应用,同时提供开发示例。
- 版权保护:与MCT视频加密相结合,支持HLS加密视频的离线下载和解密播放。
详情请见播放器SDK文档。