直播点播窄带高清之 JND 感知编码技术

直播点播已经与日常生活息息相关,这个过程中大家最关注的是什么,是更低的播放成本?还是更高的画质?这就涉及到了窄带高清技术,对于视频窄带高清技术,智能视频编码是其中最基础也是最重要的一个部分。

作者:程玲 网易云信资深音视频引擎开发工程师

一、窄带高清技术概述

窄带高清技术实际上是一套以人眼的主观感受优异为基准的视频编码技术,代表的是一种成本与体验最合理配置、优异性价比的视频服务理念。窄带是指节省不必要的比特,高清是把比特分配到更能产生价值的地方,从而实现在同样带宽条件下收获更加清晰优质的画质。在疫情的影响下,直播从传统秀场渗透到各个领域,全民直播时代到来,对窄带高清技术的需求也越来越大。本文将首先介绍下业界一些比较成熟的窄带高清方案,再分享网易云信在窄带高清技术上的探索实践,最后再分享其关键技术点 JND 感知编码技术。

二、业界窄带高清方案简介

1.淘宝直播

淘宝直播是采用 HEVC 编码实现了 720p/25fps, 800kbps 的压缩,且 PSNR>43db/VMAF>90,其视频窄带高清技术主要应用有三个方面:

  • 音视频增强,采用基于 AI 的图像增强、美颜和语音增强来提高生产质量
  • 感知处理,采用信源信道联合自适应编码,包括 ROI 检测、根据场景分类设置不同的编码参数、智能码控等
  • S265 编码器,S265 编码器是业界名列前茅的 HEVC 编码器

2.阿里窄带高清

阿里的窄带高清方案是从人眼视觉模型出发,将编码器的优化目标从经典的“保真度较高”调整为“主观体验较好”。凭借独有算法,弱化人眼易忽视的区域,强化人眼关注的细节,修复人眼厌恶的内容,突破当代视频编码器的能力上限,在节省码率的同时,也能提供更加清晰的观看体验。

3.腾讯极速高清

腾讯极速高清是采用视频智能类(视频分成游戏、秀场、体育、户外、动漫、美食、影视剧等十几个大类几十个小类场景)、智能编码参数(不同场景配置不同优异编码参数)、前置处理 (锐化、软模糊、去块、降噪)等技术尽可能解决转码失真、低分辨率模糊、镜头抖动、噪声大、低码率锯齿块等转码中存在的问题,应用在斗鱼、企鹅电竞、CCTV、新英体育等。

三、NE264 窄带高清技术

NE264 是网易云信自研的符合 H.264 标准的视频编码器,目前已在 RTC、直播点播中应用。针对直播点播,NE264 目标是在现有架构下实现更低的带宽、更高的画质,即 NE264 窄带高清。

下面我们将简单介绍下视频编码技术和根据人眼视觉特性提出的视觉感知编码技术,在此基础上提出和实现了 NE264 窄带高清技术。

1.视频编码

视频编码都是利用数据间的冗余来进行压缩。早期视频编码依靠优化空域冗余、时域冗余、频域冗余等带来压缩效率的提升。从 MPEG-1 发展到 MPEG-2,码率节省约 50%,编码效率翻倍,复杂度增长为 5% 左右。

2003年推出的 H.264 是视频压缩协议的经典,在 H.264 推出后,传统的编码方式优化效率越来越低。从H.264(AVC) 到 H.265(HEVC),虽然编码效率提升了 40%,但其背后复杂度却增长了 5 倍,而从 H.265 到最新的 H.266 (VVC) 标准,编码效率不到 40%,但复杂度增加了 10 倍以上。

随着编码标准的演进,收益越来越小。随着技术的发展,技术突破愈发困难,因此迫切需要一种编码压缩的新思路。

2.人眼视觉系统(HVS)

随着对人眼视觉系统 (HVS)生理和心理研究的发展,我们发现,其实人脑处理视觉时有非常多的信息冗余,利用人眼视觉特性可以明显的改善视觉压缩效率,这就是人眼感知压缩的原理。

人眼视觉系统由眼球、神经系统及大脑视觉中枢三部分构成,当人眼注视视频场景时,入射光首先由瞳孔和水晶体调节、聚焦,使景物在视网膜上成像,然后由视网膜上的神经元将光信号转化为神经信号并发送到视皮层,经过视皮层以及脑部其他区域的进一步处理后形成对视频场景的感知。

近几年来,在视觉心理学、生理学的指导下,通过对人眼的某些视觉现象的观察和研究,人们发现了 HVS 的很多特性。目前在视觉感知编码中,一般应用到的 HVS 特性有视觉注意、视觉掩盖、视觉敏感、视觉统计学习机制等,HVS 的一些特性如下图:

直播点播窄带高清之 JND 感知编码技术

视觉掩盖,人眼对单一视觉信号比较容易感知,当几个视觉信号同时存在时,HVS 会对其中一个或多个信号的感知能力下降甚至消失,感知阈值发生改变,包括:

  • 亮度掩盖:人眼对较亮或者较暗区域感知更弱
  • 纹理掩盖:人眼对非均匀区域的可见性阈值为 明显高于均匀区域
  • Pattern 掩盖:人眼对规则物体的分辨力明显会高于不规则的物体
  • 运动掩盖:人眼对剧烈运动的场景分辨力会明显下降

视觉注意,即当人眼注意视频场景时,人眼会快速将注意力集中在感兴趣的视频内容或者对象上。包括两种模式:

  • 由外部激励驱动的自底向上 (Bottom-up)的处理过程。主要跟图像内容的显著性相关,与周围区域具有较大差异性的目标容易吸引观察者的视觉关注。
  • 由任务驱动的自上而下 (Top-down)的处理过程。意识支配、依赖于特定的命令,由人的“认知因素”决定, 比如知识、预期和当前的目标,如监控场景下的人体更容易引起注意。

3.视觉感知编码

视觉感知编码的目的是利用已知的 HVS 特性,最大限度消除人眼无法感知的信息,用更少的比特资源提供视觉感知质量更理想的视频图像。为此,研究人员提出了大量的视觉感知编码方法。根据编码方法所利用的 HVS 特性不同,研究和应用比较多的是基于视觉掩盖的编码方法和基于视觉注意的编码方法。

关于视觉掩盖的编码方法,人眼多通道模型的特点,一个激励的存在将导致另一个激励探测阈值的改变,致使人眼对其中一种或多种激励的感知能力下降或消失,这就为消除视觉冗余提供了可能。目前,基于视觉掩盖的编码方法主要有:基于 JND 模型的编码方法和基于 SSIM、VMAF 等主观评价机制的编码方法。其中 JND 模型的编码方法是人眼视觉编码目前广泛使用的技术,也是我们重点研究的技术。

关于视觉注意的编码方法,根据是否考虑 HVS 的中央凹特性,基于视觉注意的编码方法可以分为两类,基于感兴趣区域的编码方法和基于人眼显著性检测的编码方法。

  • 基于感兴趣区域(ROI)的编码方法的基本思想是在视频编码前,对输入的视频场景进行视觉感知分析确定感兴趣区域。在编码过程中通过调整编码参数,比如 QP,来分别控制感兴趣区域和非感兴趣区域的失真程度,进而改善感兴趣区域的编码质量。该技术提出已有多年,实际在使用时提升比较有限。
  • 基于人眼显著性检测 (Visual saliency detection)的编码方法指通过根据人的视觉特点,提取图像中的显著区域(即人类感兴趣的区域)。面对一个场景时,人类自动地对感兴趣区域进行处理而选择性地忽略不感兴趣区域,这些人们感兴趣区域被称之为显著性区域。该技术是人眼感知编码中比较常见的技术,通常和 JND 等技术配合达到更好的压缩效果,也是我们要优先研究的技术。

4.NE264 技术

目前业界窄带高清技术已相对比较成熟,结合 NE264 编码特性以及想要达成的目标,我们的窄带高清技术主要分为三大部分:

  • 视频增强前处理技术:纹理增强,提升主观体验
  • 显著性检测技术:基于人眼视觉注意特性,区分显著性和非显著性区域,用于编码,提高压缩率
  • JND 感知编码技术:基于人眼视觉掩盖特性,作用于编码,提高压缩率

具体的流程我们可以结合下图看一下:对于输入视频,我们可以通过机器学习分析视频内容特性,然后进行视频增强前处理,以提升画质,再进行显著性检测区分显著性和非显著性区域,传递给 NE264 编码器,NE264 编码计算 JND 系数,再结合显著性检测结果,作用于编码,最终输出显示。

直播点播窄带高清之 JND 感知编码技术

下图为增强前处理的对比效果图,其中左图为原图,右图为增强处理后的效果,可以发现经过视频增强处理后的图像主观得到明显提升。

直播点播窄带高清之 JND 感知编码技术

下图为显著性检测效果图,其中上面彩色图为原图,下面黑白图为显著性检测效果图,为 0-255 的值,越亮说明越是显著性区域。

直播点播窄带高清之 JND 感知编码技术

四、JND 感知编码技术

下面我们就来看看上面提到的关键技术:JND 感知编码技术。JND (Just Noticeable Distortion)为最小可觉察误差,用来度量人眼对图像中不同区域失真的敏感性,多用于基于视觉特性的图像/视频编码、数字水印、图像质量评价。目前已有多个 JND 模型被提出,主要分为两类,基于像素域的 JND 模型和基于 DCT 域的 JND 模型。

  • 基于像素域的 JND 模型能在像素域上更为直观的给出每一个像素点的 JND 阈值,不需要考虑频域特性,计算简单方便,但精度不高。
  • 基于 DCT 域的 JND 模型考虑频域特性,应用更广,通常包括三部分,亮度自适应 (Luminance Adaptation , LA)、对比度掩蔽 (Contrast Masking , CM) 以及对比度敏感函数 (Contrast Sensitivity Function , CSF)。我们主要采用的是基于 DCT 域的 JND 感知编码技术。JND 计算公式如下:
直播点播窄带高清之 JND 感知编码技术

基于 NE264 的 JND 感知编码如下:对于输入的 YUV 图像,我们首先计算亮度敏感度、纹理敏感度和对比敏感度,从而得到 JND 系数,然后作用于 DCT 域,改变原有的 DCT 系数,然后进行编码,输出码流。

直播点播窄带高清之 JND 感知编码技术

五、总结

本文主要介绍了 NE264 窄带高清技术和 JND 感知编码技术,对于直播点播应用而言,如何在保证高清画质的基础上尽可能的减少带宽始终是追求的目标,视频编码是其中至关重要的环节,不管是传统编码技术,还是结合智能编码技术,我们都将持续努力,带来更低时延、更高画质的优质视频体验。

作者介绍

程玲,网易云信资深音视频算法工程师,目前在网易云信主要从事视频编码算法研究相关的工作,对视频质量优化、码率控制算法有比较丰富的经验。

关于网易云信

网易云信:网易智企旗下融合通信云服务专家、通信与视频 PaaS 平台。集网易 24 年 IM 以及音视频技术打造的融合通信云服务专家,稳定易用的通信与视频 PaaS 平台。提供融合通信与视频的核心能力与组件,包含 IM 即时通讯、5G 消息平台、一键登录、信令、短信与号码隐私保护等通信服务,音视频通话、直播、点播、互动直播与互动白板等音视频服务,视频会议等组件服务,并联合网易易盾推出一站式安全通信方案「安全通」。目前,网易云信已经成功发送 1.6 万亿条消息,覆盖智能终端 SDK 数累计超过 186 亿,我们期待每个智能终端都有云信的融合通信能力。

文章标题:直播点播窄带高清之 JND 感知编码技术,发布者:网易智企,转载请注明出处:https://worktile.com/kb/p/5875

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
网易智企的头像网易智企认证作者
上一篇 2022年3月16日 下午11:17
下一篇 2022年3月16日 下午11:28

相关推荐

  • Scrum回顾会议中应讨论哪些关键点

    在Scrum回顾会议中,关键点包括1、团队成就和进步、2、挑战和障碍、3、未来改进的机会、4、战略和流程调整。Scrum回顾会议是迭代结束时的一个机会,团队集中讨论这一迭代过程中的学习和成长。团队成就和进步涉及已完成任务和实现的目标;挑战和障碍涵盖面对的困难和影响效率的问题;探讨未来改进的机会旨在提…

    2023年12月11日
    22700
  • 海运oa是什么意思

    海运OA指海上运输开放账期(Ocean Freight Open Account),表明收货方可在货物递送后的约定时间内付款。1、减轻买方资金压力;2、灵活付款提高竞争力;3、信任增进商业关系。在验货和文件审核流程中,海运OA为卖方提供一种风险管理手段,确保在交货后的特定期限内获得付款,同时为买方带…

    2024年1月17日
    34200
  • 研发文档系统的作用是什么

    研发文档系统的作用是:1、让企业可以更好的管理资料;2、可以有效降低成本;3、可以提高工作效率;4、提升工作效率;5、更好地保障员工权益和利益。企业在建立文档系统时,都是需要对文档进行修改、复制、保存、同步到移动端工作软件中,使用起来也很方便,并且实现了智能管理的效果。 研发文档系统的作用是什么 在…

    2022年11月14日
    49300
  • 什么是 Ezula

    Ezula(有时写作 eZula)是作为一部分浏览器帮助程序对象 (BHO) 安装的一种广告软件。无需用户许可,ezula 便可与远程服务器通信并向个人显示基于上下文的广告。Ezula 不含有危险病毒,但会降低用户浏览器的响应速度,须经用户手动安装。 什么是 Ezula Ezula(有时写作 eZu…

    2022年11月3日
    31400
  • 项目管理软件jira在如何改进

    需要改进的方面有:一、用户体验;二、敏捷开发;三、数据可视化;四、集成和扩展;五、性能和稳定性。JIRA在操作界面上需要改进的地方有很多。JIRA的界面太过繁琐,新手很难找到需要的功能,操作起来相对困难。JIRA的界面看起来不够美观,缺乏视觉上的吸引力。 一、用户体验 JIRA在操作界面上需要改进的…

    2023年3月21日
    33100
  • MySQL主从复制解决了什么问题

    解决了以下问题:一、提高数据的可用性;二、提高数据的可靠性;三、支持读写分离;四、提高系统的性能和可扩展性;五、提高数据的安全性。MySQL主从复制可以提高数据的可用性,因为它可以在主数据库发生故障时,自动将从数据库切换为主数据库。 一、提高数据的可用性 MySQL主从复制可以提高数据的可用性,因为…

    2023年5月31日
    30800
  • oa系统怎么登

    OA系统的登录通常包含以下步骤:1、访问系统网址,2、输入用户名和密码,3、验证登录信息,4、成功登录后使用系统功能。 OA系统即办公自动化系统,旨在提高工作效率和信息流通速度。其中第2步——输入用户名和密码,是整个流程中核心的一环,确保用户身份的准确与系统安全的关键。 — 一、访问系统…

    2024年1月11日
    34600
  • oa办公室自动化

    标题:OA办公室自动化系统的重要性和实施策略 摘要:在数字化时代,办公室自动化(OA)系统成为提高工作效率、促进信息流通、加强企业内部管理的关键。1、办公效能显著提升;2、信息共享与沟通渠道拓宽;3、管理流程优化。以上三点体现了OA系统的必要性。其中,办公效能显著提升涉及减少手工操作,通过电子文档流…

    2024年1月11日
    13200
  • Android的UI框架为什么是单线程的

    原因有:一、UI线程;二、线程安全;三、性能优化;四、异步操作。UI线程是Android操作系统中的一个重要组成部分。它负责处理所有与用户界面相关的操作,如触摸事件、绘图、布局和动画等。 一、UI线程 UI线程是Android操作系统中的一个重要组成部分。它负责处理所有与用户界面相关的操作,如触摸事…

    2023年5月28日
    31000
  • Atlassian和Slack有什么区别

    Atlassian和Slack的区别有:1、公司背景和产品定位;2、产品功能;3、使用场景;4、定价和许可模式。Atlassian的产品主要面向开发团队和技术人员,帮助他们更好地协作、追踪项目进度和解决问题。Slack的定位更广泛,不仅面向技术团队,也适用于任何需要高效沟通和协作的团队或组织。 一、…

    2023年7月30日
    43300

发表回复

登录后才能评论
站长微信
站长微信
电话联系

400-800-1024

工作日9:30-21:00在线

分享本页
返回顶部