新加坡联合早报中文网即时报道亚洲和国际的评论、商业、体育、生活、科技与多媒体新闻,从世界各个维度报道世界经济新闻,时政新闻,突发新闻等。

当前位置:主页 > 新闻 > 干货:细数视频交友SDK的开放策略

干货:细数视频交友SDK的开放策略

来源:联合早报中文网作者:邵湖心更新时间:2020-09-04 18:40:08阅读:

本篇文章3248字,读完约8分钟

雷锋。(公开号码:雷锋。com)出版社:本文作者是香港大学工商管理硕士、即时通信技术市场运营总监、有十年研发经验的音视频云服务技术专家牛贤,主要从事联迈互动直播技术的应用研究。

视频社交行业的许多开发人员提到,某个制造商的视频约会sdk在测试时性能良好,但在访问期间和之后会遇到各种坑:

1)采集和渲染不能自己定制。

2)无法获得原始语音和视频数据,需要进行保存、预处理和编码等定制操作。

因此,视频约会软件开发工具包的发展战略也应予以考虑。

数据流

视频约会软件选择在数据流的每个环节打开界面。语音和视频的实时通信实质上是语音和视频数据的实时流动,数据流通的重要环节如下:

上图显示了语音和视频数据从推流端流向拉流端的所有环节:采集(包括语音3a预处理)、预处理、编码、推流、拉流、解码和渲染。

视频约会sdk上面是开发者负责的业务层,这七个链接都是在视频约会sdk下面实现的。这七个链接都被视频约会sdk封装了。完全封装的优势在于,一方面,开发人员可以专注于业务层的逻辑,另一方面,业务层和sdk可以完全分离。缺点是开发者在一定程度上失去了对底层语音和视频数据的控制。

干货:细数视频交友SDK的开放策略

一些视频社交软件开发工具包供应商向开发人员开放一些界面,而其他供应商根本不开放任何界面。每个视频社交软件开发商都有不同的开放策略。通过使用视频社交软件sdk的开放接口,可以获得多少对底层语音和视频数据的控制?

干货:细数视频交友SDK的开放策略

今天,让我们来讨论视频约会sdk的开放策略。

募捐

采集终端是语音和视频数据的来源,包括但不限于硬件设备(麦克风和摄像机)、屏幕共享、语音和视频文件播放以及现场游戏画面。

如果采集终端是硬件设备,视频社交软件sdk可以驱动麦克风和摄像头获取语音和视频数据。如果采集终端不是硬件设备,开发者应该使用外部采集让sdk获取语音和视频数据。

一般来说,有三种场景需要外部采集:

1)普通硬件设备无法满足业务需求,开发商采用专用硬件设备实现了大量业务。

2)开发人员需要使用摄像头来完成附加功能,这与视频社交软件sdk的默认逻辑相冲突,导致摄像头无法正常工作。例如,在视频通话期间,业务层要求中断通话,并使用摄像机录制短视频。

3)语音和视频数据不是来自摄像机和麦克风,而是来自虚拟设备、语音和视频文件或现有的语音和视频流。例如,语音和视频文件播放、屏幕共享和现场游戏等。

在需要外部采集的场景中,应该通过打开采集链接的界面来支持视频社交sdk。否则,开发人员只能直接从硬件设备(如摄像头和麦克风)获取语音和视频数据,业务发展将面临巨大限制。

视频社交sdk打开了收集链接的界面,允许开发者从外部进行收集,开发者的自由和控制一下子变得宽了空.

然而,凡事都有两面性:语音3a预处理是在采集过程中完成的。因此,如果进行外部采集,开发者应该自己实现语音3a预处理。语音3a预处理包括回声消除(aec)、噪声抑制(ans)和自动增益控制(agc),是视频社交行业公认的技术问题。

预处理

预处理是指在编码之前对语音和视频原始数据的处理,包括语音3a和其他特殊效果。除了将在该过程中完成的语音和视频的其他预处理之外,语音3a在获取过程中完成。

语音预处理是语音编码前的特殊效果处理,包括混响和语音变化。混响可以使声音听起来像来自荒野,改变声音可以改变人们的声音,从男孩到女孩,或产生电子音效,从而提高语音通话的兴趣。

视频预处理是视频编码前的特殊效果处理,包括美感、崇拜、悬挂和过滤效果,可以使图片看起来有趣,增加视频社交的乐趣。

如果视频社交sdk打开预处理接口,开发者可以自己实现语音和视频的预处理模块,或者与第三方语音和视频预处理sdk接口。否则,对于开发者来说,视频社交sdk下的语音和视频处理就是一个黑匣子,业务层无法控制它。

根据笔者从即时建筑技术公司获得的数据,美容和孟雁有着广泛的市场需求,这两个模块是视频社交sdk的标准。此外,市场上还有一些高质量的第三方美容sdk,视频社交sdk应该开放预处理界面,让开发者可以自由选择是采用视频SDK内置的美容功能,还是自己实现,或者与第三方厂商的美容SDK接口。只有这样,开发者才能真正拥有自由和控制权来进行积极的业务创新。

干货:细数视频交友SDK的开放策略

编码

开发人员在编码方面没有多少空间:开发人员不会自己开发或修改编解码器。然而,由于以下两个原因,一些有经验的开发团队仍然需要自己编写代码:

1)开发人员在调整编码器参数以适应各种安卓模式方面非常有经验和自信,并决定自己编码。开发人员可以自行灵活配置编码器参数,以便更好地适应各种安卓模式。

2)开发人员已经实现了很多调用编码器的逻辑,并且相信自编码更好。为了保护现有的投资,开发人员倾向于自己编写代码。

有必要特别注意这样一个事实,即开发人员有他们自己的编码实践:优势是开发人员获得了更大的控制和自由;缺点是视频社交sdk不能为开发者提供速率适配功能。

如果我们想了解其背后的原因,让我们首先了解解码速率自适应的原理:视频社交sdk实时监控网络状况,利用算法预测网络状况的变化,然后根据预测结果动态调整编码器的参数,并编译适合网络状况的码流。编码码流的码率、分辨率、帧速率等参数可以保证当前网络条件下实时通信的良好qos。

干货:细数视频交友SDK的开放策略

如果视频约会sdk负责编码,那么它可以实现码率自适应功能。如果开发人员负责编码,视频约会软件不能控制编码器编译适应网络条件变化的码流,因此不能适应码率。

网络传输

网络传输是实时通信的核心。实时传输架构通过fec、arq、流控制码控制和抖动缓冲等关键算法实现,从而实现超低延迟。

据笔者了解,目前还没有厂家完全开通网络传输链路。构建技术的方式是支持开发者自己推至构建服务器,但是在拉流时必须使用构建视频社交sdk。这不仅可以使sdk保持开放并与开发人员的原始系统兼容,还可以保证流端的低延迟体验。

干货:细数视频交友SDK的开放策略

这种方法背后的逻辑很容易理解:视频约会sdk的核心价值是实时和超低延迟。因为制造商在实现超低延迟方面有专长,所以开发人员只使用他们的视频约会软件sdk。如果制造商向开发者开放这个核心链接,制造商将失去其核心价值。

干货:细数视频交友SDK的开放策略

解码

解码链接对应于编码链接,并且解码接收到的语音视频流,然后呈现它。开发者没有发挥解码能力的空间。开发人员通常不需要自己解码,制造商通常没有开放的解码接口。

提出

渲染意味着播放语音数据和显示视频图片。开发人员对播放声音数据没有任何额外的定制要求,但是有许多定制的游戏可以显示视频图片。例如,在同一视图中渲染多个视频流,在画中画和大画面之间切换,在水平屏幕的左右画面之间切换,等等。

干货:细数视频交友SDK的开放策略

如果开发者想要实现一些很酷的游戏,他们需要定制他们自己的渲染。如果视频约会sdk打开渲染界面,那么开发者可以定制渲染。否则,您只能接受视频sdk的渲染功能。开发者定制渲染也有一个前提:语音和视频流不混合,流端获得多个分离的语音和视频流。如果语音和视频流被混合成一个流,开发者只能处理一张图片,而创新的游戏性就少得多了。

干货:细数视频交友SDK的开放策略

分享作者从即时技术获得的客户统计数据。在实时语音和视频的七个环节中,开放了采集、预处理、编码和渲染四个环节。据客户统计,主要有四组选择,大多数客户选择第一组。

如果视频约会sdk完全封装了这七个链接,开发者将会失去控制,尽管他们不必为此担心。因此,开发商应该在选择阶段进行仔细的分析。开发者可以从制造商的开放策略中判断,sdk是否给了开发者足够的控制权来进行商业创新?开发人员是否可以自由替换其他制造商的SDK或开发自己的产品?

干货:细数视频交友SDK的开放策略

开发人员将语音和视频的实时通信能力委托给制造商,这自然是经过一些衡量和权衡后的决定。如果时间、成本和技术积累允许,我相信大多数开发者都想开发自己的产品。

因此,厂商应该从开发商的角度出发,满足开发商的需求,同时打消开发商的顾虑,充分开放语音和视频实时交流各个环节的定制界面。只有这样,开发者才能真正不辜负他们的期望。

雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。

标题:干货:细数视频交友SDK的开放策略

地址:http://www.6st8.com/zbxw/5822.html

免责声明:联合早报中文网从世界各个维度报道世界经济新闻,时政新闻,突发新闻等,本篇的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2018@163.com,联合早报中文网的小编将予以删除。

返回顶部