当前位置：首页 > 搭建教程 > 正文内容

打造自己的会议系统

im源码2年前 (2024-10-28)搭建教程908

一.语音通话

1.基础模型

在视频会议中，网络语音通话通常多对多的的，但就模型层面来说，我们讨论一个方向的通道就可以了。一方说话，另一方则听到声音。看似简单而迅捷，但是其背后的流程却是相当复杂的。我们将其经过的各个主要环节简化成下图所示的概念模型：

这是一个最基础的模型，由五个重要的环节构成：采集、编码、传送、解码、播放。

语音采集指的是从麦克风采集音频数据，即声音样本转换成数字信号。其涉及到几个重要的参数：采样频率、采样位数、声道数。

假设我们将采集到的音频帧不经过编码，而直接发送，那么我们可以计算其所需要的带宽要求，仍以上例：320*100 =32KBytes/s，如果换算为bits/s，则为256kb/s。这是个很大的带宽占用。而通过网络流量监控工具，我们可以发现采用类似QQ等IM软件进行语音通话时，流量为3-5KB/s，这比原始流量小了一个数量级。而这主要得益于音频编码技术。所以，在实际的语音通话应用中，编码这个环节是不可缺少的。目前有很多常用的语音编码技术，像G.729、iLBC、AAC、SPEEX等等。

当一个音频帧完成编码后，即可通过网络发送给通话的对方。对于语音对话这样Realtime应用，低延迟和平稳是非常重要的，这就要求我们的网络传送非常顺畅。

当对方接收到编码帧后，会对其进行解码，以恢复成为可供声卡直接播放的数据。

完成解码后，即可将得到的音频帧提交给声卡进行播放。

二.视频通话

1.基础模型

　　视频通话的概念模型与语音完全一致：

摄像头采集指的是从捕捉摄像头采集到的每一帧视频图像。在windows系统上，通常使用VFW技术或DirectShow技术来实现。采集视频的两个关键参数是帧频（fps）和分辨率。

一般而言，一个摄像头可以支持多种不同的采集分辨率和采集帧频，而不同的摄像头支持的分辨率的集合不一样。比如现在有很多高清摄像头可以支持30fps的1920*1080的图像采集。

编码用于压缩视频图像，同时也决定了图像的清晰度。视频编码常用的技术是H.263、H.264、MPEG-4、XVID等。

当对方接收到编码的视频帧后，会对其进行解码，以恢复成一帧图像，然后在UI的界面上绘制出来。

三.屏幕共享

注意：语音视频数据都是实时采集、实时播放的数据，所以测试时，服务器的带宽要求最好是独享带宽，共享带宽一般无法满足实时语音视频的要求