
1.4 多媒体系统的基本类型及相关业务
多媒体计算机是多媒体技术的最直接、最简单的表现形式。因其本身具有存储、运算、处理和显示的能力,具有独立的功能,如动画显示、视频播放等,因此,多媒体计算机一出现便立即在家庭、教育和娱乐方面得到广泛的应用。但是,多媒体技术真正的意义在于与网络的结合,在于通过网络(局域网和广域网)为用户以多媒体的方式提供信息服务。
基本的多媒体系统除了以多媒体计算机为基础的独立(Stand-Alone)商亭式系统之外,通过网络提供业务的系统可以分为两大类:一类是人与人之间交互的系统,如多媒体会议与协同工作、多媒体即时通信等;另一类是人机交互的系统,如多媒体信息检索与查询、点播电视等,本节中将分别对这些系统及其技术特点进行介绍,而其中所涉及的关键技术将在以后的章节中加以讨论。
1.4.1 独立商亭式系统
凡是以一台多媒体计算机为核心的应用系统,例如商场的导购系统、展览馆的导游系统等,我们都称为独立商亭式系统。在这类系统中,除了各种媒体的采集、表示、压缩存储和解压缩播放之外,如何组织素材,并运用多媒体手段将信息有效地、具有感染力(或艺术性)和方便地提供给用户是制作应用软件时应考虑的重要问题。这里涉及的不仅有技术、有艺术,甚至还有社会、心理学等方面的问题。多媒体制作软件(如Authoring Tool、Authorware等),或者原有操作系统的多媒体扩展(如Video for Windows),是为制作应用软件而提供开发环境的软件。它不仅向应用程序的开发者提供多媒体输入/输出设备的接口,更重要的是,还提供建立媒体数据之间的空间布局和播放时间顺序等关系的手段。因此,开发优秀的制作软件本身远比开发应用软件困难。
在这类系统中,操作系统的实时性是值得重视的另一个问题。在嵌入式系统或工业控制机中常常涉及实时操作系统,在那里强调的是对事件中断的实时响应。而在多媒体系统中,由于视频和音频数据需要在一定时间约束条件下(如每秒25幅图像)连续不断地送到输出设备上供用户聆听和观看,因此这里操作系统的实时性强调的是,处理这些有时间要求的连续媒体流的能力。
提供更友好的人—机接口是商亭式系统技术发展的一个方向。除了使用键盘和鼠标,触摸式输入也很普遍,人们还试图通过声音、手势,甚至表情等多种模态的接口对系统进行控制,从而构成更人性化的多媒体交互环境。
除了独立商亭式系统外,下面将要介绍的4类系统都是在多媒体终端与终端之间、终端与应用服务器之间有网络相连接的多媒体通信系统。
1.4.2 多媒体信息检索与查询
通过因特网进行信息查询已是当前十分普及的应用。多媒体信息检索与查询MIS(Multimedia Information Service)系统除可以根据关键字等对文本资料进行查询之外,也同时具有对活动图像和声音的查询能力。从通信方式而言,MIS是点对点(信息中心对一个用户),或一点对多点(信息中心对多个用户)的双向非对称系统。从用户到信息源只传送查询命令,要求的传输带宽较小,而从信息源传送到用户的信息则是大量的、宽带的[见图1-1(b)]。
MIS所涉及的两个重要技术问题是:①如何向用户提供丰富的信息和如何让用户快速、有效地查询与浏览这些信息;②如何合理、有效地组织多媒体数据的存储和检索。

图1-2 超文本文件结构
为了对第一个问题有所认识,首先让我们回顾一下人人都熟悉的读书过程。对于阅读一本小说来说,人们通常是从头至尾逐页阅读的,或者说是按顺序阅读的。但在有些情况下,特别是在技术或社会科学领域,在阅读某本书的过程中,经常需要从另一本书或论文查找某个论点,或者说,在几本书之间需要交叉参考的情况常常发生。图1-2表示出用电子的方法来实现交叉参考的情况,这实际上已经是大家在因特网的查询中十分熟悉的过程:用鼠标点击黑框所标的地方,就会显示出箭头所示的有关参考信息,看完该信息后可以回到原来的页面,或者再进入其他页面……箭头指向的页面(信息单元)可能与原来的页面在同一个文件中,也可能在其他文件里。这种信息的非顺序(或称为非线性)的组织结构称为超文本(Hyper text),超文本中信息单元之间的链接称为超链(Hyper Link)。当上述信息组织方式不仅用于文本,还包括其他媒体数据、特别是音频和视频数据时则称为超媒体(Hypermedia)。超文本和超媒体这两个词在很多文献中也常常被混用。
超媒体为用户提供了一种在文件内部和文件之间迅速查找和浏览多媒体信息的方法,但是人们希望在更大的范围内迅速、有效地获取信息,这就不能不提到近年来推动因特网突飞猛进发展的WWW技术。WWW(World-Wide Web)最初是1989年在日内瓦CERN启动的一个研究项目的名称,由于它的巨大成功,现在WWW已经意味着在超媒体原理下发展起来的一系列概念和通信协议。Web这个词也代表了世界范围内由因特网相互连接起来的众多的信息服务器所构成的巨大的数字化的信息空间,也有的学者将之称为超空间(Hyperspace)。
WWW的基本思想和它所解决的问题主要体现在如下几个方面:
(1)在超空间中没有一个统一的管理者。任何人都可以创建超文本文件、将其与其他文件链接,并放入超空间中去。标准的超文本文件采用HTML(Hyper text Markup Language)格式。
(2)定义了一种在超空间中寻找所需要的文件的机制,称为统一资源定位器URL(Universal Resource Locator)。通过URL可以知道每个文件处于哪一台机器,叫什么名字,以及以何种机制可以将该文件传输到需要链接它的地方去。
(3)具有一个统一的、简单的用户界面,无论查询到的信息来自本机,还是来自远方的服务器,用户从界面上看起来都是一样的。实现WWW用户端功能的软件称为浏览器(Browser)。通过浏览器不仅能够调取HTML格式的文件,还可以调取以任何形式存储在已有的数据库、或信息库中的信息(虽然此时不具备超链接功能)。
以上3个问题的解决,使得世界上使用不同硬件和软件的分离的信息系统,通过因特网构成了一个庞大的统一的信息系统,从而为用户打开了通往一个大得难以想象的信息库的大门。这正是WWW取得巨大成功的原因。为了使用户不至于面对浩瀚的信息而不知所措,人们又进一步设计了帮助用户过滤掉无用信息、尽快找到所需要的信息的专门软件,这就是所谓的搜索引擎。
随着声音和活动图像等实时信息的逐步增加,因特网正在演变成世界范围内最大的MIS系统。由于以上所介绍的如何向用户有效地提供和查找信息的技术首先是从文字信息查询与检索发展起来的,关于这些技术的书籍已经很多,所以本书将不准备进一步讨论这方面的内容。
MIS系统涉及的第二个重要技术问题是多媒体数据的存储和检索。与存储传统的数据不同,多媒体数据需要有适当的数据结构,以表达不同媒体数据之间在空间上与时间上的相互关系;对不同媒体要有合理的存储方式;对于数据量大而在时间上又有严格要求的音频和视频数据流,要有实时的提取算法;当数据库是分布式时,要能够将处在不同地域的服务器所提供的信息协调起来同步地提供给用户,等等。多媒体数据这种新型的数据给数据库的设计带来了一系列的新问题。目前的多媒体数据库一般是对通常的关系数据库进行扩充,或者采用面向对象的数据库来实现,数据量很大的视频则多以文件形式存储。多媒体数据库的成熟仍需要相当的时间。
此外,传统的、利用关键字或属性描述等来进行信息查询的方式,比较适用于文字信息,用来对声音、图像等多媒体信息的查询则有不方便之处。基于内容的检索是伴随着视频和音频查询而发展起来的新技术。利用这种技术,给出(或从查找对象中自动提取出)所要求的特征,例如图像中物体的形状、颜色等,就能找出具有同样、或类似特征的物体的图像来。更高级的查询方式则是给出“概念”或“事件”,如国旗、山脉、骑自行车的人等,找出具有同样概念或事件的图像或视频来。这种方式也称为基于语义的检索。基于内容和基于语义的检索涉及图像和视频的分析与理解、语义提取、模式识别与人工智能等,是当前多媒体领域中的一个重要研究方向。由于本书侧重于多媒体通信,因此将不准备讨论这方面的内容。
1.4.3 多媒体会议与协同工作
可视电话和会议电视是早在多媒体出现之前就已经存在的人与人之间进行通信的手段。计算机支持的协同工作CSCW(Computer Supported Cooperative Work)也是早在20世纪80年代初在计算机领域内提出的概念。它是指用来支持多个用户共同参与一件工作(如共同编辑文件、修改设计图等)的计算机系统及其相关的技术,但合作者之间不能“见面”与交谈。多媒体的出现为这两种交流形式提供了结合的基础,合作者既能看得见、听得到,又能一起处理事务,使他们真正像聚集在同一个房间里面对面地交流与工作。这种通信系统和业务称为多媒体协同工作MMC(Multimedia Collaboration)。多媒体远程医疗诊断系统、多媒体远程教育系统等都是融入了一定MMC功能的应用。
1.会议室会议电视系统
这是传统的会议电视系统,其原理与广播电视系统类似,由电视摄像机对着主会场、主席等拍摄,通过电缆、光缆、微波或卫星信道送到分会场收看。如果要求主会场也能看到、听到分会场发言的情况,传输信道则是双向的,以将分会场的信号送到主会场。主会场(或者通信网的某个节点上)有信号切换设备,用来选取某一分会场的信号,并将该信号送至其他分会场;或者将几个分会场的信号综合起来,以分画面的形式送给各个会场。在有的系统中,主会场还可以对分会场摄像机的摄取方向等进行控制。图1-3是会议室会议电视系统会场的示意图。
这类系统的一个重要特点是,需要像电视台的演播室一样,对被拍摄的景物(人、黑板、会场的全景等)给以专门的照明(普通室内照明设施不能满足要求)。由于会议电视系统拍摄的景物没有什么剧烈的运动,主要是讲话人面部和形体的运动,而广播电视要传送包括诸如运动员的快速动作在内的高速运动的图像,所以会议电视的摄像机、信道设备等相对于广播电视所用设备而言比较简单,而且在同样的图像分辨率下,会议电视的数据率可以被压缩更大的倍数。另外,由于同样的原因,为了保证动作的连续,电视图像每秒钟需要传送25帧,而会议电视每秒传送10~15帧即可以被接受。而且,会议电视的情况与人们看电视不同,看电视是一种艺术欣赏,人们对图像的分辨率要求高,而会议则是在较长时间看一个相对固定的面貌,与会者在心理上对图像分辨率的要求大为降低。数据率为384kb/s的系统所给出的图像质量已经可以令人足够满意了。
在会议室会议电视系统中,通过电子白板等辅助人机交互设备的使用,可以多媒体方式呈现、修改、记录和存储计算机中的文件,实现与会各方对信息的共享。

图1-3 会议室会议电视系统
2.桌面或手持终端会议电视系统
用计算机或手持智能设备取代会议室会议电视系统中的编解码设备和显示设备,是这类会议电视系统的基本特征。
在会议室会议电视系统中,摄像机不仅要拍摄讲话者还要能够对整个会场进行拍照,这要求摄像机有较大的视野和较高的灵敏度,因此其照明条件必须达到演播室的标准。而在桌面或手持系统中,摄像机只需要对准讲话的人,这不仅降低了照明要求,也降低了对摄像机的视野和灵敏度要求,摄像机大为简化。
在这类系统中,音、视频的处理与文字等其他媒体的处理被集成在一个系统中,这使得实现与会各方的信息共享和协同工作更为方便,有利于系统向多媒体协同工作的方向发展。
3.多媒体协同工作
MMC的最终目标是希望使身处异地的人们,能够像处于同一房间内面对面一样地交谈、协商工作,下面列举的是人们向着这一目标所正在作的努力。
教师从显示器屏幕的3个窗口分别看到在3个地方听课的学生,与在一个教室中面对全体学生的感觉是不一样的。利用计算机的图形功能可以生成类似真实图像的虚拟图像,例如具有天花板、窗户、灯具的教室,并将从3个地方传送来的学生的现场图像与计算机生成的虚拟教室图像结合在一起,构成一个全体学生在内的完整的教室全貌,将会给人以更真实的感觉。
在现实生活中举行会议时,某个与会者有时需要和邻座说一些不愿意让别人听到的悄悄话,或拿出一份文件与其小声商量;有时与会者要边讨论、边对一个文件或一份设计图纸同时进行修改,甚至需要共同操纵一台仪器进行实验;如此等等。在多媒体会议中,要实现类似现实生活中的这些行为要涉及许多技术问题。
显示器的屏幕是平面的,无论屏幕上显示的景象是多么的有立体感,人们仍然是身在其外,而不是身在其中。如何将虚拟现实(Virtual Reality)与协同工作结合起来,使人们在虚拟的三维环境之中协同工作是一个值得研究的课题。
人们会面时的第一个动作往往是一边握手,一边说“你好”。如果MMC终端可以用语言(不是键盘)输入、并配有机械手,可能使你感受到远方合作者向你握手问好的真实感觉。除了听觉和视觉之外,将其他的感觉,如触觉、嗅觉等结合进协同工作环境;或者将多媒体协同工作与机器人技术结合起来,使合作者能够共同进行除了屏幕上的工作(如编辑文件之类)以外的事情,这些都是研究者在探索的问题。
总之,多媒体协同工作将从各种不同的方面,向着能够使得被空间距离分开的人,在必要的时候可以像已经聚在一起,有面对面地一起工作的条件与自我感觉的方向发展。但要真正达到这一目标,要走的路途还相当遥远。这里包括的不仅是技术问题,还有许多为社会学和心理学家们所感兴趣和值得研究的问题。
从通信的角度来看,MMC系统是对通信系统要求最高的应用。它要求一点对多点,或者多点对多点的双向信息传输。所谓一点对多点,是指一个信号要同时向多个接收点传送。另外,在MMC系统中,声像信号是实时产生的,需要实时地压缩、传送,整个系统的时延要足够小,才能满足人们对话时自然应答的时间要求。在复杂的协同工作系统中,要实现“开小会”和进行共同操作等,还要能够随时建立、撤销某些专有信道。当涉及视、听之外的其他形式的传感器时,通信机制的复杂程度则会更高。
1.4.4 多媒体即时通信
即时通信系统更完整的表述是出席与即时消息系统(Present and instant messaging system,IMS)。它允许用户相互之间了解各自的状态和状态的改变,如在线、离线、繁忙、隐身等,并允许用户相互之间传递即时的短消息。第一个即时通信系统于1996年在以色列诞生。人们通过IM系统发送文本型的短消息,由于消息传送的即时性,对方可以立即给予回应,一来一往如同“聊天”;可以多个人一起聊,仿佛在一个聊天室,也可以两个人进行“私聊”,等等。由于这种交流方式的方便和快捷,IM在世界范围内得到了迅速的发展,成为最流行的网络应用之一。现在,IM从最初的个人聊天应用,逐步扩展到成为企业内部进行工作交流的有力工具,企业可以随时查看各部门在线人员情况,沟通各分支机构等。同时,IM从原来支持简单的文本短消息交流,发展到加入文件传输、视/音频信息的即时传送,使聊天者相互可以看得见、听得着,等等。因此我们在本节标题中将它称为多媒体即时通信,它是一个极具潜力的业务。
加入了视、音频的IM系统从功能上讲与可视电话或会议系统类似,但实现方法并不相同。可视电话系统由通话双方通过呼叫协议直接建立双向的连接;而经典的IM系统采用客户端/服务器(C/S)结构,“聊天”双方的信息需要通过服务器进行中间转接。当传输视、音频信息时,由于数据量大,服务器中转可能引起响应的不及时,此时可以在“聊天”双方建立直接连接,但这个连接的建立通常也需要在服务器的帮助下完成。由于服务器是IM系统的核心,用户必须先登录服务器才能接受各种服务,因此服务器了解各用户的状态及状态的变化,从而能够向一个用户提供其他用户的状态信息,让他了解其他人的在线情况。这就是“出席”(present)服务。而在可视电话系统中,主叫方事先并不知道被叫方是否“出席”,他必须通过一定的通信协议呼叫对方(如振铃),对方应答则接通;对方未出席,则不能接通。

图1-4 即时通信
如上所述,一个典型IM系统包含两种基本服务:出席服务和即时消息服务。图1-4(a)为出席服务的基本框图。出席服务有两类客户,一类称为出席者(presentity),另一类称为观察者(watcher)。出席者向出席服务提供自己的出席信息。观察者可以定期或不定期地向出席服务请求得到某些出席者的当前出席信息;也可以订阅(subscribe)出席信息,此时出席服务会在出席者的出席信息发生变动时主动告知订阅者。
图1-4(b)为即时消息服务的基本框图,其中发送消息的一方称为发送者,接收消息的一方称为即时消息箱。发送者向即时消息服务发送消息,消息中包含目的即时消息箱的地址;即时消息服务则根据目的地址向该即时消息箱转发消息。当用户之间需要交换视、音频消息时,发送者从服务器获得接收方的地址和状态信息,并通过一定的协议在服务器的帮助下建立起二者之间的直接连接。然后在此连接上视、音频数据可以采用与可视电话和会议系统中类似的方式进行传输。
1.4.5 点播电视(VOD)
多媒体计算机出现以后,由于它具有以交互操作的方式调取包括伴音在内的活动图像的功能,立即导致了这样的构思:在电视节目中心,将节目以压缩后的数据形式存入视频节目库;用户在家里可以按照菜单调取任何一套节目,或者一套节目中的任何一段,并能实现录像机的功能,即快进、快退、重放、慢动作以及播放静止画面等,这种系统与业务便是点播电视(Videoon Demand,VOD)。
从使用功能上讲,VOD与多媒体信息检索与查询系统是类似的,但是二者的业务特点却有很大不同,因而技术的侧重点也有所不同。在多媒体信息查询系统中,信息的主要部分通常是通过文字、图片表达的,数据量较小,其中需要显示的视频图像片断一般时间不长。此外,在多媒体信息查询系统中,用户的查询时间和查询内容不像人们点播电视节目那样集中。在VOD系统中,由信息中心送出的是数据率很高的电视节目,其中具有录像质量的信号的数据率为1.5Mb/s,电视质量的信号则达2~4Mb/s。电视节目的长度是以小时计算的,在这几个小时中,每一秒钟内都需要传送几兆比特的数据,才能使用户正常、不中断地收看节目。另外,人们看电视的时间比较集中,晚上看电视的用户比白天的多,晚饭后(即黄金时间)看的人则更多;看的节目也比较集中,看好片、新片的人比看劣片、旧片的人多。不难想象,要在同一时间内向数百、数千、甚至更多的用户提供内容不同,而又连续不间断的高速数据流,对设备和网络的要求是很高的。
图1-5是一个VOD系统示意图。图中的磁盘中存储着大量电视节目;负责按用户提出的要求向用户传送节目数据流的设备称为视频服务器,或流服务器。用户终端则用来接收节目数据、并将其解码、还原成模拟电视信号进行显示,同时,还负责将用户的查询命令发送到上行(即由用户向信息中心的方向)线路上。用户终端可以电视机、计算机或手持智能设备为平台。当使用不具备智能功能的电视机时,需附加机顶盒以完成与服务器的交互操作。

图1-5 VOD系统的简单示意图
现在让我们来考虑视频服务器如何为众多的用户服务。必须注意,在任何瞬间,服务器只能从一个磁盘上提取一个节目的数据。如图1-5所示,假设我们在服务器中为每一个用户设立一个缓存区。服务器首先将第一个用户需要的节目全部从这个磁盘中提取出来,放入该用户的缓存区(内存),然后再为第二个用户提取数据……由于前一个用户所需要的全部数据都已存放在缓存区中,所以在服务器为后一个用户提取数据时,并不影响在前一个用户的缓存区内的数据持续不断地向该用户输出。这是实现视频服务器功能的一种最简单的设想。但是此方法需要容量巨大的内存作为用户的缓存区;同时,稍后提出请求的用户要等到将前面的用户在未来数小时内(即整个节目)所要用到的数据都提取完之后,才能得到服务,等待时间太长。
实际视频服务器所采用的一种典型方案如图1-6所示。在这个方案中,一个节目被分成若干段,每一段分别存储在一个磁盘中(多个磁盘构成一个阵列)。当服务器从第一个磁盘为用户1取出一段数据送至用户1的数据流缓存区中后,用户1就可以开始获得数据、观看节目了。这时服务器则接着从第二个磁盘中为用户1取第二段数据,在用户1的缓存区中的数据被用空之前,将第二段数据补充进去,使送至用户1的数据流不至中断;与此同时服务器又从第一个磁盘中为用户2取出第一段数据等等。如果从磁盘中提取数据的速率超过向用户传送数据的速率,磁盘数m可以小于用户数n。从磁盘中提取数据的速率越快,可以服务的用户数越多。图中的交叉切换模块代表对各个数据流进行调度和控制的硬件与软件。

图1-6 视频服务器
可以看到,与图1-5所示的方案相比,在内存的占用量和用户等待时间方面这种方案要优越得多。但是由此我们也看到,这里的视频服务器,其硬件和软件比多媒体信息查询系统中的Web服务器要复杂得多。再设想一下,若干个用户可能在相近的时间,甚至在只差几秒钟的情况下点播同一个节目,并且某些用户要进行快进、快退等录像机式的操作等,要满足这些要求将进一步增加服务器数据提取、调度和控制的复杂性。
在通信网络方面,相比于其他多媒体应用,如信息查询、会议电视等,VOD是对带宽要求最高的应用。在用户端,对于固定网络而言,必须采用电话线或同轴电缆的宽带接入线路,或者光缆直接铺设到用户;而对于移动网络,则只能在3G或更先进的网络上实现。当存储节目的信息中心与用户在地理位置上相距很远时,要在远程网络上长时间地传送众多的持续不断且速率很高的数据流,对网络是一个沉重的负担。如何有效地进行这类通信,在后面的章节中我们将会看到,人们已经提出了一些解决方案。