编者按:技术在一定程度上解决了远程沟通的问题,可当你面对视频中的那个Ta时,总有种不自然的感觉。是什么造成了视频聊天和面对面聊天之间的差异呢?看了这篇文章,你会明白,对话双方在同一环境中的共现、说话时的每一个动作手势,以及对视,是那么重要。本文经授权转载自知乎,作者谢科,草屋科技创始人,欢迎大家交流讨论。
如何借助技术,让人们能在远程更加自然和谐地沟通,这在Communication和计算机的人机交互领域,被当成一个大问题来研究,无数前仆后继的PhD们和老板们都在可劲造新的demo和设计来帮助克服远程沟通的障碍。去年刚上过HCI的课,写了一篇关于这事儿的论文,总结一下誊到这儿吧。
先小结一下,为什么视频聊天做不到面对面聊天那样流畅沟通?
先说一下我自己的体验。上个学期因为呆在本校区,而老板在纽约,所以每个星期要么开车到纽约,要么视频对话。从facetime到skype,到google handout,到后来的视频会议系统以及Beam机器人。
但是到最后,老板还是决定,每个星期给我报销路费,往返600公里,跟他面对面meeting。
视频沟通无法营造共现(Co-presence)
为什么技术发展这么快,人们还是倾向面对面沟通呢?因为所有的这些设备都没有解决一个根本性的问题:构造共现。
面对面时营造的共现是如此的重要,但是因为我们时时刻刻都深陷其中(我们的绝大多数沟通),以及于我们甚至都没有办法反应过来原来它有如此多的好处(只缘身在此山中)。举个极端例子,电视剧里,要解决群众聚众问题的时候,一个靠谱的市委书记会电话公安局长说:“稳住局面,等我过来”。而不会说:"把电话接扩音器上,让我来跟他们说"。
从传播学(communication,译得不准确的话请纠正我)上考虑,我们现在需要把信息传达出去(或者异地恋的同学需要把爱传达出去),那么,作为媒介的计算机软件就是其中的Media(也可以是电话啦,电报啦,电子邮件啦等等)。研究这些媒介的研究者提出了很多的理论,下面是其中一种: 不同的沟通媒介有不同的特性,列在下表:
[恬不知耻把老师的PPT拿出来了。Credits to: Susan Fussell, Home | Susan R. Fussell, Associate Professor, Communication, Cornell University]
简单译一下,这里谈到的是Clark和Brennan的理论,他们认为,作为媒介,有那么一些通用的特征,但是不同的媒介会有不同的组合。面对面和电话,电话和视频,视频和email,都会有不同的组合。
那么,根据这个理论,特定媒介的特性会决定一个媒介是否可以提供一些功能性(affordance)。而有一些功能性是自然交流所必须的,如果没有的话就会觉得非常不自然。但是由于我们绝大多数的沟通都在面对面沟通中进行,少有人会注意到,原来面对面有这么多好处!想想看,当我们面对面交流的时候,有哪些我们身浸于其中,但是由于深浸于其中,而没有感受到的特点。下表比较了上述特点在面对面(FtF: Face to Face)和视频,电话以及email中的体现。
(不同媒介的affordance属性的不同,包括FtT,即面对面,Video:视频通话;phone:电话通话和email)
可以看到,面对面几乎涵盖了所有必要的特性。它让交流者感觉到共现(co-presence) ,而视频做不到这个。其它的特性,视频可以或多或少地模拟面对面的交流,而共现几乎不行。
为什么共现很重要?因为如果你们俩在同一个地方经历同一个事情,那么你们就有了共识(grounding),而不需要费力地去告诉对方这些共识。举个例子,如果你跟妹子在千里之外视频,那么你们视频的同时,经历着不同的天气,你们会谈论天气。但是如果你们在一起个房间,还会询问对方天气怎么样,冷不冷吗?共识是默契的基础,如果长时间只是视频,你们其它所有感官所经历的,都需要通过言语告诉对方,做不到“体会”共识,那么你就会觉得:靠,怎么这破事还要讲一讲解释一下呢?
共现的另一个重要特点是,会让你的表达能力大大增强。举例说,我刚刚出来留学的时候,发现完全没有办法点外卖。为什么?菜单上的英文TOEFL没有教呀!所以,打电话点菜的时候,经常出现如下对话:
我:我想点一个...呃…就是饭上盖着黄色的玩意儿
餐馆:黄色的玩意儿?你是想要AAA,BBB还是CCC?全是黄的 (仨菜名儿我都没听出来)
我:我也不确定,我要那个黄色的但是里面有鸡肉的
餐馆:全是鸡肉
我:那我想要那个有叶子的
餐馆:哥们,这是印度菜,里面都有叶子的好不好
我:(@*&#……¥*&).....随便给我来一个吧
注意到电话点菜的过程中,我一直在试图缩小范围,通过跟餐馆订餐的哥们建立一个“共识”。但是通过电话这个媒介,完全不可能做到在有限的词汇量下表达我想要的那个复杂概念。于是我不断试图用简单的限制条件来跟他重新构建共识,直到最后放弃(其实我想要点的就是一种特殊的咖哩鸡肉盖饭而已啦)。但是设想,如果这时候我可以出现在餐馆里,指着其中一个说:我就要这个菜了,那不是简单很多吗。这也就是说,某些媒介不具备面对面所有的特性,而那些特性对于有效沟通是非常必要的。
共现非常重要的另一个绝佳的例子,是一个实验,警示人们视频的构建共现能力比起面对面来说,是多么无力。
(拼方块实验,老师的PPT上没写来源,我也实在没找着是哪篇paper里来的...麻烦知道的同学告诉一声)
以上是实验的一个截图。实验的设计是这样的:研究者随便找来俩人,一个worker,一个helper。helper可以看见的游戏界面在右边,而worker的界面如左图示。
实验刚开始时,worker看见的所有的方块是被打乱放置的。而实验的目标是,helper必须帮助worker把worker界面上的方块,摆成helper界面上的“target puzzle”目标的样子。有点像幸运52的你来比划我来猜的意思。
实验的过程中,俩人会进行视频通话,那么显然,实验的目的就是确认视频通话的沟通效用。
结果研究者发现,在众多次重复实验中,几乎所有的helper都会逐渐恼怒,因为他们在帮助worker的过程中,只能通过告诉对方颜色来实现沟通(以控制把某个物体移向某处,比如helper需要对worker说:把粉红色的方块往上移到蓝色方块的左上角)。而颜色和位置都是非常难以形容的,想想看,一个有点粉红的和一个比粉红稍深的方块,你会怎么形容?——大部份实验中的helper都用“稍稍深点”和“稍稍浅点”的粉色来区别。但是如果有三个粉色却不同程度的粉方块呢?很难对不对!想到这里,helper们的恼怒也是情有可原的了,因为他们不知道对于他们觉得理所当然的事情,worker却感到如此的困难(虽然worker们也很无辜...甚至有helper当着面表示,“我靠你咋这么笨呀…”)
同理,对于有些复杂的任务,在不共现的前提下,沟通双方是无法完全理解对方面临的困难/挑战/问题的。
无身体语言支持
我猜肯定有人会坚持,“视频可以身体语言啊!”。是的,一定程度上视频的确可以支持身体语言(动动手动动面部表情还是可以的),但是由于本身的局限性,视频没人办法做到360度全方位展示和观察身体语言。
(不同各类的手势及含义)
总统们,主席们,政要们,大手一挥台下千呼百应。可不要以为那些手势都是比划比划就完了,它们都是经过精心设计的。比如表示强调的时候,会把手掌向下,作“下压”状两下。表示坚决的时候,把手捏成一个拳头,来表示决心(看上图左边小布什的手,即使你没看我的文字也应该看得出来他在表示啥:“我向你们保证,我们一定会把本拉登捏得碎碎!!!”)。
而这些手势以及各种身体语言,也变成了交流中极重要的信息传递方式。其实在交流中,有很大一部分信息都是由手势表情还有身体语言传递(一会让室友带饭的时候记得观察观察,他肯定一脸不爽撅起嘴角。于是你就明白他虽然口头上答应但是心里想的是你这傻逼怎么老让我带不自己去啊)。
视频的劣势之一,就是很大一部分的身体语言会被扔掉。比如我们身体倾斜的方向(靠向对方表明倾听,接受;远离对方表示自我保护,不同意等),我们脚的动作(紧贴在椅子下的紧张,谨慎;张开表示的放松,无压力,控制局面),手的摆放方式(张开表示接受,乐观;紧扣在胸前表示防御,警惕)等等等等都会被忽略掉。这样就相当于,视频这个媒介在传递信息的时候,丢掉了一些信息。明显地,如果你生气地握着拳头,却发现对方没有反应的时候,你就会觉得视频交流非常不自然了。
在上面的实验中(挪方块的那个),helper和worker即使在视频被切断,只有语音的前提下,也会不自觉地用手比划姿势。这说明,我们的大脑才不会管当时的条件怎么样,即使没有视频可以用,也会不自觉地想用身体语言向对方传达信息。回忆一下上一次在电话你,你试图用言语表达某个东西有多大时,你是不是用手无意识地比划了一下。
无法操纵对方的摄像头,难以控制视角,以及对视无力(no Gaze and Mutual Gaze)
(面对面交流场景中的对视以及视物)
在上图所示的面对面交流中,注意看图里的人们,他们在共同看着某一个东西(表达“嘿!我在看这个东西!所以我们要讨论这个玩意儿”),而这是再自然不过的,面对面交流中我们会用到的功能了(只是通常我们都把这当成理所当然的了)。
(典型的视频会话场景)
而换到视频中,你知不知道墙上的哥们眼睛在看啥(也就是说,你不知道他在关注什么问题?)。他完全可以假装在看着摄像头,但是在前面的笔记本上装满了漫画,同时说出来一些让人不知所云的东西。而接收方可没这么幸运,还以为他在一本正经地开会呢。
更重要的,如果在面对面交流中,我眼睛注意着你,表明:你已经得到我的注意力了,请接着说吧。而在视频中,除非你眼睛盯着摄像头看(但是同时,你也就看不到对方了),你在对方的视频中显示的就会仅仅是看着某个东西(即使你是在看着他在你屏幕上的脸)。
同时,在上面的场景中,如果左边的蓝衣服的人想要给视频中的人一个惊喜,比如一个生日蛋糕刚从左边的门里推出来,那他要怎么样让视频里的人看到呢?——没有其它办法,只能转动摄像头,指向那个蛋糕。但是这样实在是个笨办法。想想看面对面的场景中,你需要转动多少次头,多少次视角。而你老是让对方为你转动摄像头的话,到后来你都会不好意思的。但是这个问题已经某些程度上被新出现的技术减轻了,比如说:
上图中,我在操纵的这个视频机器人就可以按照我的意愿行动,实现转头,转向等等。我的视频会被放在这个机器人的头部。
甚至于更未来的一些想法已经开始萌现,Cornell的某博士后正在试图把摄像头装在无人机上以实现可以飞行无死角视频(暂时还没解决如何把显示器装到飞行器上的问题)。
视频的延迟之类带来的不爽就不多说了,每个人都有体会,但这也是早期研究Computer Mediated Communication时最大的障碍之一(90年代初就兴起了,想想看当时的网速,传个图片儿还吭哧呢)。
总结
作为通讯的媒介,视频通话和面对面有着本质的功能性上的区别(affordance)。面对面交流时的共现性,是目前任何视频通讯系统无法比拟的。而没有身体语言的支持,以及难以控制视角,也使视频交流无法企及面对面交流的信息无损性。
但是,可喜的是,各种新的技术层出不穷,比如上文中提到的视频机器人,飞行器视频机器人,以及更fancy的全息投影视频系统。
(全息投影的会议,截图自电视剧 “silicon valley”)