一直有关注硬件创新的朋友可以会知道曾经名躁一时概念产品iDropper。2010年11月,用“信息吸管”iDropper对着iPhone上的图片“吸一吸”,然后再到另一台设备的屏幕上“滴一滴”,就能极为直观地完成图片的复制和粘贴了。可惜的是,iDropper一直就停留在了概念阶段,之后再无进一步的发展。
现在,成都的Tagtal(有形科技)团队却出人意料地把这么具有未来感的交互产品给实现了出来。他们研发的T-Stylus智能触控笔是一支用于触摸屏的数据通信电容触控笔,用户可以用T-Stylus在屏幕上抓取数据(照片、文字,图画、联系人、日历项等)并直接传送到其他iPad、iPhone等带有触摸屏的设备。
在屏幕上一吸一滴就能传输数据?听着挺悬,到底是怎么实现的呢?有形科技创始人@汪林川称,基本原理就是在触摸屏上通过公司的专有技术,建立屏幕通信口OSP,然后通过OSP进行数据传输。
他表示,开发中最大的困难在于,由于开发的是从没有人做过的产品,他们没法从理论上来分析、指导研发活动,很多时候只能靠做实验来摸索,成不能成心里根本没底;中间涉及到了模拟电子,而且这部分模电(投射式电容触摸屏)技术又是封锁得极严的。尽管最终完成了产品,代价也高出了预计的4、5倍。
T-Stylus的研发工作已在1月底基本完成,并为36氪的读者专门准备了一个上手视频,让大家看看T-Stylus的具体操作和实际效果。接下来,汪林川要操心的就是生厂和销售问题了。按照他的设想,他预计能在2013年Q2推向市场,前期主要是北美、欧洲等iPad保有量比较大的区域,接着再是亚洲地区。售价估计会在80美元左右。
在文章的最后,汪林川还与大家分享了他对人机交互的许多思考,相信会给大家带来许多有益的启发:
自然人机交互一直是大众和业界所期望和追求的。在公众记忆中,10年前阿汤哥的Minority Report里,展示的未来的超级人机交互系统是里程碑式的epic inception(植入),相信大多数人至今对阿汤哥带着智能手套在大屏幕前对照片、视频操控自如的身形都还历历在目。
外行看热闹,内行看门道。可能只有不多的业内人会注意到电影的科学顾问John Underkoffler,他一直都在进行类似电影里的自然人机交互系统的研发,他所在的公司oblong一直以休克方式进行运作已经10年,在去年已经推出了第一个产品Mezzanine。相较之下,苹果却走了完全不同的路线,在5年前以较低的代价实现了较之于oblong方式更为妥协的自然人机交互——从把自然人机交互从John Underkoffler的3D多屏降到了2D单屏(即触摸屏)。这个妥协取得了巨大商业成功,引来业界对自然人机交互技术的新一轮研发高潮,可以说是爆发式的发展,体感等3D空间类、图像识别、自然语言等自然感知类各种新的尝试不胜枚举。
说到电影对公众的inception,最近我也看饥饿游戏里有一些场景也很有新意,巧合的是这部电影里面也还有类似T-Stylus的智能交互笔的概念,喜欢电影的朋友可以看看。不管你信不信,电影和时尚会影响科技和工程发展,我是相信的。
虽然我们在自然人机交互上的探索如火如荼, 但我认为商用系统从2D到3D自然交互转变的时机还没有来到,自然语音等自然感知类的人机交互(比如Siri,甚至Google Glass)的时代也没有到来,基于2D自然人机交互却还有很大的发展潜力。在未来3-5年能大规模商用的自然人机交互还应该是2D多屏空间的模式。2D多屏的模式可以说是2.5D自然人机交互,2D是指的是触摸屏,0.5D是指多屏。如何“多屏互动”?这应该是近期会有所突破的领域。我们的T-Stylus的核心技术OSP是属于2.5D自然交互技术。
为什么说2D到3D自然交互转变的时机还没有来到,自然语音等自然感知类的人机交互的时代也没有来到?有两个难点:第一,3D显示技术远没有到可以进行交互的程度。即使类似Kinect使用的激光散斑技术提取出场景的深度信息精度得到大幅度地提高,或者类似leap motion的小范围高精度手势定位的低成本实现,实时3D显示系统还是未见其成,实时3D渲染都还处在初级阶段,更不要说3D显示器技术了。3D GUI系统发展了这么多年一直没有什么大的进展就是一个证明,我以前带了几个团队做过3D GUI系统的开发也遇到很多短期内解决不了的一些基础问题。
第二,对3D人机交互和自然感知交互而言,这可能是更难以克服的问题,即现有的计算机的计算模型computing paradigm(图灵机为理论,冯诺伊曼架构为工程基础)的效率还不足以解决类似自然语音理解等高维度问题,人工智能(比如自然语言的理解,人脸识别等)要等到计算模型有所突破才能真正实用,简单说自然人机交互所涉及的核心问题需要用自然计算来解决,这还需要很多年的继续努力。
以人工神经网络ANN技术为例,和过去40年ANN研究和应用的起起落落一样,近来又升温的ANN继续反应了我们对自然计算的需求。但以过去几十年的对ANN的研究和实施经验看来,在现有的计算模型(图灵机)上实现自然计算之路可能一开始就错了,历史上出现过很多次对ANN研究的高潮但都不成功,基础的计算模型不改变自然计算就很难走远。这也就从根本上制约了自然感知类人机交互的发展。自然语音理解也是这样,还记得20年前IBM都开始做语音文字输入,但还是以失败收场,而且看来很多公司在最辉煌时都会进行自然计算的尝试,一是因为发展到顶峰没有创新了,向自然借鉴,二是有资金和实力做这方面的探索。但如果计算模式不变,大概都会以失败收尾,然后是其他稍作妥协的技术方案取得成功。
最后,我觉得进行人机交互方向技术研究开发的同学可以关注一下MIT Media Lab的Tangital User Interface以及微软的Hands-on计算,个人觉得他们的研究分别是前沿和实用的代表。上面说的John Underkoffler也是MIT Media Lab出来的。至于Google Glass嘛,就是那位印度天才第六感概念的具体实现。微软的某些项目有点过于技术化和复杂了,PixelSense就是一个例子。