编者按:本文来自微信公众号“半佛仙人”(ID:banfoSB),作者 半佛仙人,36氪经授权发布。
最近各种大促特别多,各家电商都在摩拳擦掌准备好好在年底收获一把。
各种APP的促销推送和商品推荐也是昼夜不停,要让大家把手留下,干干净净过个好年。
这么看来,最大的受害者就是老家等着要压岁钱的熊孩子们了。
他们不仅要不到钱,可能还要被双手空空的长辈们反向撸羊毛,小小的年纪就要承受命运的重拳。
说到APP推送以及商品推荐,很多人都有一个恐慌性的顾虑。
那就是怀疑自己的APP在对自己录音。
经常出现一个状况是,自己和人谈论一个事物,然后不久后,自己在购物APP或者搜索引擎或者浏览器或者APP的广告业中就看到了相关的广告,让人非常恐慌,觉得有一双神秘的眼睛在看着自己,非常害怕。
怎么说呢,我觉得大家的想象力过于丰富了,这种猜测是合理的,只不过既对也不对。
对的是,我们的生活确实是被各种精准推送给占据了,各大APP也确实有一定程度上的【猜测】行为,目的也的确是让你掏钱。
错的是,没人给你录音。
实际上科技和大数据发展到现在这个程度,录音属于非常没有效率的玩法,音速不够快。
我们高科技镰刀,都是光速的。
为什么说没有公司用录音来做信息采集和广告推送呢?
不是说公司良心发现,商业公司有良心其实本身就是一件很诡异的事情。
而是任何事情都要讲一个目的,广告推送的目的是要追求转化率,要让自己的利益最大化,成本最低,卖家也是要看性价比的。
从方案成本收益的角度,录音属于效率低,利润低,误差率高,成本高的沙雕方案,所以没人做。
那些大胆尝试录音方案的朋克们,大部分都是投入产出失衡后破产了,所以你很少见到市面上有完整商业录音解析方案,当然安防另算,安防对于投入产出的理解和商业不同。
想想看,如果你要做录音方案,首先你绕不过的就是APP资源占用,持续的录音,对于一个APP而言是很大的负载,导致的结果就是APP运转效率低下,耗电发热大幅增加,跑起来和吃了翔一样别扭。
而且吧,录下来的音频你要怎么保留?本地保留?这个音频文件会大到超乎想象,一个APP到录音录一天,最后录音文件几个G,而且有朋克的用户,直接看你源文件夹,一旦发现录音,你可以等待铁拳打击了。
在线传输?用户的流量是要钱的,而且用户定期看手机流量记录的时候,发现就你一个APP耗流量特别大,还不是视频类或者游戏类APP,分分钟就暴露了。
本地直接解析?只留存文字?这倒是可行,但是最大的问题在于,你要小心竞争对手反编译你的安装包,一旦被人看到相关代码和模型,底裤都没有了。
实际上很少有互联网公司把复杂模型布置在本地,因为太容易被对手直接破译;
而如果用云模型的方式做录音解析,流量消耗和网络稳定性也会让准确度大大降低。
从技术上,录音是不太合理的方案,不是说不能做,而是做起来成本高,破事儿多。
与道德无关。
录音如果仅仅是破事儿多就算了,一个东西如果好用,破事儿多其实并不是很大的问题。
痛并快乐也是一种生活。
但录音方案最致命的问题在于,消耗了大量资源后,准确率过于辣鸡。
俗称吃的是肉,产的是屎。
想想看,如果你手上的APP使用了录音监控方案,那么面临的第一个问题是,需要分辨到底是谁在讲话?是不是手机的主人在讲话?声源就是一个大问题。
试想我走过你的身边,大喊一声我爱杰士邦,然后你打开手机,看到了杰士邦的广告,你觉得是不是非常沙雕?你会不会是得觉得我在性骚扰你?
当解决了录谁的音的问题(声纹类方案)后,你会遇到第二个问题,需要识别语言准确度问题。
我们所处的日常环境是非常嘈杂的,会有大量的杂音,而且很多人的普通话并不标准,机器没法有效识别,实际上绝大多数方言,机器都无能为力,识别出来各种沙雕。
尤其是温州话,那是恶魔的语言,战争年代可以当密码用的神奇语言。
假如解决了语言准确度问题,那么还有第三个问题,那就是音频实时语义识别问题。
这个问题在当前属于几乎无解的难题,所有人工智能遇到音频实时语义识别都容易变成智障。
注意,我说的语义识别不是所谓的把你讲的话翻译成文字,那个东西难度不大,我说的是,真正理解你语言中的含义。
例如死鬼这个词,男人跟女人说,男人跟男人说,女人跟男人说,男人跟死对头说,都是完全不同的含义,但都是死鬼。
人类理解语意是要结合具体场景,甚至具体说话的人(同一个词,不同人讲出来都不是一个意思),这些都是现阶段机器做不到的。
别说机器做不到,很多人都做不到,例如:弹性工作制=别想着准点下班,这谁遭得住。
尤其是APP录音,需要快速记录下人们在实际生活中的快速出现的场景未知的对话对象未知的普通话不标准的神奇对话,还要记录分析下来,还要精准获得含义。
要是真有哪个公司有这个本事,还做个屁推送,直接就诺贝尔奖了。
以上三问,我喜欢称之为录音方案灵魂三问,在三问之上,还有终极一问。
记得我前面说做录音方案的大部分都破产了么,那还有小部分,那小部分去哪里了?
小部分因为收集隐私被抓进去了,彻底财务自由了,毕竟监狱不用花钱。
闭上眼,用心去感受正义的力量,奥利给。
当你读到这里的时候,你肯定既恍然大悟,又迷惑。
恍然大悟的是觉得确实不会被录音,迷惑的是那为什么出现了我说什么,不就之后APP就出现了相关推送?
我给你这么说吧,没有公司做录音,不代表没有公司利用声音来收集资料。
只不过这个收集资料的方式不是你以为的大段录音监控,而是通过特定关键词唤醒。
举个例子,假如你用苹果,你会【Hi,Siri】来唤醒siri功能。
假如你用小米,你会【小爱同学】来唤醒收集。
其实很多APP的推送,是用了类似的方案的,就是说,根本不记录你说了什么,也不去分析你说了什么,只要你说出了特定词,那么就会被唤醒,只不过这个唤醒不是亮屏幕之类的,而是推送逻辑被唤醒给你推送相关物品。
再举个栗子,假如是外卖类APP,这种唤醒词库可能包含【奶茶】,【披萨】,【烤串】,【麻辣烫】,【哈密瓜】等等等等等等词,只要你说出了类似的词汇,那么可能就会唤醒推送。
例如OTA类APP,这种唤醒词库可能包含【旅游】,【泰国】,【签证】,【酒店】,【度假】等等词,只要你说了类似的词,那么可能就会唤醒推送。
再例如购物类APP,唤醒词库可能包含【口红】,【靴子】,【裙子】,【水果】,【笔记本】等等等等词,只要你说了类似的词,那么可能就会唤醒推送。
每个APP的词库,可能都有数千乃至数十万的词,基本覆盖了你可能性的消费场景,磨刀霍霍。
很多很神奇的功能,拆穿了也就那样,就和魔术一样。
一个唤醒脚本+词库的事情,给搞的那么神秘。
挺魔幻的。
虽然词库唤醒逻辑是比较切合实际的方案,但是在实际的信息收集中,有更多更主流和有效的信息让商家们知道你是谁,要怎么卖东西给你。
这些你忽略的东西,才是真的关键,我随便提2个简单的。
第一个是输入法。
谁知道你的一切?当然是输入法了。
别总是怀疑什么APP监控你的聊天记录,你首先要怀疑的是,你的输入法有没有卖你。
只要你打字,你一定躲不过的就是输入法,你输入了什么内容,在什么地方输入(搜索引擎?社交软件?地图?短信?卖家讨价还价?),这对于输入法都是透明的。
而且你经常输入哪些词,代表了什么意思,并不难获得或者分析,上面说的语义分析难是真对纯音频的,纯文本的语意分析可是相对成熟的技术。
另外所有输入法都是越用越好用,越用越懂你,那么,到底是怎么懂你的?
可以思考下。
第二个是推送SDK。
什么叫SDK?你可以理解为是软件包,嵌入APP中执行特定功能的特定模块。
最流行的SDK是推送类SDK,就是你手机收到的各类APP推送消息,是有专门的公司做成SDK嵌入到各大APP里,然后专门负责推送,比自己开发要好用很多,而且专业SDK往往对于各类手机和应用的适配做的很好,所以一般APP都是外采推送SDK的。
你手机上30个APP,可能都是同一家公司提供的推送SDK,那么对这家公司而言,你的手机基本是透明的,而且很显然会知道一台手机到底装了哪些APP,用户到底常用什么APP,甚至用户对于手机的应用轨迹,应用行为。
这些行为就可以被做成标签,然后打包交易,这个市场目前很成熟。
国内推送SDK的巨头,不超过5家(最大的就3家),对外出售标签数据都挺积极的。
你看,当你知道输入法和SDK的时候,你对于世界的认知会发生变化。
当你收到广告的时候,你甚至可以去分析到底是哪个卖了你。
是搜索引擎还是你在搜索引擎时候用的输入法,还是监控你手机APP活跃度的SDK,还是你的一些语言出发了词库?
很多人其实被卖的时候都不知道自己是怎么被卖的。
猜谁卖你这个事情其实很有意思,只稍微有点黑色幽默。
本文只是简单科普一下录音的谣言以及最基础的信息收集渠道,很多更隐蔽甚至更有想象力通过逻辑勾稽来做用户画像的方法还没有说,主要是真的说起来可以写本书了,书名叫《作者已被各大公司吊起来打》。
数据收集,画像制作以及广告推送的技术以及产品逻辑,这些东西其实也不是什么秘密,甚至有专门探讨广告推送逻辑原理乃至策略的技术书籍。
这是一个严肃的科学,高科技韭菜学。
我认可技术无罪,但是我同时也认为技术需要约束,或者说技术背后的人,需要被约束。
在这个人人都近乎透明的年代,我们其实需要对所谓大数据加以警惕,也需要法律约束。
因为数据可以让生活变得更方便的同时,失控后也会造成灾难。
当我知道你的一切数据的时候,某种程度上,我比你还了解你,我就是你。
所以需要约束人的行为,所以需要增加作恶的成本。
毕竟人,是复杂的;人性,是自私的。
我不希望有一天,我们成为大数据下的棋子。
被设计好的世界,恐怕也不再有趣。