前段时间,国家发展改革委印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》。我想数据行业的风口会越来越大,可能你也观察到数据行业微妙的变化:技术重心从“数据获取与存储”升级到“数据开放共享”;数据作为新的生产要素角色,性质在发生质变;数据已经变成一个企业的资产和负债,可能从“越用越贬值”变成“越用越值钱”。
以下是本文内容分类:
1)对数据中心的思考:程序员与炼钢师的合作
2)对数据中台的思考:从粗放式到精细化的转变
3)对数据赛道的思考:从技术到应用的进化
4)对数据存用的思考:数据已经成为企业的资产与负债
5)对数据智能的思考:AI = 数据+算法+算力
6)对数据主权的思考
7)对数据隐私的思考:隐私保护被推向荧幕
8)对数据安全的思考:将从“面向防御”扩大到“面向流通”
9)对数据业态的思考:一种手机数据的“理想国”
数据中心(IDC)是新基建的重点,发生在去年有几个比较重要的事件:
l 阿里巴巴
阿里云宣布,未来3年再投2000亿,用于云操作系统、服务器、芯片、网络等重大核心技术研发攻坚和面向未来的数据中心建设。
l 英伟达
英伟达在GTC2020上推出安培架构,并宣布首款基于安培架构、用于数据中心的GPU——NVIDIA A100已经投产并交付。英伟达抢占数据中心市场的目的十分明显:先是收购全球领先的数据中心和存储系统高性能互联解决方案供应商——Mellanox,后又推出针对数据中心市场的芯片。
l 腾讯
腾讯云宣布,未来五年将投入5000亿元在新基建,包括云计算、人工智能、区块链、大型数据中心、物联网、5G网络、音视频通讯、网络安全、量子计算等都将是腾讯重点投入的领域。其中,在数据中心方面,腾讯将在全国新建多个百万级服务器规模的大型数据中心。
“为什么阿里和腾讯巨资投入IDC市场,一份来自赛迪顾问的数据显示,2019年中国数据中心数量大约有7.4万个,约占全球数据中心总量的23%,数据中心机架规模达到227万架,在用IDC数据中心数量2213个。2019年,超大型、大型数据中心数量占比达到12.7%,规划在建数据中心320个,超大型、大型数据中心数量占比达到36.1%。这一数据与美国相比仍有较大差距,美国超大型数据中心已占有到全球总量的40%。”
国内做IDC基础设施建设是非常有趣的,以“互联网巨头+传统企业”联合打造为模式为主,比如杭钢股份和天猫、马钢股份和腾讯等等,我想是因为传统钢铁企业具备足够的场地、电力、冷凝、安全等软硬件基础设施,最重要的是这些传统企业都面临着业务转型需求,两者一拍即合。
数据中台的概念最近几年很火。往往我们听到更多的是后台和前台。和后台有什么区别呢?粗暴地讲,数据后台负责管理数据,数据中台负责运营数据。数据中台最核心的是OneData体系。这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。
数据中台产生的业务决策替代了大部分的前台业务“know how”,也就是我们常常说的数据模型。接着,数据模型开始驱动数据服务(“data service”)与业务决策(“how do”),这个“know how”与“data service”最终形成了企业的数据资产。VC市场常常会对一个有数据沉淀的公司估值那么高,很大的因素不仅仅是它有吸附数据的基因,更多地是看中因为数据而产生的无限价值。
过去很长一段时间,很多“大数据”部门只有后台和前台,大多数的数据资源“躺着浪费”。比如一个缺中台的营销公司,即使拥有精通数据库技术的工程师,但是要训练出一个牛逼的营销投放模型,谈何容易。
服务于数据行业的细分赛道在发生微妙的变化,在大的视图上通常分三个:大数据技术、大数据服务、大数据应用。我觉得根源也许是:“过去十年的数据安全重在防御,未来十年的数据安全重在流通。”
l 大数据技术
从2003年Google GFS论文发表至今,大数据技术经历了近二十年的发展已经相当的成熟与稳定,各种开源与企业级应用已经覆盖率绝大多数大数据机构。
l 大数据服务
这个竞争尤其激烈,有人说:“过去,只要你有一点运营商的关系,你就可以成为运营商大数据的代理商”,难道不是吗?实质上,大数据服务的这类公司,并没有创造新的服务,只不过是做了一些便捷。我觉得未来的大数据服务商,更多地是应该赋能数据拥有方和数据需求方、赋能行业机构,它的核心能力应该定位在对数据价值挖掘上,包括数据建模等能力。
l 大数据应用
数据开放流通应用已经被鼓励。随处可见,各行各业似乎脱离了大数据,一切的效率都满足不了需求。假设没有大数据,我们如何来识别疫情防控阶段的人流与去向,疫情期间的二维码就是大数据应用在疾病防控上影响最广的案例,运营商通过分析个人手机的LBS数据,绘制出个人的出行地址,并给出是否出现在高位风险地区的红码报警提示。如果脱离的大数据,显然这样的高效率社会秩序的治理是无法实现的。
数据如果只是存储,不进行运营,高额的存储成本如果没有提升业务的效能,那只会变成企业的负债。
这些年,国内数据中心目前处于“重建设轻运营”的状态。甚至是企业内部的微型数据中心,缺乏数据分析能力的团队更多地“为存而存”,更多地技术停滞在服务器和存储硬盘的投入、在做数据的抓取或者录入、在做结构化和非结构化数据库的管理和升级。企业机构在选择如何存储的技术上,从关系型到非关系型、从本地到云等维度都进行了技术升级。简单地来说,过去企业完成了存储方式的技术升级,同时完成了数据库安全的管理。除了量化运营的互联网企业,更多的业务运营还停留在经验模式。我看到一些公司,试图加持大数据的概念,完成了数据的存储,但实际业务比如营销似乎并没有将数据的价值发挥到及格。
要完成数据存储到数据运营的推进,核心是人才,包括具有数据业务经验的业务经理、数据分析师等。数据仓库工程师的职责是按业务经理的需求把底层数据往上做表,做成支持业务的可视化工具(比如漏斗、曲线),数据分析师需要将业务投射到数据上,通过一些统计算法、机器学习、深度学习等工具得到一些量化指标,这些量化指标将成为决策业务的一种依据之一。比如,电商平台通过用户画像得到用户兴趣偏好,系统自动推荐兴趣度更大的商品;通过行为数据分析得到用户习惯的消费时段,系统自动发放营销卡券等。当然在今天,掌握核心精细化运营能力的互联网企业已经做的很好,但是依然存在很多企业并非像这些优秀的互联网企业这样做的美妙与高效。
如何用的好,面临对数据业务人才的缺口压力。我比较倾向说这样的角色叫“数据业务架构师”,他解决一个企业“业务+数据”的漂亮升级。这种人才画像,要求不低,简而言之,行业稀缺的原因是:懂数据的不识业务、懂业务的不识数据。
l 数据,从“软件输出”到“软件输入”。
数据已经成为人工智能的一个输入,从人工智能的角度来讲,软件范式从“确定、函数、数据”变成“数据、函数、预测”,AI完成了一个大规模历史数据来推导决策函数的过程。
人工智能并非必须得到数据本身,目标是数据内在的知识和价值。还是拿信贷风控来举例,放贷机构的本意并不是要得到用户各种维度的数据,在意的是这些数据联合训练建模后得到的信用评估。这就是一个典型的人工智能赋能于金融的业务场景。人工智能在过去很长一段时间并未对数据做很好的保护,今天看因为数据安全问题,导致很多本来已经看似很智能的业务遇到了瓶颈。如何在既保证数据安全的前提下,又能最大程度地把数据利用起来,成为人工智能面临的最大难题之一。
l 算法,从“数据集中式”到“数据分布式”
“数据、函数、预测”的推导过程,一定逃不出大家熟知的算法。从古老的统计,到借助于机器学习,再到深度学习,这些算法都在试图对大规模的样本进行按业务场景的分类、拟合。预测与判断在机器替代人脑上最重要的事件,无人驾驶汽车需要预测向左还是向右行驶,智能空调需要判断是不是要自动开启空调给客厅降温,银行风控决策系统需要判断借款人员是否会按时还款,能给出预测和判断的原因是通过一些统计学范畴的算法,对已经存在的实际数据进行大规模的训练,得到预测模型。
算法的拟合效果(我们叫训练效果与测试效果)是否表现优异,和数据有极大关系,和算法选型上也有关联。比如银行风控就比较适合用LR算法,强调业务的归因和可解释性;营销就更适合树类算法,对更大数据量和特征规模的处理表现出优势。
在AI里面,机器学习和深度学习算法已经渐渐成熟,但是这些成熟更多地表现在“数据集中式”的训练过程。因为数据孤岛导致的小数据割据,分布式算法必将成为未来解决人工智能的核心技术之一。
l 算力,从“面向数据”到“面向算法”
云计算,近几年的行业规模增长表现突出,中小微企业将计算资源采用租赁的形式,以更廉价、更快捷、更稳定的方式获取。微软在PC时代,鲍尔默“坚持以windows为中心”,(认知囚牢),后来纳德拉将PC端转移到云服务,最终拯救了微软。放眼世界,亚马逊成为云计算的帝国;回看十年,阿里云历经艰难终见曙光,王坚博士荣升为院士。云计算在世界与中国都表现出非常好的成长态势。
人工智能终将用算法对数据进行计算,这个过程需要更快的运算能力和更廉价的硬件成本。过去云计算大多面向企业、面向数据,未来的云计算将面向算法、面向场景,作为一家营销机构,可以直接在云计算平台以最高效廉价的方式得到预测结果,可称之为“营销云”,这是算力与算法的深度融合。
数据的主权到底归谁所有,这里不作过多阐述。但如果是涉及到用户个人的数据,这个数据的主权必须是用户本人的。 拥有用户个人数据的企业,应该需要得到用户的授权,才可以有“拥有权”、“使用权”。拥有可能代表企业能存储,使用可能代表企业可以分析数据,反刍给用户,给用户带来更好的体验。除了法律法规对数据的使用约束,数据确权更需要技术来加持,区块链技术也许是确权的利器。
都说过去十年,是移动互联网带来的“互联网2.0”时代,的确,“移动”给人们的生活方式带来巨大的变革:手机成为比爱人更重要的伴侣,我们已经习惯“身无分文”地去马路边扫二维码买烤红薯,习惯随手拍下一段视频分享在自己的社交圈,习惯在缺钱的时候填写简单的身份信息就能获取一笔贷款……人们生活质量提升这一切发生的太美妙,但是大家也没有任何隐私可言,这让隐私保护也被推向荧幕。
过去,大部分数据安全科技领域的科技公司,都着重解决企业数据的存储安全、入侵防御,这是必要的。由于金融科技的暴力发展,在数据流通使用过程中出现了极其恶劣的用户隐私泄露问题,行业开始重点关注数据流通环节的安全问题。
面向数据流通,核心技术是隐私计算(安全计算),它解决了企业与企业之间数据流通的安全问题。隐私计算,指在保护数据本身不对外泄露的前提下实现数据分析技术的一类信息技术,主要分为可信硬件和密码学两大领域,也就是这两年大热技术:隐私计算。
隐私计算这两年真的太火爆了,现在已经近百家做隐私计算技术的企业。
很多手机自带的钱包似乎并没有想象的那么有用,但是我觉得:手机钱包有可能是用户控制用户隐私信息是否可被“交易”最好的小金库。
天马行空一下:基本上的APP都会让用户授权抓取地理位置、安装列表、通讯录等,不同的APP鱼龙混杂,存在更多的APP其实并不是为了让用户体验升级。比如地图软件APP,需要用户授权地理位置才可以实时导航,这是“取之于民、用之于民”;再比如一个天气预报软件,让你授权地理位置的同时,也偷偷摸摸让你授权安装列表,这就有点其他意思了。
如果某天,设备授权抓取的口子全部由手机厂商来统一控制,开发者只能基于手机自带的钱包来做数据应用,用户可以通过手机钱包主动授权(打开或者关闭抓取数据的权限),主动授权设备厂商给APP使用个人隐私数据。被APP使用后,可以得到数据的佣金(只要你愿意被使用,你的手机钱包就在增值,这个时候什么华为钱包、小米钱包可能真的成为钱包了)。APP抓取用户数据被手机厂商从设备上切断,抓取数据的动作完全有手机厂商支配,成为一个开发者的安全计算平台,APP要使用数据,必须遵循手机厂商的标准化接口或者方式。标准与监管可以缩小到为数不多的手机厂商。
这可能还只是个美好的童话故事,但是表达了一个意思:数据业务只要你敢想象,存在无限的商业空间机会,创新与试错相当值得。