中国工程院院士陈鲸,10月22日在“链上未来·2020中国区块链产业发展峰会”上,发表了《站在全球视野高度,谈谈大数据深度应用带来的挑战与思考》主题演讲。本文根据演讲发言整理,有删节。
陈鲸,通信与信息系统专家、中国空间监视技术领域主要开拓者、中国工程院院士。西南电子电信技术研究所研究员、博士生导师。解放军信息工程大学、国防科技大学兼职教授;成都电子科技大学极高频复杂系统国防重点学科实验室学术委员会主任。
演讲现场
大力弘扬数据文化
数据文化的本质,是尊重客观世界的实事求是精神,数据就是事实,就是强调用事实说话、倡导理性思维的科学精神。
要让大数据走上健康的发展轨道,首先要大力弘扬数据文化。数据文化不只是大数据用于文艺、出版等文化产业,而是指全民的数据意识。
全社会应认识到,信息化的核心是数据,只有政府和大众都关注数据时,才能真正理解信息化的实质。数据是一种新的生产要素,大数据的利用可以改变资本和土地等传统要素在经济中的权重。
大数据认识论认为,数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。提高数据意识的关键是要理解大数据的战略意义。
从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,数据技术与数据产业的落后,将使我们像错过工业革命机会一样延误一个时代。
大数据的价值主要体现在它的驱动效应,即带动有关的科研和产业发展,提高各行各业通过数据分析解决困难问题和增值的能力。
数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,而是对其他行业效率和质量提高的贡献。由于大数据是典型的通用技术,理解通用技术要采用“蜜蜂模型”:蜜蜂的效益主要不是自己酿的蜂蜜,而是蜜蜂传粉对农业的贡献。
以此类推,大数据研究和应用要改变过去各部门和各学科相互分割、独立发展的传统思路,重点不是支持单项技术和单个方法的发展,而是强调不同部门、不同学科的协作。
陈鲸院士
数据科学不是垂直的“烟囱”,而是像环境、能源科学一样的横向集成科学。
但是,从复杂性的角度看大数据研究和应用,仍面临许多挑战。大数据涉及复杂的类型、复杂的结构和复杂的模式,具有很高的复杂性,使对图文检索、主题发现、语义分析、情感分析等数据处理工作十分困难。
大数据的复杂性还体现在数据之间的相互关联上,因为它不能像处理小样本数据集那样做全局数据的统计分析和迭代计算。因此,在分析大数据时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。
大数据应用,本质上是在给定的时间、空间限制下,如何“算得多”。从“算得快”到“算得多”,考虑计算复杂性的思维逻辑有很大的转变。所谓“算得多”并不是计算的数据量越大越好,需要探索从足够多的数据,到刚刚好的数据,再到有价值的数据的按需约简方法。大数据对现有的信息技术体系提出了一系列挑战,孕育着体系重构和颠覆式发展的新机遇。
为了配合数据的基础性战略资源地位,亟需从法律法规、标准规范、应用实践和支撑技术等方面多管齐下,探索并构建完整的大数据治理体系。
大数据不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。专家埃里克·西格尔说:大数据时代下的核心,预测分析已在商业和社会中得到广泛应用,未来预测分析必定会成为所有领域的关键技术;专家城田真琴说:“大数据”指的是无法使用传统流程或工具处理或分析的信息,它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
那么,我们如何应对大数据带来的挑战?
大数据将成为各类机构和组织,乃至国家层面重要的战略资源。它的公开与分享成为大势所趋,政府部门必须身先士卒,机构组织的变革与全球治理成为必然的选择。
大数据技术提供了一种解困之道:
在管理的流程中,管理对象和事务产生的数据流,只遵循数据本身性质和管理的要求,而不考虑专业分工上的区隔,顺应了全球治理的需要。
世界正迈入大数据时代,随着互联网技术的不断发展,通信与各类信息之融合,使大数据成为一种重要资源,有利于推动创业创新。以下是大数据时代主要的发展趋势:
1、大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。
2、大数据时代的创业趋势的特征表现为:大数据服务走向订阅式定价模式,创业服务更个性,创业人群更普遍;开放数据和开源技术使创业门槛降低,创业机会大大增加;大数据技术本身的发展,带来全新的创业方向。
3、大数据时代下的创业热潮,需要政府大力支持,打破一切体制机制的障碍,让每个有创业愿望的人都拥有自主创业的空间,让创新创造的血液在全社会自由流动。建设数据开放型政府,建立数据治理制度,形成数据开放与共享的机制。
演讲现场
数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。什么数据需要保存,要保存多少时间,应当根据可能的价值和所需的成本来决定。
大数据界流行一种看法:大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化,实际工作中要重视。要将逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。我们不要攀比大数据系统的规模,要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据目标要远大、起步要精准、发展要快速。
体现在数据类型多样、要求及时回应和原始数据真假难辨。因此应关注以下四个方面需求:
1、多个来源的小数据的集成融合,可能挖掘出单一来源大数据得不到的大价值。
2、尽可能提高原始数据的质量仍然值得重视。
3、发展大数据不能无止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大众、公正法治的良好发展道路,比如绿色节能环保的问题。
4、发展大数据产业一定要坚持“应用为先”的发展战略,坚持应用牵引的技术路线。技术有限,应用无限。
首先应评估数据的价值和将会产生的价值,把数据和“智能化”相关联,把数据变成具有上下文意义的灵活的数据结构。随着时间的推移,根据这些收集了的大量数据,以时间为横坐标,以智能化程度为纵轴展现一幅绚丽多彩的智能数据图。大数据经过数据价值评估,智能关联和上下意义结构分析处理将成为智能数据。
智能数据如何产生?
1、首先要明确我们要发掘的“金子”是什么。用于记录、存储和分析大量的数据,以及以合适的形式显示该结果的“大数据”新技术。
2、如何成为“掘金者”?需要具有深入的分析、数学、统计、规划技能的数据分析师。如“首席数据官”(CDO)和数据分析师。
3、大数据本身需要有较高价值。经过“大数据”技术的处理(数据采集、数据分析、数据处理、数据显示等)之后才会产生较高的价值。要有新技术,人才培养,另外还要应用。
这也是一个需要重视的课题。重视多平台、多传感器、多网络各个环节的对数据的黑客攻击、非法入侵、勒索病毒、泄露或篡改,或者干扰污染破坏,保持对数据获取链路的从平台到传感器到网络多个环节的多层次生态环境保护。
对于以上提出的问题,我想给几点建议。推动大数据深化应用是属于战略选择,应加强以下几个方面的建设。
在大学相应阶段有针对性地增加相关课程,增加学生在感知技术、数据仓库、数据搜索、数据挖掘与可视化等领域的知识积累,扩大人才储备规模。
加大研发支持力度,整合云计算和物联网专项等项目,支持大数据技术的开发、研究和应用示范,引导企业加大研发力度,实现关键技术突破。
完善知识产权保护体系,促进数据共享和整合,推动数据价值创造。
尽快建设信息资源开放平台,促进信息共享与业务协同,努力为群众提供更方便快捷、更优质高效的公共服务,以满足各级政务部门经济调节、市场监管、社会管理、公共服务等方面的需要。
加强数据治理问题、保护用户权利问题,明确责任分担问题。全生命周期都要有人分担,涉及到政府、相关企业、运营商,一些使用者等等方面,各方面各自承担责任。
大数据应用前景非常广阔,学术界、政府、企业、商业界与全民都必须引起高度重视,做好大数据基础汇集工作,发扬数据文化:真实可信、重视数据质量,取之于民用之于民,实现数据“从群众中来,到群众去”的应用价值挖掘。