如何高效智能识别主数据,这个方案两步就能轻松搞定!

美林数据技术股份有限公司
+ 关注
2023-06-28 13:58
1109次阅读
主数据管理

什么是主数据?
主数据(Master Data)是指满足跨部门业务协同需要的、反映核心业务实体状态属性的企业(组织机构)基础信息。主数据有两个价值,价值一是建立企业基础数据共享“语言”,打破各系统信息交互壁垒,使数据能够在多个系统内充分共享、高度复用;价值二是通过制定主数据标准,为业务报表编制、数据统计分析提供基础条件;通过主数据建设,能为企业在数据应用与管理奠定基础。


主数据是数据之源,也被称为企业的“黄金数据”,是数据资产管理的核心、信息系统互联互通的基石、更是信息化和数字化的重要基础。主数据管理重要性体现在它可以消除数据冗余、提升数据处理效率、提高公司战略协同力。通过构建准确、唯一、权威的数据来源,建立企业主数据标准管理体系,是提高企事业单位数据质量和数据资产价值的关键因素。
而主数据管理的第一步,就是对主数据进行识别。一般来说,主数据具有高价值性、实体独立性、相对稳定性、高共享性、识别唯一性、长期有效性的特征,常见识别方法是深入调研企业的业务状况和信息现状,但这类方法带来的问题也显而易见:

门槛高:依赖咨询顾问和外部专家;
见效慢:时间周期长,至少一个月起步;
成本高:需要咨询顾问、业务人员、IT人员共同完成人工咨询;
滞后性:业务出现问题后才会被识别出来。
面对这些挑战,企业该如何破局?

解决思路
明确了问题,就可以制定针对性的解决思路,想要高效识别出主数据,所采用的方案需要具备以下几个要求:

要大幅度缩短项目实施周期和成本;
要能通过技术或者工具的支持,快速识别企业各业务系统中主数据分布的现状;
要能够为企业业务和信息现状调研提供方向,实现看得见的价值。
想要实现这些要求其实也不难,通过构建机器学习模型,训练相应的数据进行主数据管理,就能够完美解决主数据识别的问题,快速了解企业的数据情况,为后续的主数据管理提供数据基础。但是这个过程涉及到数据抽取、处理、特征工程、建模等多个环节,对企业而言是个不小的挑战,有没有更快、更智能的办法?
Tempo主数据管理平台了解下!

解决方案
Tempo主数据管理平台是一个以业务驱动、智能辅助的企业级主数据管理平台,将主数据的实施方法论融入到产品能力中,满足不同业务角度的主数据管理需求,能够解决企业以传统模式治理数据带来的成本高见效慢的问题,打破单一的主数据管理思路,以最小的成本实现最大的价值。
主数据管理
△主数据识别算法方案框架图
Tempo主数据管理平台的主数据识别算法方案从两方面入手,先从企业各业务系统进行信息提取,再根据内置的算法进行机器模型的构建,最终实现对主数据的自动化识别。
第一步:数据库信息提取
主要围绕表、字段和字段值3个基本元素,并从表信息和字段/值信息两个维度对数据库基本情况信息进行梳理,梳理的数据能够对数据库有绝对高的解释度,进而为后续相关识别算法构建提供数据支撑。
同时,由于不同数据库的数据类型存在较大的偏差,Tempo主数据管理平台规定了统一数据类型标准,在字段特征提取过程中,分别对字段值的最大值、最小值和平均值都进行了提取,以便于进一步了解各字段值特征,增加准确度。
第二步:主数据表识别算法构建
主要以数据库信息提取结果数据作为输入数据,采用多种方式梳理及初步归纳主数据表的表征特征,融合综合评价模型及机器学习算法等关键算法,从而实现主数据表识别。
算法实现过程
Step1:数据输入
主要来源为数据库信息提取结果数据。
Step2:数据处理
数据处理过程主要是针对抽取到的数据库特征数据,通过筛选、合并、计算、异常值、缺失值处理等方式。
Step3:特征工程
针对不同的任务梳理出与目标结果相关的关键指标,这些指标的构建及确定将从业务、统计学等角度进行确定和选择。
Step4:综合评价/机器学习模型
基于当前数据情况,综合应用综合评价和机器学习模型实现主数据模型构建。
Step5:结果输出
将主数据识别结果分高、中、低三个等级,从而实现主数据表的推荐。
在此过程中,表数据特征是描述表主体信息的关键,Tempo主数据管理平台不仅可以识别到14种表字段值的特征,还基于Bert模型,实现了对事件、组织类特征表达、描述方式等其他多样性特征的识别。

方案价值
该方案在某煤矿项目上得到了应用,并通过分层+随机抽样的验证,以及人工标记+核查的复核方式,对主数据及参考数据的精准度和查全率进行了检验:
主数据精准度:65.1% ;查全率:100%
参考数据精准度:61.2%;查全率:100%

Tempo主数据管理平台的主数据识别算法还可以运用到以下场景:
1)建立企业级的主数据统一视图,识别各业务系统主数据,形成统一的数据信息,明确企业各主数据间的关联性;
2)协助企业制定统一的主数据标准和规范的管理制度与流程,从而保障主数据的产生与存储的准确性,数据的流转与维护的可控性,帮助企业建立一套完善、权威且高质量的主数据;
3)通过主数据的更新变化趋势等因素进行分析,可以一定程度上促进管理体系的不断完善和业务发展不断提升。
通过Tempo主数据管理平台进行主数据识别,可以帮助企业和组织更好地管理和维护主数据,提高数据质量和可靠性,同时也可以更快地进行数据分析和决策,从而提高业务效率和公司整体的战略协同力,为后续的数据共享和跨系统业务协同打好数据基础,保障企业数字化转型的顺利进行。

[免责声明]

原文标题: 如何高效智能识别主数据,这个方案两步就能轻松搞定!

本文由作者原创发布于36氪企服点评;未经许可,禁止转载。

资深作者美林数据技术股份有限公司
美林数据技术股份有限公司
0
美林数据技术股份有限公司
实力厂商
实力厂商
优质服务
优质服务
及时响应
及时响应
立即询价
相关文章
最新文章
查看更多
关注 36氪企服点评 公众号
打开微信扫一扫
为您推送企服点评最新内容
消息通知
咨询入驻
商务合作