神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:在如今的大数据时代,各个行业领域及企业的数据量都在呈爆发式增长。企业数据已经被广泛应用于盈利分析与预测、客户关系管理、合规性监管、运营风险管理等业务中。面对海量数据,选择最合适的企业级数据分析平台就显得格外重要。这篇文章,原标题是How can you choose the best data analytics platform for your company?作者Alina GHERMAN在文中介绍了如何为企业挑选最适合的数据分析平台,希望对你有所帮助。
图片来源:memegenerator.net
如今,市面上存在许多数据分析平台。要从中选出一个合适的企业级数据分析平台,这个过程可能会相当漫长。因此,到底该怎么挑选最适合的数据分析平台呢?
首先,我们需要明确选择标准,从而可以进一步做比较。这一步非常重要,因为选择标准将决定最终选择的数据分析平台。
在明确选择标准时,我们必须将如下因素纳入考虑范围:
现有技能、工具以及公司战略
不同类型用户所需的功能:数据分析师,数据科学家,运营服务业务员……
定价
基于不同公司的不同现有技能,用户友好型的标准和希望实现的功能存在不同的含义。
图片来源:memegenerator.net
对于一位习惯于编写代码的数据科学家而言,一个拖拽式编程的工具可能会减弱他的交付能力,因为他必须掌握这个工具的使用,否则他可能不会构建库和版本代码,也不会返回旧版本项目。
然而,这样的工具对于没有编写代码能力的数据科学家却可能很有帮助。
公司现有工具会影响你想要实现的各类连接:云连接,数据库连接……
公司战略可能会直接将你导向某种特定类型的工具,并且带来新的选择标准:SaaS,基于云的标准,开源标准……
此外,视公司战略而定,可能会出现以下两种情况:整个公司使用一种工具,而每一项小任务或每个小组都在使用不同的分析工具。这些都会对不同用户类型希望实现的功能造成影响。
通常来讲,各类用户无法真正了解平台到底能够实现的功能,他们也不知道他们真正的需要是什么,并且他们总是尝试让自己确信,这个产品几年之内都能正常使用。
因此,要分析用户真正希望实现的功能不是一项容易的任务。
图片来源:memegenerator.net
你能在以下提及的内容中找到一些你必须面对和处理的功能主题:
连接功能:平面文件,数据库连接,云连接器……
数据准备功能:标记,连接,排序……
数据科学功能:脚本和内置功能
数据可视化功能和数据可视化工具的连接
数据存储功能:实时存储,分批存储……
安全功能:认证类型,审计功能……
合规功能:锁定数据,数据可追溯性,数据留存……
我认为这是最难评估的方面之一。
对此,一个很好的例证就是,2020年12月,CentOS 8的有效支持时间突然从2029年缩减并提前到了2021年初。产品路线图需要根据大量技术观察来做预测与判断,而我们总是容易忽略这件事。
图片来源:makeameme.org
但是无论如何,我们都必须考虑产品路线图。对于我们选择的满足当下需求的工具而言,如果这个工具明天会被淘汰的话,那这绝对不是不是一个好的选择。因此,我们需要有清晰的产品路线图,以便于检查其是否和公司战略一致。
每一个数据分析产品都有单独的定价策略。视产品使用时长、使用人数、用户类型、团队规模以及功能等方面而定,产品定价都可能存在差异。
当然了,也有一些在许可方面不存在定价的开源产品,但这并不意味着,其整套产品都是免费的。毕竟,还会有服务器成本以及维护成本等方面的支出。
图片来源:memegenerator.net
因为产品有许多不同的价格比较参数,我们往往无法直接进行比较。最“简便”的比较方法是,就某个特定用例而言,每种工具大概耗费的成本是多少。
基于仔细筛选的选择标准,我们应该能够对不同的平台展开对比。不过,首先,我们需要选择可以用来对比的平台。
如果你认为这是一个很简单的任务,那么可以去看看数据和人工智能产业图谱。
2020年数据和人工智能产业图谱。图片来源:mattturck
对于这个任务而言,我觉得目前唯一可靠的方法包括以下几个方面:
分析魔力象限(研究顾问Gartner公司发明的在特定时段内对市场情况展开的图形化描述)
查看分析数据和人工智能产业图谱
在这个主题上展开更多的技术观察
与领域专家讨论:“专家”指已经做过类似选择的公司或者个人。
以上这些方法,都能够帮助你基于既定选择标准来比较不同平台并做出选择。如果这些方法没起作用,那就意味着,技术观察工作还不到位,因此还需要再重复。
图片来源:imgflip.com
为企业选择合适的数据分析工具并不是一个简单的任务。由于存在多种偏差,因此也很难去克服所有的偏差。其中,就包括:
确认偏误:有时,我们会忽视与已有认知产生矛盾的信息
合取谬误:有时,比起证据,我们更加信任直觉
结果偏差:有时,我们会忽视某些决策过程,转而过分关注于结果。例如,我们有时只注意到自己拥有一套完整的产品这个事实,却忽略了某些期待的功能。
我发现,克服这些偏差的有效方法是,尝试从多处获得反馈,从而形成反馈循环。
在确定选择标准和筛选出的平台过后,就可以展开比较了。
《星球大战》(Star Wars)角色对比。图片来源:Mary Sue
如果单单通过以上步骤,我们就能做出最好的选择,那就再好不过了。但遗憾的是,我认为这是不可能的,我们最多只能基于现有事实和偏差,尽可能做出最好的选择。
不过,不展开比较的话,我们可能就无法认识并克服这些偏差,这也意味着,我们在做这些选择的时候,只能靠运气,而非自身努力。
译者:俊一