资讯
2016/11/17 15:08

数据淹没时代,技术何以驾驭

0
0

本文作者:安东尼.斯格非亚诺(Anthony Scriffignano)  - 邓白氏公司高级副总裁兼首席数据科学官   第三届世界互联网大会大数据论坛演讲嘉宾

数据淹没时代,技术何以驾驭

法国哲学家让·布里丹曾提出一个通常被称为“布里丹毛驴效应”的悖论。对该悖论的一种演绎是:将一头毛驴拴在完全等量的两堆草料的正中间,由于毛驴无法作出理性选择,始终无法分辨哪一堆草料更好,它最终饿死了。当然,在现实世界中,我们总是想当然地认为毛驴无论如何总能“选择”一堆草料。我们认为这样的情况才是正常的:鱼类似乎能“选择”遨游的方向,鸟群也貌似能“决定”是否迁徙,而数据也能“说明”我们希望证明的东西。但这其中哪一样是不同的呢?答案就是数据。数据无法自己“行动”,也不会在意是否能为我们所用。选择权全在我们身上,难的是我们要如何理性地选择要使用的数据和使用数据的方式,并判断数据何时是充分的,何时是“正确”的。错误的选择将带来严重的后果,而正确的选择则会让我们受益无穷。

让我们先来了解一些事实。众所周知,现在的世界已经被数据淹没。每天我们都创造出比前一天更多的数据,而且数据增长的速率已经无法被衡量或用建模说明,我们已经失去了识别边界的能力。创造数据的地方已经不再仅仅局限于常见的互联网或企业服务器,设备可以产生数据,云平台可以产生数据,那些或许有或许没有被捕捉和储存的信息流同样可以产生数据。而且有些数据产生过程中还经过特意加工,如果不利用特殊的工具或权限是无法识别的。对物联网来说,“物品”与其他物品对话,并且产生只有那些物品才能看到或者使用的数据。数据方法能在十年之间发展到如今的态势,这一切的确猝不及防。海量数据将带来三点不便:

1 即使“可发现”数据在以前所未有的速度增长,企业和组织仍在拼命利用手头已有数据

2 可用于解决商业问题的数据非常多,几乎没有限制,但治理和监管的合规性要求却让引入新的数据类型越来越难。

3 我们需要极其高超的技能才能了解见所未见的新数据,这与助力我们获得成功的既往技能都有所不同。

手头已有数据 – 飞机和花生酱引发的思考:最近,我所乘坐的航班由于机械故障发生延迟。在这种情形下,航班面临的问题非常棘手,他们需要预估延迟时间,并尽力顾及和平衡航班条例、乘客联络、设备可用性以及其他许多因素。在解决这个问题时还会涉及一些人为因素。而对我而言,真正需要了解的是:我会被延误多长时间?  我是否有时间暂时离开登机口做些其它的事情?我是否有时间找到一个安静的地方工作一会儿?在那个时候,因为航班会延迟两个小时,所以这些问题的答案是肯定的。就在我闲逛到离登机口很远的地方(现在看来是个糟糕的主意)时,也就是下午3:50时,却突然接收到一则短信,通知我我的航班被推迟到了 3:48。我已经没有时间去仔细思考这个时间差了。我立即飞奔到登机口,结果却发现一切还是原来的样子,看来发送信息的航班通讯系统并未与其它数据系统进行有效连接。因此红色预警得以解除,飞机还没有来,这只是一个错误的警报。

现在当我回想起这个情景时,会觉得有点滑稽,但当时感觉却不是这样。我们对客户或同事做过多少次同样的事情?又有多少次我们所构建的精密通讯系统功能失灵,导致得出错误的结论或发出错误的信号?我发现越来越多的高级管理者要拼命地从企业或组织内部已有的数据中理出一些头绪。有时,他们只是感觉手头的数据已经太多,因此没有兴趣去了解更多数据。

这个情况很危险。我们不能单纯地“选择一堆草料”。未经分析而草率地认为手头的数据已经足够我们做出有针对性的决策,这显然是不合逻辑的,我们必须比较这三个层面的信息:手头的数据、可用于解决此问题的数据以及已知存在却无法获取的数据(如隐藏的、机密的、未公开的数据)。只有以合理的方式评估了这三个不同数据组的相对大小和重要性,才能算做出了基于足够多的数据的决定,这个决定才算是理性的。

众所周知,计算机科学中存在一种被称为“决定性阈值”的现象。它指向一个点,在这个点上现有信息足够帮助人们做出决策。但是,这并不意味着这个决策是可以复制的或者有效的。试想一下,我问你是否喜欢花生酱,但你其实从未品尝过花生酱,因此你没有足够的信息来回答我。在确认你对花生酱不过敏后,我给了你一勺花生酱品尝,你可能喜欢,也可能不喜欢,但你当时可能觉得已经拥有足够多的信息(决定性阈值)来回答我的问题了。然而,后来你了解到还有奶油味花生酱和浓味花生酱时,你知道你的信息仍然不够,因此要求品尝另外一种,然后发现有些花生酱是咸的,而有些不是。就这样尝试直到某个阶段,你发现所有这些风味并不能改变花生酱的本质,因而可以停下来,并理性地判断你对花生酱的感觉,而不必品尝所有可能风味的花生酱,你明白了你可以回答“是否喜欢花生酱”这个问题,而不是“是否喜欢所有风味的花生酱”的问题。如果不深究数学或哲学理论,这个故事的寓意在于:

○   基于对手头的数据的了解,我们可以使用这些数据做出决策。但是,我们必须对在决策过程中未使用的数据有一些了解,才能明白我们所做出的合理性决策的局限所在。

治理和监管合规性 – 坏人与沙拉自助吧。治理基本可以归结为三条经过时间检验的建议:“告诉别人你要做什么、执行、证明做到了。”当然,对那些基于数据的决策制定,在第一步决定做什么的过程中还存在许多细微差别。我们甚至可以在考虑规则和规范之前,先去了解已有的最佳实践及其合理性。我们必须决定哪些信息应该被企业吸收,以及我们通过什么方式获取、评估、存储和使用这些信息。这些即成为未来行为的规则,而治理就是确保我们遵守这些规则的过程。

目前看来,这条建议似乎简明扼要,但试想一下当治理体系被前所未见的数据洪流所淹没时又会发生什么情况。一些“大数据”的倡导者可能会建议去吸收尽可能多的数据并使用无监督式学习等方法来了解数据的意义。这是一个危险的建议,类似于试图吃光沙拉自助吧的所有食物。而实际风险是,某些数据应该永远不被允许进入企业。我的建议是,我们需要首先采取一些措施确保我们“正在做我们说过要做的事情”,例如通过审视数据被创建的方式以及应包含的内容,并抽样调查受控环境中的少量数据以确定数据中包含了与承诺相符的内容。在吸收大数据之前采取类似的适当措施可避免重大的、甚至无法恢复的错误发生。

当然,即使我们认真遵守规则,体系自身也会发生变化。在治理方面,我们还必须考虑监管环境的变化。例如,涉及电子通信隐私保护的第一则法律是在互联网改变人类通讯方式之前制定的。许多时候,法律都会明显滞后于技术,立法者可能会受到政策变化的影响,因此我们必须从治理的角度对所做的事情进行仔细、持续的重估,使其不仅与内部政策保持一致,还能顺应不断变化的外部监管。有时,这个过程会非常麻烦。

再考虑一下寻找不良行为的情形。坏人很狡猾,他们会不断变换伪装,使得我们即使持续更新检测系统和流程也很难发现他们的不良行为。在科学领域,这类问题被称为“量子观察”效应,即被观察的事物由于受到观察者的观察而发生变化。甚至,对“坏”的定义也在随着时间的改变或基于不同的地域和不同案例而发生变化。制定治理流程时,我们应该去了解那些可能允许获取的数据。而在制定检测(或预测)不良行为的流程时,我们必须以获准的方式使用数据,来检测不受这些规则约束的不法行为。也就是说,我们只能以好的方式并用好的数据,来检测以不良方式行事的不良分子。这里的关键启示也很微妙:

○   我们必须以公开、敏锐的方式去发现、筛选和合成数据,以发现那些经常塑造或重新定义规则的行为和见解。

我们需要的技能 – 关于变化与尿裤婴儿。有这样一句老话:只有尿裤的婴儿才喜欢一直变换(换尿布)。事实上,企业所面临的所有海量数据都会迫使其领导者仔细审视组织内利用的技术。仅仅找到有助于“推动组织变化”的人员还不够,我们还必须确保所推动的变化方向是正确的,因为在这个飞速变化的时代,向错误方向发展将会付出昂贵的代价。我曾经参与过一次会议,一位领导者在会上提出为一个大型团队提供培训,因为他们的技术水平需要提高。“他们都是缺乏技能的工人。如果我们向他们提供了培训,而他们却离开了怎么办?”他喊道。于是我见到了迄今为止我遇过最聪明的顾问,他用完美的回答解决了这个困境,“如果您不提供培训,他们留下了,又会怎样?”如果我们对错误的问题寻根究底,则得逞的就会是我们的竞争者和罪犯。同样的,我们也很容易因疲于分析而无所作为,但这种决定本身就意味着要付出代价(无所作为通常意味着最具破坏力的代价)。

在数据时代推动变化的关键就是去平衡组织的近期需求与远期所需能力。像处理非结构化数据和非回归方法(如递归和启发式评估)的能力以及数据真实性判断这些技能都需要随时间推进而不断优化。我们必须投入一些时间去培养前瞻性的长期能力,以备将来不时之需。

同时,我们也不能忽略那些在短期内就能加强组织能力的技能,例如可视化、问题公式化、实证(可重复)方法和计算语言学。最后,我建议那些基于数据运作的企业和组织在考虑技术问题时参考以下三个方面:

○   思考你相信什么、你需要做出什么行动以及你将如何衡量和维持进步。

最后,最关键的技术是那些能为企业自身及客户提供价值的技术。作为这个数据淹没时代中的领导者,我们必须拥有比“布里丹毛驴”更高的智慧,将眼光放远到草堆之外。在我们所生活的这个时代,我们必须学习通过使用数据去完成非凡的事业,否则我们就会被具有更高技术和能力的人们所超过。机会会光顾那些有意识地用创新的方式使用数据的人。如果我们能够学会使用数据,则前景无可限量。

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销