【SAS 大数据专栏】不要让错误数据毁掉你的可视化大数据分析

时间:2015-6-25

前言

作者:Felix LiaoSAS业务解决方案经理—— 数据管理,销售支持

 

我们现在正处于一个商用信息数据大爆炸的时代,现有的各种商用智能可视化系统每时每刻都在全力处理这些数据,力求助企业一臂之力。而今后这些信息数据量必然会继续膨胀,我们能够想象到未来企业的管理人员要在一天内掌握理解海量数据、对之进行可视化处理并洞悉重要的预见,最终做出业务决定肯定比现在难很多。那么,未来什么样的商用智能可视化系统可以适应时代发展呢?我认为,诸如SAS可视化分析(SAS Visual Analytics)这种依仗先进的可视化和嵌入式分析作为后盾的真正自助服务系统才能成功,这种系统应该可以给大数据分析带来革命!

 

http://mmbiz.qpic.cn/mmbiz/FRkgw8YVjRKj0v7CthiaeC1EBeEJGWleFRHMsLWTpuo9VfC8un0xHic2J8knicYIeDahTdZyHTLicBjQWRicEC4NVDQ/640?wx_fmt=jpeg&wxfrom=5

必须强调的一个问题是,获得数据访问权并在随后通过强大的图表表示分析结果的快速和便捷,却令围绕数据质量的问题发生恶化。如果数据分析师使用的数据是原始且干净的当然很好,但是通常情况下,当被可视化的数据质量不佳时,虽然输出结果可能非常引人注目和富有戏剧性,但却是在错误的方向上渐行渐远。为了说明这一点,请允许我举一个来自一场与新进客户讨论的例子——当然啦,我对数据进行了综合,以保护那位无辜的可怜客户!


我们在ACME银行部署了业务分析师,他们承担了通过分析客户存款来识别地区模式和总存款额排名前20位的客户的工作。这是非常适合诸如SAS Visual Analytics等数据可视化工具的简单但经典的任务类型。


让我们从使用一个简单的跨标签可视化功能,显示来自澳大利亚各州的总存款额开始吧:

 

http://mmbiz.qpic.cn/mmbiz/FRkgw8YVjRKj0v7CthiaeC1EBeEJGWleFic8HR2GhM9CSmxD2Ev3HDkC1eLOFWpkdac7icqZBWGwAFMhhkr4pHgFw/640?wx_fmt=jpeg&wxfrom=5

上图中这个可视化数据图一定会被内行嘲笑,各个州的名称是非标准化的,围绕此展开的分析意味着这个简单的跨标签视图基本上不可使用。New South Wales(新南威尔士,澳大利亚的一个州)在我们的STATE(州)字段中以九种不同方式表示,这在州字段被用于加总某个度量指标时会带来严重的错误问题。

 

http://mmbiz.qpic.cn/mmbiz/FRkgw8YVjRKj0v7CthiaeC1EBeEJGWleFfnbGI2eJE5J0kkpibFhsAgoicYd3C3Pw5JUMRy6J47qG9g4m9Gg8BaQA/640?wx_fmt=jpeg&wxfrom=5

此外,源数据只包含一个完整地址字段(FULL_ADDR)的事实,这意味着我们也不能使用城市来建立下一级地区加总,因为它已经嵌在FULL_ADDR自由形式文本字段中了。理想的情况是FULL_ADDR可解析,并且街道号、街道名及城市全都是在可视化中可用作附加字段的独立、标准化的字段。


对了,他们制作的前20位客户列表是怎样的呢?让我们看看:

http://mmbiz.qpic.cn/mmbiz/FRkgw8YVjRKj0v7CthiaeC1EBeEJGWleFlmXULb8If6dhrjVCvEYyFUzOQNcC98Im7trx65hpDW10k8QlxibUu6w/640?wx_fmt=jpeg&wxfrom=5

嗯……虽然按存款额排序的列表能够方便地提供需要的信息,但仔细检查可发现列表中有重复客户(姓名和地址键入时是略有不同)的问题。这可不行,这会严重影响我们建立真实准确的前20位客户列表,除非我们能够自信地匹配所有重复客户,并弄清楚他在银行的真实总存款额究竟是多少。

 

http://mmbiz.qpic.cn/mmbiz/FRkgw8YVjRKj0v7CthiaeC1EBeEJGWleFNWmc0LWVWabdlhhqDSeLQXlicqtZNUlUU7AwiaYjEVohiciaBKAphKoZhA/640?wx_fmt=jpeg&wxfrom=5

总之,你绝对不想使用这些由IT部门给你的错误数据与主要高管分享和讨论,不过最可怕的事情其实是这些结果对分析师而言是一个灾难。如果没有彻底的数据剖析过程,很可能还会有其它意料之外的事情在等着找你麻烦。


此后通常还会发生的两件事之一是,分析师可能发现理解其过于困难,因而放弃数据集、报告或者连数据可视化工具一起放弃。第二个事件通常涉及投入大量成本和努力,你会雇用一支程序员和数据分析师大军,意图通过程序编码解决数据质量问题,并且在这样做的时候并未深入理解建立可扩展和可维持数据质量的过程所涉及的真正成本


其实还有第三条更好的路可走。与其它更小众可视化工具供应商相比,SAS始终捍卫高质量数据在分析和数据可视化方面的重要性。SAS的广泛数据管理解决方案中包括成熟和综合的数据质量解决方案,能够实现自动化数据清洗、尽最大能力减少提供高质量数据的成本,并最终释放可视化数据的真正力量。


SAS
除了不可思议地强大和灵活以外,我们的数据质量解决方案还极容易被业务分析师掌握——只需最少的培训及关于数据清洗技术的详细知识就可使用。强大的数据清洗例程只需几分钟内即可构建和部署完毕,无需编写代码或程序,简单易用性不言而喻!


我使用SAS的数据质量解决方案建立了一个简单的数据清洗例程,以此来说明前面例子中描述的数据质量问题是多么容易修正。