摘要:对于甲骨文来说,其大数据策略的核心围绕开放平台、开源系统展开,支持Hadoop和NoSQL两种模式存储。而甲骨文Endeca则在结构化合非结构化两种数据类型中游刃有余。
ZD至顶网 3月26日 北京报道 (文/张晓楠):提起认知计算在大数据时代展现出的强大能力,远比讨论大数据本身的价值更有意思,因为大数据的价值已经毋庸置疑了。当不久前IBM把自己的大数据平台更名为Watson Foundations(沃森在最近非常吸引眼球),整合其大数据与分析能力的时候,甲骨文如何看待认知计算的未来?CNET记者采访甲骨文业务分析产品事业部副总裁Rich Clayton的时候,他表示:“认知计算不是一个新概念,已经存在40年之久,甲骨文不仅仅把其应用于学术,还要把其应用于商业企业。”在甲骨文看来,让认知计算在各行业都能有所应用和贡献更加重要,而甲骨文对此的态度就是更加的开放。
甲骨文业务分析产品事业部副总裁Rich Clayton
超越BI的大数据分析
其实提及大数据,现在大部分人已经知道分为结构化的数据和非结构化的数据两种,结构化的数据“进去”很难,分析“出来”很容易;而非结构化数据“进去”很容易,分析“出来”很难。在甲骨文的大数据系统架构中,把占大多数的结构化数据放在一个数据仓库中,对这个数据仓库利用商务智能分析(BI)获得结果,这种信息模型对于结构化数据的分析足够,这也是早期BI所做的工作。但是面对大数据时代对非结构化数据的处理、分析、决策的需求,就需要另外一种信息模型了,这时候甲骨文的方案体现了其开放性。
甲骨文将非结构化数据整合到Hadoop,Oracle大数据连接器优化了Hadoop与Oracle数据库和Exadata之间的集成,可以将Hadoop系统无缝地连接到Oracle数据库系统中,实现非结构化和结构化数据的拼接。在开源的Hadoop出现之后,客户和合作伙伴完全可以通过Hadoop和比较廉价的x86和存储设备,自行搭起Hadoop并存储海量的数据以实现对非结构化数据的处理。
对于这一细节,记者联想到了前一段被提及比较广泛的互联网时代对IOE(IBM小型机、Oracle数据库与EMC存储设备)的挑战甚至去IOE的话题,其实在甲骨文的系统架构蓝图中,其传统的数据库系统是拥抱互联时代的开源技术和开放平台的,因此甲骨文不惧去IOE的原因可能正在于此。
在帮助客户搭建大数据处理平台方面,甲骨文推出Oracle大数据机,构建方式包括Oracle使用x86和存储,安装Hadoop企业版本和Oracle NoSQL 数据库,其特点在于快速和低成本。
Endeca横跨结构化非结构化数据
在甲骨文支持Hadoop和NoSQL两种模式存储的同时,对结构化数据和非结构化数据的跨平台分析远比存储难得多,这里必须要重点提及甲骨文几年前收购的公司——Endeca。Endeca的最大特点在于它能够快速、直观地搜索和分析无论结构化数据还是非结构化数据,这种分析可以完全与传统的BI系统并用。
对此,Rich Clayton举到目前马航飞机失联的例子。“已知的任何一种信息模型都无法找到蛛丝马迹,这并不稀奇,新问题的出现总需要新方法来解决,我们能做的是把数据收集起来,而不是预先设计某种模式。”
但是具体到Endeca的威力,他认为正适用于这种情况,为此他又举了一个丰田汽车的例子。“几年前我们知道丰田汽车的加速器出了问题。在丰田内部,采用了三个结构化数据的解决方案,分别是关于零件、车辆和客户,但是没有任何一个数据分析结论能够解释为什么加速器会有问题。当时丰田面临两个选择。第一,建立一个新的结构化数据仓库,包括把外部的客户投诉结合进去;第二,把现有三个结构化数据混合在一起,通过Endeca实现非结构化数据的分析。如果丰田采用第一个方案,需要18个月的时间,花费300万美元;但如果采用第二个方案,只需要六周的时间,因为它不需要新建一个模型。”
三大措施让数据进得去还要出得来
在大数据时代,我们面临的最大挑战就是产生的数据远远大于我们使用的数据。调查显示,只有12%的高管了解自己公司产生的数据对其的影响,更不要提在别的组织或者外围产生的数据了。
Rich Clayton认为,面对数据种类的迅速增多和数据的爆炸式增长,我们可以采取三个措施:首先,需要选取专业的产品实时处理产生的数据;另外,要有全新的大数据分析方法,用于分析非结构化数据,并使机器具备学习能力从而进行预测,这个要求远远高于目前的BI的能力;第三,我们需要一种度量或新的指标来衡量业绩,比如采用大数据来预测消费者的情绪,或者用来预测机器出故障的概率等,这些都是目前不能实现的功能。
甲骨文的大数据战略是帮助客户使用收集到的数据,具体的解释为:帮助客户提高对信息的使用;帮助客户快速解决新问题;帮助客户提高预测准确性;帮助客户建立数据储藏库,并建立结构化和非结构化信息的逻辑关系。