大数据时代最热的三个关键词为:云、大数据、分析。云计算之热在此不必赘述,因为不管你看微博也好,浏览网站也好,如果三页看不到一个云字的话,那说明你一定不在IT业。
卢东明 赛贝斯软件(中国)有限公司技术总监
大数据时代最热的三个关键词为:云、大数据、分析。云计算之热在此不必赘述,因为不管你看微博也好,浏览网站也好,如果三页看不到一个云字的话,那说明你一定不在IT业。
可是,人们往往会看不透云计算,也不知道到底该怎样做、做什么样的事情。云计算如果不用来做分析的话,那么你只能云里来、云里去,永远没办法化云为雨。
何为大数据?何以据?
我们先一起看看大数据这个词发展的历史。
60年代的时候,人们提起数据这个词的时候,都只提Data。70年代创建了一个词叫Database,从数据变成了数据库,库这个词就显得很大了。1975年创建了一个词叫VLDB,80年代又创建了一个词叫Data Warehouse,数据仓库比数据库还要大。到了90年代,人们才开始对数据仓库里面的数据做了一些事情,叫做数据挖掘Data Mining。随着90年代末期中期到2000年这个新的世纪里面,互联网行业社交媒体还有云计算等等这些技术不断地发展,人们又觉得这些词都不够了,于是就有了大数据Big Data。现在在国外已经创建了一个叫Extreme Data,也就是说大数据也不够,还有极端数据,为什么呢?
在我看来,大数据不过是人们在三、四十年前对数据的理解,以及对数据管理和运用手段的不断提升,所以不要管这些词的叫法,我们先看看大数据都做了哪些事情。
以中国的某电信运营商短信业务的数据来看,每年7000多亿条短信,5年下来就是3万多亿,其实这些短信里面还是有很多价值可以挖掘的。想要挖掘这个东西难不难?3万多亿行数据,先不说这个表有多宽,先说做一些数学的统计、分析,就已经是一件非常困难的事情。
大数据的4V理论
目前业界对大数据总结出来一些特征,在这里,我用了4V理论来概括。
第一个V,数据量,它决定了大数据的基础架子;
第二个V,速度。既使在大数据的数据量的规模下,企业其实还在要求能不能够很快地把一些分析做出来。
第三个V,就是数据类型。过去我们在金融、电信行业里面经常做一些非常简单的数据集,比如说号码、姓名、年龄、主叫人的号码、被叫号码、主叫时间等很结构化、很整齐的一些数据。现在有大量的数据不是结构化的,是半结构化的,比如一些文字,微博上的信息如何去分析,这就是大数据要解决的问题;
第四个V,变异,就是不管人们怎么去想象这些数据,它随时还都是在变的,变动越快、越大,对我们的处理能力提出的挑战越大。现在大家手上已经不光是微博了,还有微信,已经加上了声音的信号,已经有图象甚至视频。如何通过一个短信或者说彩信的方式发出去,怎么样去处理这些信息,其实都是我们要面临的问题。
大数据需要分析云平台
分析这个词,是在大数据或是云计算里面,必须要提到一个战略高度来认识的词。如果你的云计算平台没有考虑如何对存储下来的一些数据进行分析的话,那你存的又是什么?如果你没有办法把这里面的价值挖掘出来的话,你怎么区分一个是金矿,一个是垃圾堆?我存了大量的垃圾能够有用吗?当然,没有用处的。
大数据面临的问题之一就是如何对数据进行快速地采集。数据的采集是非常困难的事情,对比现在的数据库水平和数据增长的趋势,可以看出,数据增长速度比我们现在数据库的处理能力要大得多。
这里,大家可以看到一些耳熟能详的关健词,像Hadoop、MapReduce,像Sybase IQ代表的列式数据库,还有Sybase Event Stream Processor事件流处理器,怎么样对流数据进行实时的加工,都是企业现在需要掌握的一些技术。
大数据的分析还有一些周边的、外延的工具,比如说像Matlab、SAS、SPSS或者现在非常火的Revolution R。开源的里边有Hive、SciPy,Mahout、AMPL等等这些技术,在不同的领域里面都有很多人在研究、在分析着。
信息价值的挖掘有很多方法论和手段,比如说怎么样去做社交媒体的分析,怎么样去做行为分析、情绪分析。还有就是业务场景上个性化的服务、个性化的分析、个性化的推荐等等。
现在的数据库市场在面临这么大的数据,这么复杂的数据类型,以及这么快的变化面前,已经不再是一统天下的格局,没有一个数据库产品,或者没有一种数据库产品可以完全地解决大数据的问题。未来的格局可能是什么呢?
在一个企业或者是像一个IDC这样的架构里边,必须要面临一个工具箱的状态,这个工具箱里面有各种各样的工具,每个工具的体验点都是不一样的,互相之间几乎是不可取代的。现在的数据库市场也面临这样一个格局,很多时候做OLTP,要用行式数据库,做大量的数据分析时要用列式数据库,因为它可以带来十倍、百倍的速度提高。
那么对大数据实时的处理,我们要用做数据流的分析数据库、内存数据库;在手机上或者说一些移动设备上要想做一些小的应用,我们需要一些嵌入式的数据库;还有面向对象数据库等等。在大数据的处理格局下,大家必须要接受这样的一个观点,就是专项的数据库用于解决专项的问题。
分析云需要注意的事项
海量数据分析的云平台,需要注意什么东西?它是按需分配的,这个和传统的云计算概念是很相似的,就是资源就像水龙头里的水一样,人们可以不用去考虑后面的水是如何加工出来的,只需要打开龙头就知道水会流出来。那么现在像SaaS、PaaS、IaaS等等这些技术,必须要做到低成本、高性能。怎么样更好地利用低端的硬件设备,而不是靠垂直扩展,能不能用低端的PC服务器搭成一个集群,将数据用何种方式来分置也好,统一管理也好,这是现在云计算或者说大数据分析必须要解决的问题。
另外,还要有丰富的数据类型的支持。在互联网和电信行业,面临各种各样新的数据类型的产生,企业需要能够处理各种各样的数据类型,同时备份和恢复也是一个容易忽视,但是又非常难、非常重要的一个问题。中国的很多企业在IT架构上,尤其在数据库平台上,都处于一个裸奔的状态,赌天不会下雨,数据库不需要备份。尤其是到上TB甚至几十TB甚至上PB的时候,怎么样做数据备份,怎么样能够持续地给你的用户提供这样的服务就值得思考了。
像亚马逊这样的国外大型互联网企业,他们在灾备或者是复制、恢复这些问题上,都是投入了大量的精力,而且有非常成熟的理论和方向,可供大家借鉴。
SAP 和Sybase领先的分析云平台
SAP公司在云计算、分析云平台上可谓是业界的领导者。在Gartner 2012年的数据仓库四象限的评比中,SAP旗下的Sybase公司列式数据库产品——Sybase IQ牢牢地占据领导者象限。
在数据库市场,新老技术发展方向还有着一个非常明显的对峙状态。老技术基本上是以行式数据库加上一些列式的存储或者说列式的索引机制来提高性能的,而以Sybase IQ列式数据库为代表的新技术,以优异的性能和低廉的成本,在数据仓库以及大数据分析领域,占据着非常重要的地位。
Sybase IQ,到现在已经是第15版了。那么,Sybase IQ在过去的一段时间里都解决了哪些问题呢?Sybase IQ解决了整个数据库平台底层非常强大的列式数据库的功能、数据的生命周期管理,以及面对数据的高速加载,对结构化和非结构化的统一处理。特别要强调的一点,在中文的环境里面,列式数据库现在就可以把中文的文本信息放到库里面做好分词的索引,然后可以和结构化和非结构化信息,在一个查询里面进行统一的查询,这是一个目前非常领先的技术,尤其对中文环境来说。
此外,Sybase IQ在数据库的平台上提供了很多重要的应用服务,比如说像上面提到的内置的文本分析、数据库内分析,还有一些WEB2.0的接口,还有大数据的开发接口,比如说像Hadoop、MapReduce,Sybase IQ都是支持的。另外,Sybase IQ提供了一整套的方法来扶持和扩充围绕大数据的一个完整的生态环境,比如说生态环境里面有各种各样的开放工具与监测工具,现在,Sybase IQ开放了很多接口,可以使大家把过去在类似像Hadoop或是MapReduce,或者自己写的一些东西可以直接嵌入到Sybase IQ里面来。
列式数据库有几个大的特点,在分析领域里面独树一帜。
首先是压缩。很多用户的数据从裸数据到行式数据库里面可能需要占有一定的空间,但在列式数据库里面,基本上会有将近10倍左右的压缩比,这些压缩比直接换到云计算平台或者说大数据的处理平台上,就是TCO。究竟是用10T来存储1T的数据,还是用0.5T来存储1T的数据?而真正的列式数据库的压缩,是没有解压缩过程的。也就是说,列式数据库以压缩的形式进行运算,所以整个运算的成本非常低。真正的列式数据库的运算效果相比行式数据库、甚至相比某些带了列式压缩的行式数据库,要好很多,而且还有着非常高的查询效能。
在这里,必须要提一下内存计算。我引用1998年一位图灵奖获得者的一句话,Tape is Dead, Disk is Tape, Main memory is Disk, CPU Cache is Main Memory。Sybase在3、4年前就已经不再推荐使用磁带来做Sybase IQ的备份了。
其次就是存储。举个例子,CPU里面有Level 1 Cache(一级缓存),它访问的速度只有1纳秒,就好像坐在家里沙发的我想喝一杯茶,最好这杯茶是在我沙发边上的茶几上,我一伸手就可以拿到。Level 2 Cache(二级缓存),访问速度为5纳秒,可以想象我是到了另外一个房间里面去拿这杯茶。Level 3 Cache(三级缓存)20纳秒,我是出了房间到隔壁的房子里去拿这杯茶,Main Memory是100个纳秒,好像是我要过马路,到另外一个房子里面去拿。而Disk就好像是从北京到上海,从上海到广州这样一个遥远的距离。
所以,大家要认识到存储永远是数据库的一个非常重要的载体,同时存储也是数据库性能的一个最大的瓶颈,如何能够提高存储的效率,如果解决了这个问题,就解决了数据库以及数据分析的效率问题。
另外,我还必须提到SAP的HANA。HANA是业界第一个完全基于内存的、高性能的分析服务器,专门用于分析的一体机,其内存计算对分析领域有着里程碑式的贡献。HANA把所有的分析都放在内存里面进行,整个架构非常地优越,可以有列式数据库,也有行式数据库,有内置的数据复制软件,也有各种各样的建模软件,是新一代的分析服务器。在HANA的架构下,我们可以对一个企业下面70几个分公司,几千亿条记录,50个TB的数据进行分析,而它的分析速度仅为零点零几秒,这个是以前不敢想象、也不敢去围绕这样的情境去提应用需求的划时代产品。
综上所述,SAP公司在硬盘级、内存级甚至加上CPU的缓存级,为业界提供了非常优秀的分析平台,在分析云、大数据的分析领域是一个非常重要的提供商。
Boost、维京移动联手推升级版Galaxy S3 支持LTE
尽管三星上一代旗舰Android设备Galaxy S3在最新Galaxy S4的光芒下显得有些黯然失色,但下个月,S3将加入Spr