为了缓解业务压力,加强对GPRS数据的分析挖掘,深圳移动搭建了以业内领先的列式分析数据库Sybase IQ 为核心数据库的GPRS数据分析平台。
中国移动通信集团广东有限公司深圳分公司(以下简称为:“深圳移动”)于1988年11月开始向社会公众提供移动电话服务,截至2010年底,客户规模突破1600万,运营收入连续六年超100亿元,市场占有率超过80%。近几年,随着移动互联网的发展,手机GPRS 流量不断增长,对于深圳移动来说,针对GPRS 流量的数据分析压力也越来越大。
为了缓解业务压力,加强对GPRS数据的分析挖掘,深圳移动搭建了以业内领先的列式分析数据库Sybase IQ 为核心数据库的GPRS数据分析平台,并通过了中国移动通信集团信令监测系统三期试验项目的性能测试,Sybase IQ 在处理大数据分析方面的强大性能得以在该项目中得到进一步验证与肯定。
项目背景
对于GPRS数据,目前深圳移动仅限于对网络数据总流量的分析,而缺少对数据业务的分类使用、行为模式、空间分布的等精细挖掘与分析。为袮补网络数据分析的空缺,同时为了更准确地掌握GPRS/TD数据业务的实际运行情况,进而针对性地开展业务精确营销、网络质量优化、客户投诉处理等工作,深圳移动与拥有移动通信技术成熟经验的广东宜通世纪科技股份有限公司(以下简称“广东宜通”)合作,开展本地数据业务分析挖掘工作,搭建GPRS数据业务分析平台。
作为Sybase的主要合作伙伴,广东宜通依托十多年来对移动通信技术的理解和经验积累,针对移动通信网络中存在的问题,为电信运营商提供多种形式的技术支撑、咨询服务、综合解决方案和质量监测系统等高技术服务。在深圳移动网络维护中心的数据网信令研究的基础上,广东宜通联合Sybase开展了本地数据业务分析方面的技术探索。
GPRS数据业务分析平台主要通过对GPRS网络接口(Gb口/Gn口)信令数据进行采集,完成信令数据解析、用户数据的归纳总结,实现对GPRS网络承载的各种数据业务进行识别分析及挖掘分析,将隐藏在海量数据中的黄金信息通过科学的技术与方法转变为直接的市场价值,同时通过对信令追踪、错误码分析方法为故障维护提供信令层面的辅助手段。
凭借Sybase IQ ,该平台实现了在大数据量实时加载的同时进行统计、分析和查询的系统需求,并节省了大量的硬件存储设备。此外,该平台还实现了对现有的WAP上网、IM、音乐、证券等移动数据业务的精细分析,并以此为基础开展了BlackBerry用户挖掘、IM业务对网络质量影响等专题分析优化工作,应用效果良好。
业务功能需求
根据深圳移动的项目需求,该项目要实现的业务分析功能主要通过对GPRS网络中承载的数据业务信息进行识别,实现对即时通信软件飞信业务、音频软件音乐随身听、视频软件万花筒、证券软件手机证券、彩信业务等业务数据的挖掘分析,并对区域流量、时段流量、区域用户数、时段用户数的分布进行统计分析,从中挖掘Top 100高流量用户信息。
此外,业务分析功还要以辅助市场策划、市场营销为主要应用方向,将用户使用数据业务的偏好、业务流量的分布状况在此功能中体现。
业务流程
数据业务平台是一个涵盖数据采集、解码、ETL数据清洗、预统计、入库以及复杂的数据查询等一系列功能的综合平台。
系统功能架构图
实施难点分析
系统每天处理的数据量非常庞大,目前每天处理的数据量超过15TB以上;
实时入库,同时要面对大量的统计和即席查询;
大量的定制任务,很多任务往往涉及的数据表记录数超过1亿条以上,并且涉及多表联合查询和复杂的group by 统计工作,这些都增大了系统实施的难度;
面对如此大的数据量,采用哪种数据库系统就成为了当务之急
解决方案
通过对目前市场上留下的几种主流数据库做对比测试,广东宜通最终选择了业内领先的Sybase IQ 列式数据仓库。对比测试的结果表明,Sybase IQ不论是数据装载还是查询上,在处理OLAP 的业务中比传统的行式数据库有非常高的性能表现,最快的查询速度甚至比行式数据库快1000倍以上;
Sybase IQ 是Sybase 公司专门为数据仓库类型应用量身定做的数据库管理系统,非常适合用于数据分析决策类系统以及No.7信令监测这种大数据量实时加载并同时进行大量的数据查询和统计分析操作类型的应用。Sybase IQ的主要特点有:
• 采用专利的bitwise索引技术,实现高取值度的bitmap索引,能够对关系型数据做快速动态的聚集计算以及按范围搜索;
• 采用独特的按列存储方式,有效减少磁盘I/O,消除表扫描,提高查询响应能力;
• 超凡的数据压缩能力,可以使数据只占到传统数据库规模的30%;
• 无处不索引技术,保证表中的每个列都有至少一个索引存在,使用者的响应速度比其他产品要快10 到100 倍。同时提供给用户9 种不同类型的索引,用户可以根据每列的数据类型、操作类型进行选择;
• 高速的数据带索引加载能力,使数据入库后就能够立即按照索引检索,提高了系统整体效率;
• 数据的大批量加载不影响其它的查询、统计和分析的操作性能;
• 数据大批量加载性能不随表中数据量的增大而下降;
• Sybase IQ Multiplex技术可以满足超级数据仓库 (VLDW) 的数据增长,可从一台小型机无缝地扩展到上百台小型机,并保证多机的总体性能基本呈现性增长;
• 支持ER模型以及多维模型;
• 标准的开放接口支持广泛的流行查询工具。
Sybase IQ 15.2 的特性
为了实现更快捷、更精准的分析,该项目主要采用“全球首个以文本检索和分析为目的的分析型数据库系统”—Sybase IQ 15.2 作为核心存储平台。该版本将拥有全文检索、联合查询以及Web分析功能。它可以通过分析将原始数据转化为可操作信息,以更快捷和更精确的方式提供业务答案和业务报表。此外,Sybase IQ 15.2是业界第一个以列式分析方式提供全文检索和联合查询的数据库,并引领该市场。
• 全文检索和分析——从目前禁锢在电子邮件、文件系统和其他非结构化格式中的内容中提炼出重要的商业信息。用户可以通过以下方式检索相关文件:检索多个术语或者其替代形式并计算一个术语在同一文件里出现的频率。
• 联合查询——为先前由于数据移动和限制而无法获取的信息提供快速访问通道。用户无需移动或复制数据到数据仓库中就可获取相关信息,实现了对组织内更全面的数据进行大范围分析和决策。
此外,Sybase IQ 15.2还支持下列新功能:
• Web分析功能——扩展了对当前占主导地位的Web2.0开发工具语言的支持,例如Python、PERL、PHP、ADO.net 以及 OLE-DB 等。这样,开发人员可以更快速简便地开发和检验原始模型并将动态分析应用软件拓展到Web。
• 实时加载功能——获取信息以便即刻用于分析。
数据业务平台的优势
以Sybase IQ 15.2为核心存储平台的深圳移动数据业务系统具有以下优势:
• 由于Sybase IQ 15.2 的垂直数据存储,系统减少了大量的磁盘I/O,消除表扫描并提供及时的查询响应;
• 具有强大的数据压缩存储能力,大量节约硬件存储投资;
• 实现了快速进行数据的带所有加载;
• 实现了数据加载不影响其他查询、统计和分析的操作,提高系统整体响应性能;
• 具有灵活的可扩展性,满足用户业务量的进快速增长需求,并能充分利用多机系统的资源;
• 提高了在海量数据中进行查询、统计和分析的操作性能;
总结
目前以Sybase IQ 15.2为核心存储平台的数据业务系统,已经在深圳移动稳定运行了2年多了,并通过了中国移动通信集团信令监测系统三期试验项目,其大数据量的实时处理与应用方案的可行性得到了可靠验证,为深圳移动数据业务提供了大量的统计数据做为市场决策依据,得到深圳移动领导的广泛赞誉。以此项目为基准,Sybase 将为更多电信用户提供实时有效的数据解决方案。
Boost、维京移动联手推升级版Galaxy S3 支持LTE
尽管三星上一代旗舰Android设备Galaxy S3在最新Galaxy S4的光芒下显得有些黯然失色,但下个月,S3将加入Spr