CNET科技资讯网3月1日国际报道 IBM上周宣布,正与大英图书馆(British Library)合作一项计划,用以保存和分析网络上稍纵即逝的庞大信息。
近期的研究估算出一般网站的平均寿命为44至75天。以英国为例,每6个月约有10%的网页永远消失。这些大部分是个人网站,似乎损失不大。但对于试图建档、纪录选举过程、新闻、媒体和视频网站而言,这类资料流失构成重大挑战。而即使你拥有这些资料,仍有使用性和格式支持等问题。
这项新的分析软件计划IBM BigSheets,将协助民众利用浏览器汲取、注解、和具体分析庞大的网站信息。大英图书馆正使用该软件原型建档和保存大量的网页,以确保这些资料不会随时间消失。
这不是简单的工作。大英图书馆持有英国与爱尔兰境内生产的每一种实体出版品,包括1.5亿份以上的地图、手稿、乐谱、报纸和杂志,这些都必须归档。除了实体资产,大英图书馆自2004年起,开始选择性归建英国网络域名的网页。IBM新兴技术CTO David Boloker表示,通过BigSheets,未来图书馆的使用者可访问庞大的网站历史资料,并轻松地研究和分析他们询问的主题,得到可见的分析结果。
Boloker也透露,BigSheets软件是以几种开源元件为基础:
Hadoop—一种可靠、大规模的分散计算和数据存储架构。
Nutch—建立在Lucene Java之上的网络搜索计划,附加爬抓器、链结图形资料库、HTML语法分析器和其他文件格式的网络规格。
Pig—一种开源平台,用来分析内含高端语言以呈现资料分析程序的大型资料集,搭配评估这些程序的架构。
Boloker解释,BigSheets是一种私用的云计算服务,可与所有图书馆既有系统的 MapReduce工作并行。而虽然这是私用云计算(公众可阅览的私用云计算),大英图书馆会开放公众使用相关资料和服务。
现在的世界充斥可分析的资料,而愈来愈多政府机关和大型企业将继续寻求这类解决方案。许多下一代的分析工具是以开源软件,更重要的是Apache授权的开源软件为基础。
用户评论