您的位置:首页 / 科技综合 /BigSheets

IBM BigSheets分析软件保存稍纵即逝的网络资料

ZDNetnews 更新时间:2010-03-01 13:00:58作者:CNET科技资讯网

本文关键词: BigSheets | IBM |

CNET科技资讯网3月1日国际报道 IBM上周宣布,正与大英图书馆(British Library)合作一项计划,用以保存和分析网络上稍纵即逝的庞大信息。

近期的研究估算出一般网站的平均寿命为44至75天。以英国为例,每6个月约有10%的网页永远消失。这些大部分是个人网站,似乎损失不大。但对于试图建档、纪录选举过程、新闻、媒体和视频网站而言,这类资料流失构成重大挑战。而即使你拥有这些资料,仍有使用性和格式支持等问题。

这项新的分析软件计划IBM BigSheets,将协助民众利用浏览器汲取、注解、和具体分析庞大的网站信息。大英图书馆正使用该软件原型建档和保存大量的网页,以确保这些资料不会随时间消失。

这不是简单的工作。大英图书馆持有英国与爱尔兰境内生产的每一种实体出版品,包括1.5亿份以上的地图、手稿、乐谱、报纸和杂志,这些都必须归档。除了实体资产,大英图书馆自2004年起,开始选择性归建英国网络域名的网页。IBM新兴技术CTO David Boloker表示,通过BigSheets,未来图书馆的使用者可访问庞大的网站历史资料,并轻松地研究和分析他们询问的主题,得到可见的分析结果。

Boloker也透露,BigSheets软件是以几种开源元件为基础:

Hadoop—一种可靠、大规模的分散计算和数据存储架构。

Nutch—建立在Lucene Java之上的网络搜索计划,附加爬抓器、链结图形资料库、HTML语法分析器和其他文件格式的网络规格。

Pig—一种开源平台,用来分析内含高端语言以呈现资料分析程序的大型资料集,搭配评估这些程序的架构。

Boloker解释,BigSheets是一种私用的云计算服务,可与所有图书馆既有系统的 MapReduce工作并行。而虽然这是私用云计算(公众可阅览的私用云计算),大英图书馆会开放公众使用相关资料和服务。

现在的世界充斥可分析的资料,而愈来愈多政府机关和大型企业将继续寻求这类解决方案。许多下一代的分析工具是以开源软件,更重要的是Apache授权的开源软件为基础。

    

好看好玩

用户评论

用户评论

  • 用户名
  • 评论内容

CNET Networks
Copyright ? 1997- CNET Networks 版权所有。 ZDNet 是CNET Networks公司注册服务商标。
京ICP证150369648号 京ICP备15039648号-2
京公网安备 11010802021500号