无标题文档
|
|
|
|
|
|
|
|
下一代互联网
  当前位置: 首页 > 最新动态 >
2006教育行业信息存储大会
--在北京拉开序幕
http://www.media.edu.cn 中国教育网络

3月10日,由教育部科技发展中心主办,《中国教育网络》杂志承办的“2006教育行业信息存储大会”在北京拉开序幕。来自北京以及周边省市各大高校、中职院校以及中小学的300多位网络中心主任、图书馆馆长,以及华北区域内地方教委信息中心的专家、教师出席了本次大会。

本次大会开幕式由本刊副总编辑、教育部科技发展中心技术市场处处长杨健安主持。教育部科技发展中心主任李志民博士在致词中指出:教育信息化的应用正在不断拓展,这带来了管理信息和数字资源的极大丰富。如何高效、安全、可靠地存储和管理这些“海量”信息,成为当今教育信息化建设领域的一大热门话题。

北京市教委副主任张国华在发言中谈到要加强北京市中小学在信息化方面的建设与应用。十五期间,北京已经完成了中小学搭建网络化学习环境、优先支持农村中小学建设、积极探索远程教育模式、提高中小学教师素养、建设资源共享等方面的大量工作。十一五期间,要在首都率先实行中小学教育信息化。

教育部高教司教学条件处处长李晓明认为,很多图书馆的资源都已经实现了资源数字化,如电子全文、二级文献、特色数据库、工具数据库等数字资源。对信息存储的重视,已经提到了议事日程上。

河北高校图工委秘书长杨华指出,随着教育信息化不断发展,必然需要存储技术支撑,更加需要最新技术、最新方案的交流。

ChinaGrid主要负责人之一、清华大学教授郑纬民作了精彩的主题演讲。除此之外,来自各研究机构的专家、业界知名厂商也都发表了演讲。

目前,教育信息化建设还存在着发展不平衡的问题,一些信息化应用建设较好、需求迫切的学校已经引入了专业的网络存储方案,为整个教育信息化建设带来了很有价值的参考经验。但是,在职业教育以及基础教育领域,信息化建设步伐相对较慢,建设水平存在着较大的地区差异,信息化建设的意识也有待加强。作为教育信息化基础建设中的重要组成部分,存储建设虽然是后起之秀,但它对数据保护的重要性,是学校不容忽视的。在信息化建设过程中,各学校的负责教师们也切实感受到,自己需要得到最新的存储专业知识、经验,以及与同行交流的机会。

本次大会还是一次教育行业存储建设的交流大会。大会邀请了国内权威网络存储专家、学者和长期活跃在网络存储实践第一线的专业人士,针对教育行业存储的特点、最新技术进行主题交流,并对网络存储技术的发展方向进行研究分析,深入探讨教育用户如何最有效地利用资金,选择最合适的存储建设方式。为了使各高校重视存储建设,获得更好的存储建设经验,除在北京之外,本次巡展还将在三四月间,在华南、华中、华东、西北等地区举办

 

郑纬民:应用是关键 存储不可缺

周济部长为教育部支持的网格起了一个响亮的英文名字ChinaGrid,中文名字也是简单明了的“中国教育科研网格”。到底什么是网格?形象地说,老百姓用电的时候,不用考虑电是哪里来的,怎么产生的,只需要接通电源。网格的使用也有类似之处,用户上网提交请求之后,只需要等结果就可以了,不用管资源是从哪里来的,结果是怎么算的。当然,实现这个目标还需要较长一段时间,这也是ChinaGrid努力的方向。 

 

前进中的ChinaGrid

ChinaGrid是由教育部发起,在十五“211二期支持下启动、得到国家科技部863高性能计算重大专项支持的公共服务体系。其目标是充分利用中国教育科研网(CERNET)优良的基础设施和它上面丰富、优质的各类资源,在中国乃至全世界建设一个最大、最先进、最实用的网格。

首批参加ChinaGrid的有12所高校,包括北京大学、清华大学、北京航空航天大学、上海交通大学、华南理工大学、东南大学、西安交通大学、东北大学、国防科技大学、山东大学、中山大学等。从ChinaGrid诞生到现在,两年多时间里,就已经发展到20所高校的规模,已覆盖全国13个省市中20所高校的计算资源、存储资源和教育科研资源。按照周济部长的指示,ChinaGrid将发展成覆盖100所“211”大学的为国家教学科研服务的大平台。

ChinaGrid聚合计算能力已经达到15万亿次,存储容量达150TB

ChinaGrid在第一期时已成功部署生物信息、图像处理、海量信息处理、大学课程在线、流体力学网格和数字博物馆等6类应用。在本文后面会有介绍。

ChinaGrid20个成员学校(将来还会增加)通过自己的机器和CERNET在物理上连在一起,但这样还远远不够,关键要有一个公共中间件平台,这就是我们开发的CGSP(ChinaGrid Support Platform),在这个中间件之上,才是生物信息网格、图像处理网格等应用。

 

CGSP的现状及国际影响

CGSPChinaGrid具有自主知识产权的网格核心中间件。它是由来自全国9所知名高校的42个年轻人,集中在清华大学国家实验室网格研究部,花了两年时间开发出来的。2004年该小组公布了第一个版本,这是全球最早公布的基于OGSA框架,参照WSRF规范实现的基于WSRF的网格中间件。

在第一个版本公布的时候,网格之父Ian Foster也在场,他虽然表示祝贺,但实际上对CGSP并不服气。因为他们的研究开展得比我们早很多。

后来,在2004年底,美国也公布了自己的第一个beta版本。在公布之前,他们把beta版寄给我们,希望我们做测试。测完之后,我们写了足足100页的测试报告。报告主要指出它的问题所在。自此,他们对我们的小组非常感兴趣,说“中国人真是做事情的”,并且在20054月份和10月份先后两次到清华大学国家实验室跟我们小组座谈。

2005年在新加坡召开网格会议时,lan Foster特别指出,他认为世界上有两个网格做得比较好,一个是英国的EScience,还有一个就是中国的ChinaGrid。到目前为止,ChinaGrid跟英国、德国都合作过,和国内外很多公司都在合作,比如与HP合作研制网格监控系统,与Intel开展CGSPGPE的互联互通研究等。GPE是欧洲的一个标准,互连互通后GPE可以用到我们ChinaGrid的计算资源,我们写的软件也可以用到GPE的计算资源和网络资源。

 

应用实现资源共享

我们研究网格,最重要的目的是让它应用起来。前面提到ChinaGrid已经建立了6类典型应用,这里先来看生物信息学网格,这个网格每天有5万人次在使用。

生物信息学网格的主要用户是高校研究生物信息学的教师和学生。他们一般来自生物系、物理系、医学院、数学系,这些人面临的问题主要是没有大容量的计算机,编一个软件也比较困难。有了生物信息学网格,教师只需要在上面用,不用关心资源具体在哪里,计算的软件在哪里。

下图是生物信息学网格的界面。

比如,某位教师需要做基因拼接,选中“序列拼接软件”选项,这时会弹出很多个关于序列拼接的软件。该教师从中挑选一个,然后把自己要拼接的数据提交上去即可。生物信息学网格有60多种生物信息软件,连接了6个学校,包括清华大学、北京大学、西安交通大学、国防科技大学、华中科技大学、华南理工大学,共有10多台大型计算设备,集成了很多计算软件,具有超过2万亿次的计算能力。用户的请求一到,网格就将它送到6个学校中某一台计算机去计算,做完之后,将结果返回用户。对用户来说,把请求提交之后,等结果就可以了,不用知道是哪个学校的哪台机器完成的。

再比如“大学课程在线”网格。它由分布在13个城市的22台服务器联合提供服务,上面有近300多门大学课程(还在不断增加),近3000讲(小时)课程录像(还在不断增加),这些课程来自14个重点大学,涉及到文、理、工、医学科,所有的课程都是免费点播的。

西部地区用“大学课程在线”的很多,现在全国很多院校都要自带计算机和课件来参加这个网格。

第三个应用是图像处理网格。它是基于ChinaGrid之上,直接利用其用户管理、系统安全、数据访问和传输等功能,同时针对图像处理的特殊性而建立的网格范围的图像处理应用平台。已经实现数字化虚拟人的三维重建(华中科技大学)、医学图像诊断(中山大学)、遥感图像处理(国防科技大学)等应用。

计算流体力学网格方面,已经实现包括飞行器遗传优化设计等在内的5个典型应用。

而数字博物馆网格也实现了4个大学数字博物馆的互联,提供异构数据库一站式数字标本信息访问服务。

还有一个典型应用平台是由北京航空航天大学、东南大学、山东大学等高校共同开发的海量信息处理网格。它根据现代科学应用和信息服务的特点,集成数据库中的海量信息资源,实现针对大规模信息处理、大规模数据处理的工具集及相关软件服务。该应用为用户提供一站式数字标本信息服务,实现海量异质异构数据的知识挖掘与综合分析,以及广域异构数据库资源的综合管理。典型应用案例包括大学数字博物馆应用、面向西藏羊八井宇宙线Asγ实验的高能物理计算、太空磁谱仪数据处理与分析等。

 

海量信息存储不可或缺

网格的应用对网络存储系统提出了很高的要求。图灵奖获得者Jim Gray提出了一个新的经验定律:网络环境下每18个月产生的数据量等于有史以来数据量之和。现在,存储产品已不再是附属于服务器的辅助设备,而成为互联网中最主要的花费所在。对存储产品的要求体现在:

高性能:各种对实时性要求严格的应用系统要求存储系统提供高性能的处理和传输能力,尤其在大数据量和高突发性的应用系统中,吞吐量和命令处理速率是非常关键的指标。

可扩展性:存储系统必须能够根据应用系统的需求,动态扩展存储容量、系统规模及软件功能。在许多应用系统如数字图书馆、石油勘探地震资料处理中,需要PB以上级别的海量存储容量。

可共享性:存储资源可以方便地被前端异构平台的主机共享使用。

自适应性:存储系统能够根据各种应用系统的动态工作负载和内部设备能力的变化,动态改变自己的配置、策略以提高I/O性能。

可管理性:当存储容量、存储设备、服务器以及网络设备越来越多时,系统管理变得复杂,因此系统需要提供高可管理性,以减少系统管理和配置的时间。

可靠性/可用性:许多应用系统需要24×365连续运行,要求存储系统具有高度的可用性,以提供不间断的数据存取服务。

一个学校要成为ChinaGrid的成员,需满足三个条件。第一,必须有一台高性能的至少5千亿次的计算机。第二,必须有一台2TB以上的网络存储设备。第三,必须提供给大家能够用的软件,可以买,也可以自己写,或者提供大量的数据。

张智雄:如何长期保存数字资源

双刃剑带来的责任

无数事实证明,科技信息和科研数据的长期保存对于揭示科学奥秘,发现科学规律有着重要的意义。

中国3200年前商代“甲骨文”中关于“日蚀”的记载导致了现代天体运动规律的发现。

美国自1948年开始的历时数十年的关于FraminghamMassachusetts两州心脏病例的长期调查研究,为揭示心脏病的形成机理提供了可靠的基础。

即使是1975年前苏联金星探测器Venera 9Venera10所拍摄的、当时几乎被扔进垃圾箱中的低质量的照片,在28年之后,通过美国科学家的技术处理,重新获得新生,通过它们揭示了金星表面的奥秘。

但在数字化生存的今天,数字信息给人们带来便利的同时,也为信息保存和利用带来危机。

2000年底,国内某著名网站遭遇严重硬件故障,文件系统崩溃,导致大部分用户数据无法正常读出。

1996年,加拿大军方就出兵索马里事件在法庭上作证,当时军方所采用的数字化的信息被仲裁委员会认为有造假的行为,不具备真实性。

在德国合并时,曾经有一份记载着很多调查数据、共产党员名单的加密电子文件,可是解密方法却丢失了,使得该资料无法阅读。

信息是把双刃剑。数字信息是非常脆弱的,面临着很多威胁。以目前发展势头迅猛的数字图书馆来说,读者对数字资源的依赖程度越来越大,使得图书馆的责任更大。图书馆的数据保存是个相当重要的课题。图书馆需要在数字信息资源的长期保存中,发挥重要作用。

 

数据保存及其策略

谈到数据保存,有3个相关概念需要了解:

Curation(掌管):指从数据生产出来时就开始的管理和促进其被利用的行为,目标是使得数据能够符合现实的需要,或能被用于发现和重用数据。

Archiving(存档):在Curation的基础之上,确保数据是经过合理选择,得到良好保存的,并且这些数据可以被存取。随着时光的流逝,确保这些数据的逻辑和物理完整性得到维护,具有相应的安全和认证机制。

Preservation(保存):是一种基于存档(Archiving)的活动,随着时间的流逝、在技术已经变化了的情况下,还能够对存档的数据进行存取。

这是英国DCCDigital Curation Center)的保存,如图1所示。我们可以看到,科学家先进行科学研究,在仪器上获取数据,然后发表,拥有专利等等。这是第一阶段的保存,在这里,机构内部没有专门的保存人员。随着研究成果的丰富,需要有专门的人员对研究成果进行存档,这就构成了保存的第二阶段。第三阶段的保存从数据生产出来时就开始,被称为掌管者的人对科研工作各个环节中产生的信息进行保存。

对于为什么要进行数字保存,数字保存的研究团体有着不同的说法。主要有以下几种:

开放档案信息系统(OAIS)模型认为,数字保存系统的目标是要确保被保存的信息对于目标团体而言是独立可理解的,也就是说,应当确保目标团体在没有信息生产者(专家)帮助的情况下,仍能够独立地理解被保存的信息。为了实现这一目标,在保存系统中既要保存存档对象,也要保存针对对象的描述和说明信息。

PREMIS认为,数字保存的目标是维持数字资源的长期可生存能力(要求被保存数字对象的比特流完整无缺并且能够从它所存储的载体之上读取)、可呈现能力(指的是能够将比特流转变为一种可以被人看,能够被计算机处理的能力)和可理解能力(包括提供足够的信息使得这些被呈现的内容可以被目标用户理解和认识)。

Priscilla Caplan认为,从下到上、从较低要求到较高要求,数字保存的目标分别为:可获得性,即选择获取技术;可识别性,即描述;可理解性,即文档记录;完整性,即安全存储;持久生存能力,即媒体管理;可呈现能力,即格式技术策略;被保存对象的真实性,即真实还原技术。

当前主要有三大数字保存技术策略。一类是迁移,有多种迁移的方式(如硬件迁移、软件迁移、格式迁移等);一类是仿真,就是在新的系统之下仿真旧系统运行时所需的软硬件环境;再一类是技术保存,它以数字对象的读取、呈现、处理技术为主要保存对象,而不以数字对象为保存对象。三种分类又可分化出一系列的保存方法,如多重备份、适时迁移、开放描述、开放注册、模拟环境、环境封装、通用虚拟计算机(UVC)、数据恢复与数据考古等。

在数字图书馆数据保存策略中有两种方法值得我们关注。一种方法是按需迁移。另外一种则是风干。

当数据格式过时或其他情况发生时,我们需要利用迁移工具将原始的数字对象迁移到新的数据格式下,从而在新的平台环境下保证数据的可用性。然而传统的迁移方法存在着一些不足,即如果在迁移的某一步骤存在错误、遗漏或其他情况,就会影响以后的迁移,会产生不同程度的失真。按需迁移的方法,保存的原始字节流并不随时间改变,只改变迁移原始格式的工具和方式。当以前支持的格式过时,只需在工具上添加新迁移工具,实现新的输出模块即可。

我们要保存很多格式和系统,需要很多技术方法,技术越多,复杂性就越大。加利福尼亚数字图书馆(CDL)的John Kunze博士认为:在数字保存系统中,不要加入过多的技术因素,否则数字保存反而会复杂化。如果今天采用最简单的技术对数字信息进行保存,明天才有可能通过最简单的操作来读取和理解被保存的信息。技术当然是数字保存的一个部分,但是如果对技术的依赖性越大,数字保存的风险也就越大。因此他提出除了移植和仿真之外,还需要另外一种数字保存的方法:Dessication(风干),作为补充保存策略。基于风干的方法,CDL认为对于类似文档(如网页)的数字对象,在保存原始格式的同时,应该同时派生出一个低技术含量的版本进行保存。

 

数据保存技术体系

由于数字保存技术体系的复杂性和动态变换的特点,很难建立一个完整规范的技术体系,但是确实有必要对现有的技术空间进行适当的梳理、归纳,总结为一个可供参考的技术体系。

在参考了OAIS,借鉴了国外主要保存系统的技术框架和相关技术体系之后,中国科学院文献中心提出了一个数字保存技术体系,如图2所示。

可以看出,数字保存技术分属于保存管理、摄入、仓储、存储管理和访问5个功能块。其中与保存管理相关的主要技术有保存技术策略的选择、保存规划管理、保存工作流管理、保存媒体迁移等方面;与摄入相关的主要技术有格式标准、格式迁移、格式规范和格式注册技术、信息封装技术、安全检测技术、完整性校验技术和数据功能校验技术等;与仓储相关的主要技术有信息模型的构建、保存元数据体系、保存标识体系、内容管理、元数据管理、索引等;与存储相关的主要技术是如何构建大规模安全存储体系,对存储对象进行备份和恢复的技术,它包括常见的磁带存储、光盘存储、磁盘阵列存储,也包括各种类型的分布式文件系统、基于NASSAN模式的网络存储和基于网格的存储体系,同时也包括相应的备份和恢复系统;与访问相关的主要技术是如何使仓储的数字对象能够被安全方便地访问的技术,主要包括检索浏览技术、基于保存标识的定位技术、认证和授权技术、与第三方的互操作技术等。

 

董唯元:硬件之后是软件

1995年,我国适龄青年进入高校的比例是1.4%,今天这个比例已经是19%,可见教育发展的速度是非常快的。

今天,我们的高校IT系统是否为未来发生的巨变做好了准备,在迎接未来的新变化的时候,我们应该具有什么样的能力,我简单列举了一些,如图1所示。面对这样的要求,今天的IT技术能够承受吗?

回到我们今天的主题——存储系统,核心就是一个主动式存储系统。并不是说主动式存储系统可以解决大学运作问题,解决资本运作问题。就像赛车需要驾驶手来做出判断,进行控制一样,在大学管理中,IT只能为这种控制、判断提供信息和保障。存储系统作为整个IT系统的核心中的核心,是决策支持过程的基础。

简单地说,主动式存储系统应该具有整合能力、支持能力、共享能力、保护能力以及适合本地化需求的法规遵从等等。

教育行业存储特点分析

IDC 2004年中国存储系统市场报告就已经显示,整个教育科研行业采购的存储设备台数,已经排到国内的第四位,金额数也已经排第五位了,已经是一个很大的行业了。有一点想特别提出来,教育行业单位容量的成本是我们同期国内所有行业加起来平均成本的一半,教育行业的数字是10.7/GB,而同期国内所有平均的是20.4/GB。目前的建设,目前的采购,我们是不是还需要加强?IT系统的建设应该是大学硬件建设到一定程度以后,需要更多软件建设的补充。

这是我们高校采购中几个主要供应商分布的情况,可以看出,教育行业基本上没有像金融行业、电信行业那样特别主流的供应商,厂商十分分散,这是2004年的数据。这个图里面绝大部分是国际企业,国内企业只有联想一家,而且联想现在也是国际型企业了,CEO是美国人。我相信,在今年或以后的报告中会出现中国自己的品牌和产品。

目前,大学主要的存储应用领域还是数字图书馆和校园网。我相信,将来的存储系统建设跟今天肯定会有本质的不同。将不再是独立组建的存储系统,而更多地考虑互联互动。

网络存储的发展

说到存储技术,在这里简单介绍一下存储技术的发展。存储技术从最早的磁盘容量发展到了上一个年代的所谓网络化的存储,那时我们讲的是SANNAS等数据集中的概念。到今天,我们会发现,SANNAS不是新鲜的概念了,而且厂商也不强调概念本身了。而且网络存储技术发展到了面向应用、面向信息、面向管理更高的层次了,这是今天的状态。将来,存储会发展到像我们今天用电,插到墙上就可以用电了,打开水龙头就会有自来水,存储的发展也会是这样的资源化管理,而不需要再去维护一些复杂的系统,进行一些复杂的管理,当然这是一个最终的美好梦想。

回到今天所处的时代,有太多技术热点,各个商家八仙过海、各显神通。这里,把它们总结起来,尽可能分层次给大家看。我想说的是几个新底层技术还在不断进步,用户看到是底层进步带来的应用级影响。比如说,SATA技术的出现,是一个磁盘介质的技术进步,但是由于它的出现,使得单位容量成本迅速降低,性能迅速提高,近线存储成为用户的考虑,成为了发展的重点。现在又出现了虚拟磁带库、磁盘备份等不同的流派,由于连接及虚拟层的发展,在应用层出现了一个新概念叫连续数据保护。在未来,存储底层基础不断地进步,带给用户端的应用也将是日新月异的。

                                                                                        进入专题报道

页面功能 【字体:   】 【打印】 【关闭】 【联系我们
相关链接
·广州市教育科研网的建设和应用
·甘肃:让CERNET覆盖大中小学
·“2006'无线校园建设与应用大会”在南京举行
·信息资源开发利用的公共政策设计
·06中国教育网络建设与应用论文选登活动
无标题文档
主管单位:中华人民共和国教育部  主办单位:教育部科技发展中心  承办单位:中国教育和科研计算机网CERNET
《中国教育网络》编辑部 京ICP证060236号 联系电话:010-62603869
建议使用800*600分辨率及Microsoft IE5.0版本以上浏览器
copyright © 北京赛尔时代传媒文化有限公司 All Rights Reserved