|
李德毅:网络化数据挖掘李德毅:网络化数据挖掘
李德毅院士在本次会议上做了题为“网络化数据挖掘”的主题演讲。他从复杂网络科学的发展引起人们思维方式的变化说起,介绍复杂网络最引人注目的研究成果,讨论对真实网络拓扑及其行为建模的方法,并通过具体的实例说明如何利用上述方法及由此发展出来的数据场理论挖掘复杂网络中的骨干节点和抱团现象,为解决信息爆炸增长背景下网络信息挖掘和知识发现提供了全新的原理和构造关键技术的基础。
人们对网络拓扑结构的研究起源于Erdos创立的随机图理论,然而随机图是一种非常理想的模型,不能反映真实网络的增长和节点之间地位并不平等的关系,也不利于分析增长和不平等带来的影响。到20世纪90年代,出现了小世界网络模型和无尺度网络模型,标志着人们对现实世界中网络的理解有了全新的认识。无尺度网络的模型还可以进一步扩展,从而能够尽可能反映具体真实网络的性质。
小世界和无尺度的特性,对网络中各种行为的扩散和发展变化有着深刻的影响。一方面,无尺度网络在随机的故障和破坏下比经典的随机图鲁棒;另一方面,对于有重点的打击,无尺度网络又显得比较脆弱。因此,从复杂网络的角度,通过平均距离、抱团系数、度分布等参数研究不同网络的鲁棒性和脆弱性,具有重要的意义。
同时,我们也可以利用小世界和无尺度的特性来为信息挖掘服务。在一个复杂网络系统中,抓住了主要的节点,抓住了节点之间聚集成团的规律,就把握了这个网络的最重要的部分。因此,在网络的拓扑结构中,挖掘不同粒度的骨干网、发现复杂网络中的抱团现象,并做出定量的评估,对于解决信息和信息源的分类问题、测量问题和控制问题,有着深远的价值。
李院士富有激情的介绍了他本人在复杂网络数据场理论方面的最新研究结果,举科学家论文合作网络和城市交通协作区的例子,来说明数据场理论的应用。
吴建平:在实践中积累知识规律
互联网上的搜索引擎和信息挖掘工作在中国开始的比较早。1995年开始的“95攻关”项目中,第一批关于互联网技术研究国家攻关项目里就设立了搜罗引擎这个研究课题。
搜索引擎和网上数据挖掘是互联网技术中十分引人注目的亮点,它改变了人们使用互联网的方式,成为如今人们享用互联网信息资源时不可缺少的必要工具。随着计算能力的提高,搜索引擎技术逐渐从文本非结构化、非个性化的信息查掘发展为多媒体结构化、个性化的知识组织。同时,对于互联网知识资源的产生、分布和关联的规律,用户访问信息资源行为的规律,以及人类在实践中积累的越来越丰富的知识规律发挥了重要的作用,成为指导网上搜索引擎和数据挖掘发展的重要武器。
“搜索引擎和网上数据挖掘大会”的前两届分别在北京大学和华南理工大学举办,为促进相关领域专家学者之间的学术交流、推动我国网上搜索引擎和数据挖掘的发展起到了重要的作用。同时,前两届研讨会也奠定了“搜索引擎和网上数据挖掘大会”三个方面的基本特色:1.会议中有高水平的学术论文;2.主题报告都非常前沿;3.活泼的竞赛形式的交流。
李星:意料之外的网络进化
从网络体系结构来讲,现在的Internet不是大家预料之中而产生的,下面举例来说明。
第一,AT&T的CEO曾经在美国科学基金会支持美国基金网(Internet的前身)时,认为ISDN就可以解决问题了;第二,计算机科学领域从上世纪70年代末到80年代都在研究OSI的模型,现在教科书上还有,但真正应用的几乎没有了;第三,电信领域的研究者曾经认为ATM就是未来网络体系结构方向。
上述这三个大题目不知产生了多少硕士论文和博士论文,但是非常遗憾的是:目前的Internet都不属于这三个体系结构。所以,网络演进往往出乎大家的预料。
搜索引擎领域的发展同样很有意思。最初一个比较好的设计就是X.500,但如今X.500中唯一还在应用的只有X.509,剩下的都被废掉了。其实,当时X.500既做了运营服务,又做了目录服务,还做搜索服务,是一个非常完美漂亮的设计。如果X.500能够成功的话,那现在这么多靠域名赚钱的公司就也没戏了,像Google和百度这样非常著名的搜索引擎公司就没活路了。如今的现状显然是让设计X.500的人很伤心的,这同样也是网络进化中的意外。
现在让我们回到现实。从整体来讲,目前Internet遇到的挑战主要有哪些呢?我认为第一个是带宽爆炸,带宽速率是9个月翻一番。在未来某一个时刻,如果没有革命性的技术进展的话, Internet速率的增长会停在摩尔定律的速率上面。
第二个是标识爆炸,或者说域名爆炸。实际上由于IP地址很难记,从最早时候的hostname到后来的DNS(分布式的域名系统),E-mail、Windows、垃圾邮件等等都造成了标识量巨大的增长,下一个潮流RFID无线标识等可能会导致标识爆炸的情况进一步加剧。
第三个是信息爆炸,这一点通过搜索引擎体现的非常明显,是一个超越指数的增长。
还有一个问题是平等下的不平等,即同等付费情况下,10%~20%的人占用了80%~90%的资源。如何理顺这个经济模型也是一个非常大的挑战。
此外,网络上的信任问题自1995年Internet商业化以后也变得日益严峻。
下面结合我们所做的工作谈谈大家广泛关注的热点问题。下一代的网络应用有以下四大特点:第一是交互式的协作;第二是实时地使用远程的资源;第三是大规模的分布式计算和数据挖掘;第四是共享的虚拟现实。无论是Google还是百度,对于从现在的搜索引擎模式往交互式过渡的研究已经开始进行。目前面临的挑战是如何迈向更高层次的交互式协作。
清华大学网络中心一直在做IPV6搜索引擎,从IPV6网络分布情况图中我们看出,目前日本、德国等国家发展很快。那么,IPV6会给我们带来什么样的变化?IPV6创造了如此巨大的空间,是否会对各种应用带来新的影响?答案是肯定的,而且在搜索引擎领域也会开创一个新的模式。
清华大学网络中心在下一代网络应用方面也做了一些探索性工作,举例如下:
|