985大学WEB空间内部链接特征分析

中图分类号: g203 文献标识码: a 文章编号: 1003-6938(2011)06-0054-06

qu qiongdan sha yongzhong li huijia (school of management, lanzhou university, lanzhou, gansu, 730000)

guoray cai (college of information sciences and technology at penn state university)

clc number: g203 document code: a article id: 1003-6938(2011)06-0054-06

1 引言

链接作为互联网的基本构成要素和最显著特征,从一开始就是计算机科学和信息科学研究者所共同关注的对象和研究内容, [1]链接的类型、数量和分布在一定程度上反映了网站的类型、质量和网络空间结构。研究网站链接特征,对规范和优化网站建设、合理配置网络信息资源具有重要的理论和实践意义。

2 研究设计

2.省略 link:各大学网站来自edu的外部链接数;(3)edu.cn link %:各大学网站来自edu的外部链接数占总外部链接数的百分比;(4)38u link:各大学网站来自其他38所大学网站的外部链接数目;(5)38u link%:各大学网站来自其他38所大学网站的链接数目占其来自edu外部链接数的百分比;(6)链出连通:该大学网站向外链接到空间内的学校数目;

(7)链出连通率:该大学网站向外链接到空间内的学校数目占其他38所学校的百分比;(8)链入连通:空间内具有指向该大学网站链接的学校数目;(9)链入连通率:空间内具有指向该大学网站链接的学校数目占其他38所学校的百分比;(10)相互连通:空间内与该大学网站具有相互链接关系的学校数目;(11)相互连通率:空间内与该大学网站具有相互链接关系的学校数目占其他38所学校的百分比;(12)总连通:空间内与该大学网站具有链接关系的所有学校的数目;(13)总连通率:空间内与该大学网站具有链接关系的学校的数目占其他38所学校的百分比。

2.2 研究方法

2.2.1 聚类分析与多维尺度分析

为了探究链接特征的规律性,对39所大学网站间的链接数据(表2)分别按行和列进行聚类分析和多维尺度分析,其中,行为链出数据,列为链入数据。聚类分析采用层次聚类,方法选用离差平方和法;多维尺度分析采用古典多维尺度分析(cmds) 模式。

根据本文定义的连通概念(表4),以39所大学的网站为节点,将它们之间的相互连通作为路径,利用图论的方法考察网站之间的连通情况。

将距离矩阵中的行与链接数据对应的行、列与对应的列作相关分析,以此得到各大学网站链出数据(行)、链入数据(列)与现实地域的pearon相关系数。

3 结果分析

“985工程”大学网站之间的平均链接数约为187,相比于2006年(8.6),这个水平已经是相当高的。但是在对链接数据进行频数统计时,发现其分布并不均衡(见图1)。在1521个数据中,0出现227次,占总体的14.9%;1出现144次,占总体的9.5%;2出现97次,占总体的6.4%。5或5以内的累积频次为680,占总体的44.7%; 10或10以内的累积频次为916,占总体的60.2%;在50以上的为321频次,占总体的21.1%;而链接数量在平均水平之上的约占总体的10.1%。由此可见,39所大学网站间的链接数据普遍比较小,主要分布在0~30这个区域,但也存在一部分网站链接活动密切,链接数据比较大。

图4为39所大学链入链出数据与现实地域之间的pearon相关系数分布图。从图中可以

看到,39个链出相关系数分布在-0.4~0.3之间,39个链入数据分布在-0.5~0.4之间,虽然有个别绝对值相对比较大,但是整体上不存在统一的规律性。因而,39所学校间的链入链出数据与现实的地域远近并无直接的关系。

各大学网站的背景、链接目的与动机等的不同使得其所表现出的链接特征不尽相同,但在一定程度上总会存在相似性。为此,我们对39所大学网站间的链接数据进行聚类与多维尺度分析(见图5、图6)。

从总体上说,各大学网站虽然在一定程度上表现出分类特征,但是仍是较多大学的集聚现象更为显著,链接特征相异性不大,这与做过类似研究的英国学者peter b. musgrove[12]得出的结论很不相同。在peter b. musgrove的研究中,欧洲15个国家的大学网站很清晰并均匀地聚为4个大类。最主要的原因在于peter b. musgrove是对欧洲不同国家的大学做的分析,它们文化、语言、地理、经济、政治等因素差异非常大,比较容易形成明显的聚集和分离态势,而我们选用的是同一国家的样本,相比较而言,不同省份各方面因素差异并不明显。另外,大学网站之间交流的不稳定造成了链接数据存在较多的极端现象(0、12900等),这些极端数据通常出于某些特殊的原因(如域名的变更、新闻网页的频繁更新、校庆等),这在一定程度上也影响了聚类的效果。

4 结论与讨论

4.1 链接数据呈现了数量级的增长,链接水平不断提高

网站链出连通率、链入连通率、空间整体的连通率大幅度提高,几乎每所学校与空间内的其他学校都存在着联系。这从一个侧面上反应了数字校园建设在近几年所取得的成就与大学网站在网络交流、校际合作中日渐凸显的渠道作用。

4.3 大学网站在链接特征的分布上从分散状态向集聚状态发展

在链接特征分布上,不同于以往的分散状态,各大学网站的集聚现象显著,虽然在一定程度上表现出分类特性,但是链接特征相异性不大。究其原因在于大学网站间日益频繁的交流使得它们之间的联系更为密切,而大学网站建设自身存在的不足与链接动机的不明确影响和模糊了网站链接特征的提取与归类。

参考文献:

[1]段宇峰.网络链接分析与网站评价研究[m].北京:北京图书馆出版社,2005:70-71. [3][10](英)迈克.赛沃尔.孙建军等译.链接分析:信息科学的研究方法[m].南京:东南大学出版社, 2009:61-99.

59(1):29-41.

[6]邱均平等.中国大学网站链接分析及网络影响因子探讨[j].中国软科学,2003(6): 151-155.

[11]梁立明,沙德春. 985高校校际科学合作的强地域倾向[j].科学学与科学技术管理,2008,(11):112-116.

作者简介:瞿琼丹,女,兰州大学管理学院硕士研究生;沙勇忠,男,兰州大学管理学院教授,博士生导师,研究方向:信息资源管理、网络计量与信息分析;李慧佳,女,兰州大学管理学院硕士研究生;蔡国瑞,男,美国宾夕法尼亚洲立大学信息科学与技术学院教授。



联系客服:cand57il.com