学术评价有新招【转贴】
学术评价有新招
·方舟子·
今年元旦期间笔者路过加州大学厄文分校拜访在物理系当教授的中学同学,遇到该系著名等离子物理学家陈骝教授。陈教授来自台湾,但与大陆学术界交流频繁,近来也很关注大陆学术腐败的状况。我们谈到目前大陆只重论文数量不重质量的学术评价体系存在很大的问题,陈教授建议我向国内介绍加州大学圣地亚哥分校物理学家乔治·赫希(Jorge E. Hirsch)不久前提出的,但已开始在美国应用的一种定量评价科研人员的学术成就的新方法——h指数。
一、片面强调SCI论文数产生的弊端
要评价一个科研人员的学术成就,最基本的方法是同行评议。但这种方法有一定的局限性,比如比较花时间,与具体评价人的水平有关,外行不容易理解,容易受主观因素的影响,等等。因此人们一直在试图找一种简易、简明、客观的定量评价方法。
上世纪80年代末南京大学将SCI论文数做为一种评价体系引入中国大陆。SCI是“科学引文索引”(Science Citation Index)的缩写,这是美国科学家尤金·加菲尔德(Eugene Garfield)在1961年创建的一个科学论文资料数据库,收录发表在较重要的学术期刊上的论文的相互引用情况。该数据库不断扩大,到现在收录了约9000种自然科学和社会科学的学术期刊。发表在被SCI收录的期刊上的论文在国内被简称为“SCI论文”。
强调“SCI论文”有助于鼓励中国学者到国际期刊上发表论文,加强与外国同行的交流,其初衷不可谓不好。但是一旦把SCI论文数做为获得学位、评职称、评院士、申请科研基金、评价学校学术成绩的一项重要指标,甚至用发表一篇SCI论文奖励数千、一万元的物质刺激来鼓励,这种过于简单化的评价方法便很快被滥用了。许多中国科研人员挖空心思地增加自己的SCI论文数,或一稿多发,或将一篇论文拆成几篇发表,或专门找一些被SCI收录、但是发表门槛很低的期刊投稿。
因此近几年来一直有人在批评把SCI论文数做为评价指标的弊端。这种批评在去年上半年达到了高潮。当时有人向新语丝网站发来一篇稿件,批评宁波大学理学院执行院长郑岳青教授在2002-2004的3年间就发表了82篇SCI论文,数量惊人,而且每篇论文可获得7000元奖金(后来宁波大学表示为每篇4000元),但是这些论文绝大部分都是没有多少学术含量的简单的实验结果,发表在影响力很低、来稿不拒的所谓“垃圾期刊”上。这篇文章登出后在网上引起了大讨论,随后几家报纸也做了跟踪报道、评论,称之为“郑岳青现象”。其实这在国内学术界是相当普遍的现象,郑教授不是第一个这么干的,也不是最严重的。
二、有什么办法衡量论文的质量吗?
正因为SCI收录的数千种学术期刊良莠不齐,片面强调SCI论文数很容易被钻空子,因此国内一些大学、研究所开始同时看重发表论文的学术期刊的档次,也就是所谓“影响因子”。SCI的开发者每年都会发布SCI收录期刊的“影响因子”,这是把某种期刊在前两年发表的论文在该年被引用的总次数,除以该期刊在这两年内发表的论文总数而得的数据。一个期刊的“影响因子”高,表明它发表的论文被引用的平均次数多,也就表明该期刊的影响力大,档次也就高。
但是,影响因子是否能够完全反映期刊的档次,并不是没有争议的。即使能够如此反映,也不能把期刊的影响力和具体一篇论文的影响力等同起来。统计表明,论文引用次数的分布是不对称的,存在所谓“80/20现象”,即80%的引用次数来自于20%的论文。因此,一篇发表在影响因子高的期刊上的论文很可能很少被人引用,而一篇发表在影响因子低的期刊上的论文则有可能反过来。但是国内不少科研人员却把发表其论文的期刊的影响因子等同于其论文的影响因子,甚至把各个期刊的影响因子加起来做为自己的论文的影响因子的和。
总之,要评价一个科研人员的学术成就,光是看其发表的论文总数并不妥,还要看这些论文的质量,但是把期刊的影响力视为论文的质量指标也是不妥的,必须具体地看其论文的情况,总体地衡量其论文的被引用情况。
一种常用的简单方法是统计一个人发表的所有论文的被引用总次数。这也不是一种准确的方法。如果某人曾经发表过一、两篇被引次数很高的论文,即使其他论文被引次数低,他的总体成就也会因此被夸大,特别是如果被引次数高的论文有多名共同作者的话,其水分就更多了。而且,有的综述文章的被引次数会比原创论文高得多,但是它并不代表作者的学术成果。
另一种方法是把被引用总次数除以总论文数,得到平均被引次数。但是这种做法对论文少的人有利,而对论文多的人不利。
还有的办法是设置门槛,只统计某个人“重要论文”(被引次数较多)的数量,或这些论文的被引总数。但是把门槛设在哪里,并无一定的标准,是任意设置的。
三、一种评价学术成就的新方法
为了解决这些问题,赫希提出了一种新的计量办法,写成一篇论文在去年8月份先在网上公布,当时就引起了广泛的注意,英国《自然》、美国《科学》都立即做了报道。该论文在去年11月份正式发表在《美国科学院院刊》上。
赫希将这种方法称为h指数(h-index),h代表“高引用次数”(high citations)。一个人的h指数是指他至多有h篇论文分别被引用了至少h次。例如,赫希本人的h指数是49,这表示他已发表的论文中,每篇被引用了至少49次的论文总共有49篇。
与其他统计方法不同的是,要确定一个人的h指数非常容易,用赫希的话说,只需要“花30秒钟”。到SCI网站,查出某个人发表的所有SCI论文,让其按被引次数从高到低排列,往下核对,直到某篇论文的序号大于该论文被引次数,那个序号减去1就是h指数。
赫希认为h指数能够比较准确地反映一个人的学术成就。一个人的h指数越高,则表明他的论文影响力越大。在当代物理学家当中,h指数最高的是普林斯顿大学的理论物理学家爱德华·维腾(Edward Witten),达110。维腾被普遍认为是当代最有影响的理论物理学家。中国读者较为熟悉的霍金的h指数也比较高,为62。生物学家当中h指数最高的为沃尔夫医学奖获得者、约翰斯·霍普金斯大学神经生物学家施奈德(Solomon H. Snyder),高达191,其次为诺贝尔生理学或医学奖获得者、加州理工学院生物学家巴尔的摩(David Baltimore),160。生物学家的h指数都偏高,表明h指数就像其他指标一样,不适合用于跨学科的比较。
赫希还计算了在最近20年获得诺贝尔物理学奖的物理学家的h指数,平均值为41。美国科学院物理学与天文学部2005年新科院士的h指数平均为44,而生物医学部新科院士的h指数平均高达57。
很显然,h指数的高低与从事科研的时间长短有关。对于年轻科学家来说,由于发表论文数量太少,论文的数目成了其h指数的上限,计算其h指数没有多大的意义。h指数比较适合用于衡量已从事科研多年的资深科学家的总体成就。一个人的h指数不会随着时间的推移而减少,只会增加或保持不变。
通过研究许多位物理学家的h指数,赫希认为如果一个人在从事科研20年后(从发表第一篇论文算起),h指数能达到20,就算是一名成功的科学家;能达到40,则是一名杰出的科学家,很可能只能在名牌大学或研究所才能见到;能达到60(或30年后达到90),则是首屈一指的大科学家了。
赫希并提出,美国研究型大学的物理学家要获得永久教职(副教授),h指数一般为10到12,晋升为正教授则大约为18。成为美国物理学会会士的h指数一般在15到20,而成为美国科学院院士则一般在45或更高。
四、h指数也有漏洞可钻
h指数有其局限,除了不适合用于评价年轻科学家外,也不适合用于评价历史上科学大师的成就。比如,如果根据SCI的收录计算大物理学家费曼的h指数,仅为21,按赫希提出的标准只能算是一名“成功科学家”。SCI未收录1955年之前的物理论文,费曼在那之前发表过17篇论文,即使把这17篇论文全部算进去,费曼的h指数最多也就38,也还没达到“杰出科学家”的标准。老一辈科学家并不像当代科学家那样频繁发表论文,而且他们的重大贡献很快成为专业常识,人们在提及时不再引用其论文,这两方面的原因使得他们在h指数方面大大吃亏。
论文引用包括作者本人在后来的论文中自我引用(自引)和他人的引用(他引)两种,SCI在统计时并不对二者做出区分。显然,自引次数的多少与论文的影响力毫无关系,但是有些科研人员却故意频繁自引,制造论文被引次数高的假象。赫希认为h指数的一个优势是很难通过自引来拔高,“无法伪造它”,因为它衡量的是一个人的全部学术成果能否经受长时间的考验。波士顿大学物理学家悉尼·莱德纳(Sidney Redner)接受《自然》的采访时对此也表示同意:“想要假造全部的科研生涯是非常困难的。”
赫希和莱德纳都低估了中国科研人员在这方面的创造能力。以郑岳青为例,他迄今共发表了134篇SCI论文,其h指数是14,这算是相当高的了,按赫希的标准,可以在美国研究型大学获得永久教职。但是仔细核查这些论文的被引用情况,会发现绝大多数都是没有价值的自引,有的论文被引用了24次,而其中郑岳青自己就引用了20次!如果把自引次数去除掉,郑岳青的h指数就降到了不值一提的6。再好的评价体系,也无法避免被别有用心者钻空子。在中国,一个人想要假造全部的科研生涯是非常容易的。
2006.1.8.
(《中国青年报·冰点》2006.01.11.)