Home
JournalsCollections
For Authors For Reviewers For Editorial Board Members
Article Processing Charges Open Access
Ethics Advertising Policy
Editorial Policy Resource Center
Company Information Contact Us
OPEN ACCESS

美捷登精彩点评:谷歌学术 H5指数及其与汤森路透影响因子对比分析

  • Mike Wang
Medical Research & Publication   2015;1(3):90-95

doi: 10.14218/MRP.2015.045

Published online:

 Author information

每年汤森路透(Thomson Routers)的期刊引用报告(Journal Citation Report, JCR)在中国都引起了高度的关注。原因是在中国科研评价中,科研论文是否发表在被科学引文索引(Science Citation Index, SCI)或科学引文索引扩展版(Science Citation Index Expanded, SCI-E)收录的杂志上,以及该杂志的影响因子的高低都起着举足轻重的作用,甚至成为某些部门和单位唯一的科研评价指标。近年来,依赖汤森路透 JCR 的科研评价系统受到了质疑、争议、批评和诟病,因而出现了寻求新的科研评价系统的呼声。

谷歌学术(Google Scholar)在 2012年推出了一个杂志评价系统,即谷歌学术计量(Google Scholar Metrics),用来评价各个领域杂志的影响力。该系统主要包括 H 指数(h-ind ex 或 Hirsch index),H 核心(h-core),H 中值(h-median),H5指数(h5-index), H5核心(h5-core)和 H5中值(h5-median,图1)。

Google 学术官网显示的健康与医疗科学刊物的 Top20
图1  Google 学术官网显示的健康与医疗科学刊物的 Top20

H 指数于 2005年由美国加利福尼亚大学圣地亚哥分校物理学家乔治•希尔施(Jorge Hirsch)首先提出,原本用来评价某一个学者的影响力,计算基于论文总数及各论文被引用的次数,即某学者如果在其所有学术论文中至少有 N 篇论文分别被引用了至少 N 次,那么该学者的 H 指数就是 N。例如,王教授共发表 200篇论文,其中有至少 50篇被引用至少 50次,那么他的 H 指数就是 50。

在谷歌学术计量系统,杂志的 H 指数指在所有发表的论文中有至少 h 篇论文分别被引用了至少 h 次,那么这份杂志的 H 指数就是 h。例如,某杂志共发表 5篇论文,分别被引用 17,9,6,3和 2次,那么这份杂志的 H 指数就是 3;H 核心指该杂志最高被引用的 h 篇论文,如上述杂志的 H 核心包括被引用 17,9和 6次的三篇论文;H 中值指 H 核心中位数论文的引用次数,如上述杂志的 H 中值为 9(图1)。

相应地,H5指数,H5核心和 H5中值的计算基于收录在谷歌学术系统中的杂志最近 5年的论文数量及各论文被引用的次数。例如,如果某杂志在过去 5年内所发表的论文中至少有 h 篇论文分别被引用了至少 h 次,那么这份杂志的 H5指数就是 h。H5核心和 H5中值依上述方法计算。谷歌学术计量报告虽然公布各杂志的 H5指数,H5核心和 H5中值,但最重要的还是 H5指数。值得一提的是,只有那些在 5年内发表了 100篇以上论文并且至少有一个引用的杂志才会被收录到谷歌学术中去

一、谷歌学术计量报告简介

到目前为止,谷歌已经连续四年发布了杂志学术计量报告。今年(2015年)所发布的报告共包括 7211份杂志,由于其中有 1761份杂志在不同领域排名中重复出现,因此该报告中实际上只收录了 5450份杂志。报告中给出了 9种不同语言(英语、中文、葡萄牙语、德语、西班牙语、法语、意大利语、日语、荷兰语)杂志的前 100名的信息。另外,该报告对英文类杂志的统计更详细,包括八大领域(商务、经济与管理、化学与材料科学、工程与计算机科学、健康与医学科学、人文、文学与艺术、生命科学和地球科学、物理与数学、社会科学)及 261个学科杂志的详细分类排名。每学科只有 top20杂志信息,所以没有其余中低档次杂志的排名信息。

谷歌学术指标系统中还提供了搜索功能,输入杂志名称关键词就会给出包含该关键词前 20名杂志的排名信息。但是,与汤森路透的 JCR 数据库不同的是:JCR 数据库有往年的报告信息而谷歌学术计量报告没有往年报告信息,所以这两者之间不能进行横向比较。

二、英文杂志Top20分析

Nature(自然)杂志以 H5指数 377(H5中值为 529),排名第一(图2),也就是在 2010年到 2014年这 5年期间,Nature发表的所有论文中引用数不低于 377次的共有至少 377篇论文;而在今年汤森路透的 JCR 报告中,Nature以 41.456的影响因子(Impact factor)排名第 7。

Top20杂志
图2  Top20杂志

New England Journal of Medicine(新英格兰医学杂志)以 H5指数 3 28(H5中值为 520),排在第二。这个排名和汤森路透 JCR 报告的排名一致。

Science(科学)杂志,H5指数为 316(H5中值为 446),排名是第三位;而该杂志在汤森路透 JCR 报告中排在第 16位。

著名 Lancet(柳叶刀)杂志以其 258(H5中值为 415)的 H5指数排在第四位,其排名也和汤森路透 JCR 报告中排名一致。

Cell(细胞)杂志和 Proceedings of the National Academy of SciencesPNAS,美国国家科学院刊)杂志以 216的 H5指数并列排在第五位;而它们的 H5中值数据不同,分别为 330和 280。另外,这两个杂志在汤森路透 JCR 报告中影响因子分别排在第 20和 186位。

其他进入 Top20的杂志 H5指数见图1。其中排在第十八位的 Nucleic Acids Research杂志在汤森路透 JCR 报告中排在第 213位。有趣的是,排在汤森路透 JCR 报告中第一名的超牛杂志 CA: A Cancer Journal for Clinicians,其影响因子为 115.84,而其 H5指数为 57,没有排进前 100名。

三、 H5核心论文发表时间分析

H5指数是对某杂志过去 5年期间所发表的论文引用数进行的评价,例如,2015年对 2010~2014期间所发表对论文引用数进行的评价。笔者根据汤森路透 JCR 报告中的影响因子,选择了五份高中低档次发杂志,对 H5核心论文发表时间进行力分析。这五份杂志分别为 Nature, CA: A Cancer Journal for Clinicians, Cancer Research, PLoS ONECutis,他们的 H5指数分别为 377、57、 138、161、16(图3)。

Nature:对 Nature杂志的这 377篇论文发表时间分析发现,其中 2010年有 163篇(43.24%),2011年有 128篇(33.95%), 2012年有 76篇(20.16%),而 2013和 2014年各有 9篇(2.39%)和 1篇(0.2 7%)(图3A)。也就是说,该杂志 H5指数的 377篇论文主要是来自于 2010~ 2012这三年(97.34%);2013和 2014年的论文比例仅为 2.66%。

<italic>Nature, CA: A Cancer Journal for Clinicians, Cancer Research, PLoS ONE</italic>和<italic>Cutis</italic>杂志H5核心论文发表时间分析
图3  Nature, CA: A Cancer Journal for Clinicians, Cancer Research, PLoS ONECutis杂志H5核心论文发表时间分析

CA: A Cancer J ournal f or Clinicians:对影响因子排名第一的综述性牛刊 CA: A Cancer Journal for Clinicians的 57篇论文发表时间分析发现,其中 2010年有 16篇(28.07%),2011年有 17篇(29.82%), 2012年有 12篇(21.05%),2013年有 7篇(12.28%),以及 2014年有 5篇(8.77%)(图3B),综述性牛刊的 57篇论文在 2010~2012三年的占 78.95%,而后两年 2013和 2014年的论文所占比例“高达”20% 之多(相较其他四份杂志而言)。

Cancer Research:对 Cancer Research杂志的 138篇论文分析发现,2010年有 77篇(55.80%),2011年有 41篇(29.71%), 2012年有 14篇(10.14%),而 20 13和 2014年各有 5篇(3.62%)和 1篇(0.72%)(图3C)。从中看出,前三年论文数占 95.65%,2013和 2014两年仅为 4.35%。

PLoS ONEPLoS ONE杂志的 161篇论文,其中 2010年有 91篇(56.52%),2011年有 45篇(27.95%),2012年有 21篇(13.04%),而 2013和 2014年各有 3篇(1.86%)和 1篇(0.62%)( 图 3D);前三年论文数占 97.52 %,而 2013和 2014两年仅为 2.48%。

CutisCutis杂志的 16篇论文,其中 201 0年有 10篇(62.5%),2011年有 5篇(31.25%),2012年有 1篇(6.25%)(图3E)。从中看出前三年论文数占 100%,而 2013和 20 14两年没有论文进入 H5考量范围。

分析如上数据发现,这五份杂志 H5指数论文中,前三年 (2010~2012) 发表的论文所占比例 78.95%~100%。除了综述性牛刊后两年占 20% 以上外,其余杂志学术指标中后两年的论文都在 5% 以下。也就是说,虽然谷歌学术计量报告声称 H5指数是对杂志过去五年发表论文的引用数进行评估分析,但实际上只是对杂志前三年所发表论文的引用情况进行评估,因此可以说是对一个杂志的持久影响力进行评估。然而,汤森路透 JCR 报告是对杂志 2012和 2013年所发表的所有论文在 2014一年中的总引用数进行统计分析,是对一个杂志的当前影响力进行评估。所以,只有同时使用这两种评价系统来对杂志进行综合评估才算相对全面和客观。

四、谷歌学术 H 5指数和汤森路透影响因子的关系

笔者对 120个杂志的谷歌学术 H5指数和汤森路透影响因子进行分析后发现两者具有一定相关性,尤其是低影响因子范围的杂志(图 4)。

但这个相关性对个别杂志不适用,例如:个别杂志的影响因子很高,而 H5指数相对偏低;有的杂志则相反,H5指数很高但影响因子却相对偏低;也有些杂志虽然影响因子不同,但是有相同的或相近的 H5指数,比如 Nano ResearchCA: A Cancer Journal for Clinicians的 H5指数都为 57,而它们的影响因子分别为 7.01和 115.84,相差甚远。这是由于在过去的五年内,Nano Research发表的论文总量为 500多篇,是 CA: A Cancer Journal for Clinicians杂志论文发表总量的 5倍,也难怪如此低影响因子的杂志会和 CA: A Cancer Journal for Clinicia ns有相同的 H5指数,即 Nano Research的 500篇论文中有 57篇论文的单篇引用数超过 57次,而 CA: A Cancer Journal for Clinicians的 100篇论文中也有 57篇论文的单篇引用数超过 57次;就算 CA: A Cancer Jo urnal fo r Clinicians的全部(100篇左右)论文的单篇引用数都超过 100,那它的 H5指数也就才 100,挤进 H5指数排名的 Top100都有困难。

同样,PLoS ONE的 H5指数为 161,即在该杂志近五年内发表的 10.6万多篇(106936)论文中,有 161篇(占总发表量的 0.15%)的单篇引用数超过 161次。H5指数似乎更强调“大网捞鱼”,论文发表数量多的杂志很占优势。笔者从汤森路透官网收集了 Top20杂志的 2010~2013四年的论文发表总量,如图 2 数据显示:Top20杂志多数既有较高的“论文发表总量”,同时也有较高的“单篇论文引用数”;这两者犹如天平的两端,像 CA: A Cancer Journal for Clinicians这样的牛杂志,由于总论文发表量低,导致其 H5指数偏低。

也有少数杂志是影响因子很高,H5指数也很高,比如新英格兰医学杂志(图 4 红框内最上面的杂志),前提是该杂志论文发表数量要足够多。谷歌学术 H5指数前 100名杂志的汤森路透 JCR 排名和影响因子见附表。

影响谷歌学术H5指标和汤森路透影响因子平衡的两大因素
图4  影响谷歌学术H5指标和汤森路透影响因子平衡的两大因素

五、谷歌学术 H5指数的优缺点

优点:

汤森路透集团 JCR 报告需要购买账号查询,而谷歌学术 H5指数查询是免费的。

H5指数对 9种不同语言的出版物前一百名进行评估分析,因此有广泛代表性。

H5指数不受有超高引用单篇论文的影响,相对比较客观。

谷歌学术数据库收入范围非常广泛,不仅包括学术期刊,而且还收录书籍、会议、以及各种预印本。

缺点:

主要评估杂志近五年内,头三年所发表论文的引用情况。

偏重年发表论文量大的杂志。

由于不能查看谷歌的H5指数往年数据,所以不能进行年度横向对比(除非有心人每年都存下当年数据)。

谷歌学术指标数据库只提供了英文杂志各领域前 20名杂志信息,其余中低档次杂志信息未知。

谷歌没有提供对各领域及学科分类的标准,也没有提供每个杂志所隶属的学科信息。

综上所述,谷歌学术指标具有一定的代表性和指导意义,但由于谷歌的学术指标才发布了四年,有些问题仍有待完善,比如杂志数据库收录的各项指标等,一旦修改就会影响全部数据。