1、引言
中文学术图书出版的现状已经无需赘叙,数量巨大、质量混杂是其显著特征[1]。对于高校图书馆来说,中文社科类学术图书是其采访工作的重点之一。几乎所有的高校图书馆都没有能力将中文社科学术图书全部收录,只能根据自身学科类别和层次需求,筛选高质量的图书进入馆藏。如此,源于出版与需求的矛盾,将高质量中文社科类学术图书纳入馆藏就成为当前高校图书馆采访的难点。
尽管当前学界对高校图书馆普遍采用的专职采访人员采购全馆图书的模式存在争论[2],但在实践中,此方式依然是国内最常用的一种采访方式。
为此,从高校采访工作人员的角度,提供一种有效的快速判别学术图书质量的方法来辅助选书,成为高校图书馆提高中文社科类学术图书采访质量和采访工作速度的一个极具应用价值的问题。
问题的核心是快速和有效。有效是方法的必须前提,方法必须能对图书学术价值做出有效判断,有效的标准可以分为选的准和选的全;同时也必须能够实现快速判别,否则对于采访工作人员来说只具备事后评价意义,而无法提高工作人员效率。实现快速有两种途径,一个是降低采访人员面对图书的阅读量,对越少的阅读量做出判断,速度就越快;另一个是判断标准的简化,根据标准能作出“是”或“否”的决策无疑是最快速的。
基于上述思路,有一定研究并且已应用于实践的是核心出版社辅助判断法[3]。即基于某类图书样本,依据一定的判断图书质量的标准,或者是引文分析法、或者是用户使用数据分析法,确定某类图书的核心出版社群。之后则重点采购核心出版社出版的图书。该方法能够以相关关系的存在证明其有效,但效能,选准率和选全率如何无法表明。
另外学界也提出了核心著者辅助判断法[4]。但是在实证研究中,还少见有构建核心著者库并进行学术图书价值判断的相关研究。
根据经验,当采访人员面对一本学术图书时,首先关注的是图书的书名、著作方式、著者、出版社和简介等信息。其中根据书名、著作方式、著者和出版社判断是否采购该图书,既是最省力和快速的,也是最常见的。但是由于上述信息量化依据不足,凭借的是采访人员的主观经验,因此判断易出现偏差。
立足当前采访现实,本研究则试图以上述信息与学术图书价值的关系,建立学术图书价值辅助判断模型。由于图书书名通常涉及图书的主题,一个学科的研究主题无数、很难取得量化规律,因此在本研究中仅探讨著作方式、著者和出版社信息这三个变量与图书学术价值的关系,分析依据这三种变量判断图书学术价值的效能,并形成以这三种变量判断图书学术价值的可靠模型。
2、样本的选择及图书学术价值的编码
图书学术价值的评价是本研究的起点,是后续指标有效性的依据。研究以笔者参编的《中国哲学社会科学类学术图书基本书目(1995-2005)》(以下简称《基本书目》)为参照。
《基本书目》在考虑我国出版业发展状况及学术图书被引频次的积累时间和半衰期等因素,以1995-2005年出版的图书为目标。具体以上海图书馆等图书馆和图书公司180余万条MARC数据为源,经去重处理,得出72万余条数据。经过与《全国总书目》进行抽样比对,采集到的数据基本涵盖了总书目的收录范围,进而确定为样本[5]。
据此,本研究选取《基本书目》的法律类书目数据为样本,在剔除不含在本研究范围内的译著类学术图书后,获得样本5692本。以书目制定所使用的基于GoogleScholar的引文分析法和帕累托定律,对国内出版的法律类学术图书给予二元量化赋值。入选核心书目的为高价值学术图书,赋值1;落选的为低价值学术图书,赋值0.研究中,基于时效性的考虑,对样本图书被引频次进行了更新。更新时间在2015年1月。表1为对书目学术价值赋值过程的相关描述性数据。
3、著作方式、出版社和著者信息的编码
3.1著作方式的编码
著作方式又称为著作类型,一般分为:著、编著、编写、主编、编纂、选编、译、编译、注释、校订、译注等。本研究涉及的法律类学术图书的著作方式主要有著、编著和主编三种。
将著作方式按著、编著和主编分别给予1、2、3的类别编码(见表2),统计发现著作方式与被引频次有显著的负相关(见表3)。
统计表明,如果将著作方式按类别赋值,著作方式1-3的顺序与被引次数存在显著的负相关关系。即著作方式可以作为判断图书学术价值的一个参考指标。
但是比对各著作方式被引次数均值(见表2)发现,编著类别的被引次数均值最低,这与前述负相关关系存在矛盾。考虑到其样本数较其他两类低,因此将其与被引次数较低的一组,即与主编方式归为一类。重新进行相关分析(见表3),发现显著的相关关系存在,并且相关系数高于之前。因此,本研究将著作类型分为两类,著赋值1,其他赋值0。
3.2出版社的编码
出版社信息的编码参考学界关于核心出版社的研究。以是否属于核心出版社给予编码,属于赋值1,不属于赋值0.
以图书的被引频次为指标,依据出版社信息将被引频次叠加,再根据帕累托定律,从高到低将占总被引频次80%左右的出版社列为核心出版社。由于排序可以依据被引总数或者是被引平均数进行,因此,需要比较这两种情况哪一种与核心图书具有更高的相关性。
表4表明,按照平均被引次数确定的核心出版社相关系数大于按照总被引次数确定的核心出版社。因此,本研究按照出版社图书平均被引次数确定核心出版社,并给予赋值1,其他赋值0.表5为出版社编码及出版图书情况。
3.3著者信息编码
著者信息的编码依据学界提出的核心著者概念进行界定。以是否属于核心著者给予编码,属于赋值1,不属于赋值0.核心著者的界定方法,以图书的被引频次为指标,依据著者信息将同一著者所著图书被引频次叠加,再根据帕累托定律,从高到低占总被引频次80%左右的著者作为核心著者。由于排序可以依据被引总数或者是被引平均数进行,因此,需要比较这两种情况哪一种与核心图书具有更高的相关性。
表6表明,按照平均被引次数确定的核心著者其相关系数大于按照总被引次数确定的核心著者。因此,本研究按照著者出版图书平均被引次数确定核心著者,并给予赋值1,其他赋值0.表7为著者编码及出版图书情况。
4、三种指标的价值判断效能
4.1三种指标与学术图书价值的关联验证
完成对中文学术图书学术价值编码以及预设的三种预测途径的编码后,首先需要验证新产生的预测途径变量与学术价值变量存在关联性。在关联性存在的基础上比较各途径的各个效能指标。
各个途径变量与图书学术价值变量是否存在关联,采用2×2的列联表卡方检验方法进行验证。本研究应用SPSS19.0版软件进行统计分析,对著作方式、核心出版社、核心著者分别与图书学术价值进行列联表卡方检验,结果参见表8。
结果表明,三种途径显著性系数均小于0.01,三种途径与图书学术价值存在极其显著的关联。因此,通过三种途径对图书价值进行判断可概括为:①图书著作方式为著的,为核心图书(高价值学术图书);②图书出版社为核心出版社的,为核心图书(高价值学术图书);③图书著者为核心著者的,为核心图书(高价值学术图书)。
4.2判断效能指标的界定
依据某途径进行图书学术价值判断,根据判断结论和该书实际价值两个维度,可以将判断结果分为四种类型,即选准、筛准、漏选和漏筛。依据这几种类型的数据进行组合运算可以计算出相关的效能指标。本研究有关的效能指标界定及计算方法如下:
选准指该图书属于核心图书,同时也判断其为核心图书。选全率指的是选准数与应选数(核心图书数)的百分比值,与信息检索结果的“查全率”含义相近,表示核心图书入选的全面性。
筛准指该图书不属于核心图书,同时也判断其为非核心图书。筛全率指筛准数与应筛数(非核心图书数)的百分比值,与信息检索结果的“查全率”含义也相近,表示非核心图书筛除的全面性。
入选率指判断为核心图书的数量与图书总数的百分比值,入选率低表明在实际工作中将要采购的数量少。
总体判断准确率指选准数与筛准数之和与图书总数的百分比值,从总体上表明某判断途径的效果。
选准率指判断为核心图书数中确为核心图书的百分比值,与信息检索结果的“查准率”含义相近,表示核心图书入选的准确性。
筛准率指判断为非核心图书数中确为非核心图书的百分比值,与信息检索结果的“查准率”含义也相近,表示非核心图书筛选的准确性。
判断效能是总体判断准确率与入选率的比值,平衡了入选规模的影响,更能显示判断的准确性。
4.3三种判断途径效能比较
比较三种判断途径的各个效能指标(参见表9),可以发现总体判断准确率以核心著者最高,达到88.2%,核心出版社居中,达到69.9%,著作方式最低,为50.4%。
依据帕累托定律,核心图书仅为20%左右,本研究样本核心图书占总数的19.9%。从入选率也可以看出,通过著作方式入选的图书达到59.3%,通过出版社途径入选则达到40.4%,通过著者途径入选则为25.6%。通过著者途径判断入选,总量上最接近核心图书理论分布情况。在实际采访工作中,工作人员关注的是高价值的图书尽量能够收全,而剔除的图书尽量能够准确。因此选全率和筛准率的意义对于实际工作更加重要。
从表9可以看出,三种方法的选全率和筛准率较高,在选全率上,最低的著作方式途径也达到了74.1%,而在筛准率上,最低的著作方式途径达到87.3%。这表明,这三种途径用于判断图书价值均具有较高的应用价值。
比较各途径的判断效能,可以发现三种途径从著作方式到核心出版社再到核心著者依次接近倍增。因此总体上看,可以作出核心著者途径判断效能最佳,核心出版社略低,著作方式较差的结论。而比较各项明细指标,也支持此结论。
总的来说,核心著者途径入选图书少,选全率高(84.7%),筛准率高(95.9%),但由于核心著者数量较多,判断较为复杂;核心出版社途径入选图书近2倍于核心图书,选全率较高(75.6%),筛准率高(91.8%),核心出版社数量大幅度少于核心著者且较为稳定;著作方式途径入选图书近3倍于核心图书,选全率(74.1%)与核心出版社途径接近,筛准率较高(87.3%),著作方式类型简单,图书可直接提供该信息。
5、各种预测途径组合运用效能
在实际工作中,采访人员并不是仅依靠一种途径进行判断,可以综合运用三种途径对图书学术价值作出判断。根据三种途径的不同取值,可以组合为八种判断途径,依据入选图书中核心图书占比由高到低排列,可以得到选书途径优先次序,计算其累积选全率和累计入选率,见表10.可以看出,在选书的过程中,可以根据经费或计划采购数量,依次根据各个组合途径选书,以获得相对较高的选全率和较低的入选率。
前四种选书途径汇总起来即核心著者选书途径,该途径可以在25.6%的选书率的基础上达到84.7%的选全率,比较适合经费较紧张的情况下采用。
前六种选书途径汇总起来是核心著者或核心出版社选书途径,只需两者满足其一即可入选,该组合在选书近半数(47.9%)的情况下达到94.2%的选全率,此途径组合适合经费较为充足且对选全率要求较高的情况下采用。
前七种选书途径组合汇总起来就是三种途径任意满足其一即可入选,该途径可以在选书74.7%的基础上达到98.1%的选全率,此途径组合适合经费充足,且极为需要选全率的情况下采用。
6、结语
综上所述,中文学术图书的著作方式、核心出版社、核心著者均为有效的判断图书学术价值的途径。其判断效能从高到低依次为核心著者、核心出版社和著作方式。组合运用三种途径,可以根据自身经费情况和对高价值学术图书选全的需求来确定组合方式。采用核心著者途径为经费优先模型,适合经费紧张情况下使用。核心著者和核心出版社任一满足的组合方式为综合最优模型,经费较充足单位采用。而核心著者、核心出版社及著作方式三者任一满足的组合方式则为选全优先模型,经费十分充足情况下采用。
研究的不足及需进一步研究之处有:第一,样本方面,由于条件所限,仅选用1995-2005年间出版的法律类图书5962种为例,相对于每年数十万种的图书出版量来说无论数量还是种类的代表性上都有不足之处,需后续扩充中文社科学术图书类别和数量来对研究结果进行验证。第二,本研究核心出版社和核心著者界定的数据来源于图书被引次数,还可以根据图书在图书馆的利用情况以及专家评定等进行界定,今后的研究中也可综合上述因素进行界定。第三、由于著者群体大且需经常更新,核心著者库建立的难度较大,因此还需要对核心著者的界定方法和效果进行进一步的研究。著者核心期刊发文情况或者其论文被引情况也是需要考虑的变量。原载《图书馆》2016年第3期