众所周知,由于信息技术和因特网应用的普及引发了信息爆炸,信息爆炸的直接结果使得人们处于信息海洋之中被大量的信息所包围,这些大量的信息中有相当数量的网络信息资源。但是尽管信息大量存在,在这些海量信息中找到自己需要的信息却显得更加困难了。于是如何在大量的信息资源中找到自己所需要的信息就成了一个倍受关注的问题。在这样的背景下,需要进一步研究信息资源的组织方式,使纷繁无序的信息资源尤其是网络信息资源逐步向有序化、便于用户索取的理想状态的方向发展,还应该在此基础上充分利用现今已有的信息技术,探寻新的检索方式。
从人的认识心理活动来看,当遇到一个新问题时,往往想参考以前处理类似问题的经验,因此他会将新问题和旧问题进行比较,找出高度相似的旧问题,调整它的解,推导出新问题的解;同时人的大脑也就学习并记忆住了这个新问题及其解,为今后解决类似问题做好了准备。案例检索(Case-basedsearch或Example-basedretrieval)就是对人类的这一认识心理活动进行研究并模仿之而产生的新的检索方式。由于它更贴近人类的自然认识过程,提供的检索结果能更好的为人所用,所以以案例为基础的信息检索要求已成为信息时代的需求,国内关于案例检索的研究也已逐步开展。
1.研究案例检索的必要性
(1)检索的复杂性决定了案例检索的必要性。
信息资源特别是网络信息资源类型多样,数量庞大,资源分散并且质量参差不齐,给高效率的信息检索带来了很大的困难。如何在短时间内获得关于检索课题的全面的、综合的检索结果,并能尽快提供使用成为信息工作者的研究热点。而案例检索将关于某一类问题的检索准备过程、检索过程以及对于检索结果的分析作为一个案例进行研究,并且通过研究案例检索,建立案例库,有利于用户使用现成或相关案例进行更快的检索。
(2)更好的面向用户,为用户提供优质的信息服务目标,也决定了案例检索的必要性。
现代化的信息服务应以用户为中心,提供面向用户的服务,这除了要求信息服务者为用户提供已有的信息以外,还要帮助用户学习如何检索,尤其是帮助他们掌握一定的检索技巧。而以案例的方式帮助和引导用户掌握检索技巧能给用户以更多的感性认识,容易为用户所接受,而且用户还可以直接使用别人已有的知识成果,也加强了用户之间的沟通和交流。
2.什么是案例检索
(1)案例检索的实质
所谓案例检索,实质上就是要在用户给出某一待检案件之后,检索系统能够自动地从案例库中,寻找出用户所指定的方面与案件完全相同或部分相同的案例来;而且输出结果能按符合用户要求的程度进行排序,符合提问程度高的优先输出。
(2)实现案例检索的思想
案例检索就是通过建立案例库,然后在案例库基础上通过案例推理来实现。案例推理(Case-BasedReasoning,简称CBR)的研究始于1982年Shank的论著《DynamicMemory》,其后Kolodener等人1983年在计算机上实现,其思想就是将过去案例与当前问题相联系,利用类比推理进行问题的求解。所以在建立案例库的时候,就需要对准备收录于案例库中的案例的特点,即实质性内容提取出来,构成足以揭示其实质内容的特征集合。进行检索的时候也必须对用户需求进行分析,得出其需求的特征,并根据用户查全及查准的不同需要,给出一个相关程度的要求,然后对案例库内已收集案例的特征集合进行比对,进行案例匹配,得出己有案例与用户需求之间相关联的程度,与用户需求相比对,并最终确定该案例是否为用户需求的案例。
(3)案例检索实现的难点
通过以上对案例检索实现思想的介绍,我们不难发现案例检索的难点主要有以下几点:
①从案例中提取主题等特征信息。无论在建立案例库,还是在提出检索要求的时候,都需要对案例中的特征信息进行提取。在这些需要提取的特征信息中,如果是涉及到案例的外部信息,例如作者,标题等,则较易处理和用计算机系统实现。但是涉及到案例的内部特征,例如主题等信息时,如果是用手工处理,则对案例的加工人员以及检索服务人员提出了很高的要求,另外在信息资源如此庞杂的时代,单靠手工作业对案例进行加工,很容易造成加工标准的不统一和案例库中信息更新的不及时。所以如何准确、及时的从案例中提取特征信息就成了案例检索实现的一个难点。
②案例检索系统效率的提高。案例检索的特点使得完成一次案例检索实际上相当于完成大量的普通检索。在上文中介绍的经典的案例检索模型是基于比较的,检索的速度与案例库的大小呈线形关系,即案例的检索速度随案例库容量的增大而线形下降。对于库容量很大而实时要求较高的应用领域,这种模型的缺点是应用系统难以接受的。同时案例检索中必然会产成大量的中间检索结果,如何解决其存贮问题,并对其进行排序,确定检索结果与检索课题的相关性,在设计案例检索实现算法的时候都必须考虑才能提高检索系统的效率。
③CBR模型的建立和算法的实现。上文已经介绍了案例检索的核心技术在于CBR.一个典型的CBR操作过程由以下步骤构成:第一步,检索最相似的案例(Retrieve),当检索到的结果不是一个案例而是一个案例集合时,则需进一步确定最合适者;第二步,对目标方案进行修订(Revise);第三步,用已有的案例解决新的问题(Reuse);第四步,当前解作为新的案例存储(Retain)。从中我们可以看出,CBR全面模拟了人的认识心理活动,是多种AI技术的综合,目前已成为人工智能技术和知识系统中一个活跃的研究课题,其模型的建立和算法的实现也是实现案例检索的一个难点。
3.案例库建立中应注意的问题
案例库建立的好坏将直接影响到检索的结果和其可用性,在案例库的建设过程中,我们应该注意以下一些问题:
3.1 案例的选择
建设一个检索案例库,首先就需要确定案例收录的原则。对案例的选择应该遵循以下几条原则:
(1)全面性。随着信息服务的日益专业化,案例库的建立根据服务商不同的经营定位必然将走向两极分化:或全面或专业。但无论如何,为了满足用户对查全率的要求,都必须尽量做到全面。
首先,如果选择建立全面的案例库,那么所选案例的主题就应覆盖各个领域的各个专业,这样才能满足不同领域的用户的信息需求。如果选择建立专业的案例库,也必须在专业的专深和全面性上下功夫。其次,无论是选择这两者中的哪一个,鉴于目前信息资源的多样性特点,都必须确保收录检索案例来源比较全面,这样才能节约用户使用多种信息资源(如文献资源、网络资源、联机数据库资源、光盘等)的时间,满足用户全面性以及建立在全面性上的准确性的要求。
(2)典型性。尽管对于案例的全面性有很高的要求,但是一个检索案例库不可能将所有可能的问题都作为案例收入其中,这就要求所选的案例应具有一定的典型性,能反映某一门学科或某一类资源的特点,并能作为同类事件的代表;同时对于案例的选择还要做到大小结合(即大型案例和小型案例的结合)、难易结合,这样才能适应不同需求的信息用户。能否选择有典型性的案例是案例库建设是否成功的一个关键。有典型性的案例不仅可以直接使用,还具有普遍的适用性,可以帮助用户大大提高检索的效率。
(3)准确性。虽然更多的用户对案例库的检索是要借鉴其它问题的解决方案,并不一定是想获得直接可以使用的结果,案例的准确性仍是一个关键,尤其是在检索的思路以及检索结果的研究上。所以要仔细考察案例的准确性,必要时还应亲自重新检索浏览一遍,不能让错误的案例误导用户。
(4)保密性。案例是对一个问题的综合解决,所以其中很可能会涉及到个人隐私或单位的商业秘密,对于案例中的这些部分应咨询当事人的意见,获得授权,而对属于保密范围的信息应予以保护,不予公开。
3.2 案例的收集加工
案例的收集和加工直接影响到案例库建设的成功与否。所以在每一个案例的检索过程中,都要对找到的新的信息资源随时分类和评估。所查到的资源可以按以下标准分类:新闻组(newsgroup)、邮件群(mailinglist)、电子期刊(ejournal)、电子文本(etext)、电子论坛(eref)、电子书籍(ebook)、数据库系统(edatabase)或书本文献。其中前六种的信息资源可以按主题或关键词分类管理。对查到的信息资源评估原则如下:
(1)可获取程度:是否容易获得,收费情况如何,是否能连续稳定的获得等等;
(2)可信程度:该资源所发布的年份,发布的场合及其可信度评级等等;
(3)资源等级:是学术信息资源、政府信息资源还是公司提供的信息资源;
(4)可使用程度:是一次、二次,还是三次文献信息。
在案例的检索过程中,始终按照以上的分类和评估原则对查到的案例信息资源分析处理,便于案例库的建立和以后的再建设。
3.3 案例库的维护及再建设
案例库内的案例信息不应该是固定不变的。为了保证案例库的质量,案例库的建设者必须围绕案例库的建库对象以及案例库使用者的需求对案例库进行维护和再建设,定时和不定时增加新的案例,对于已经没有使用价值的案例要进行剔除,使该案例库能够跟上时代的发展,满足人们需求的不断变化。这样才能保证案例库中的每一个案例都能满足特定用户的需要,并保持一定的使用率。
3.4 案例库的评价
案例库的建设过程还应该积极对案例库评价指标进行探索,才能更好的促进案例检索的发展。案例库评价的标准应该包括对案例的评价标准和对系统的评价标准。对案例的评价标准实际上就可以采用本文在前面已经介绍过的案例选择的标准。而对系统的评价标准,可以参照计算机检索系统的评价标准,例如案例库信息收藏量的多少、检索的速度、引得深度、案例库信息更新是否及时等等。但是由于案例检索和其它检索的不同,它在减少用户对检索过程的参与的同时,也就带来了对检索结果适用性的更高要求。所以在对案例库评价时,应充分重视用户的反馈意见,不断根据用户的反馈及用户的使用情况对案例库进行评价,以不断更新案例库的内容,提高系统指标,更好的满足用户的需要。
当然除了以上讨论的几个案例库建设中需要注意的问题外,还必须注意案例库检索系统的设计。案例检索是由于其更贴近人们日常思维方式而受到人们关注的,所以在案例库检索系统设计中应该突出这方面的特点,比如用户界面采用人性化设计,整个程序设计基于B/S结构,在案例库检索过程中突出其帮助功能等等。
总之,案例检索作为新兴的检索方式,由于其更贴近人们日常思维方式,能提供更便于使用的检索结果,必将受到人们的关注,并逐步成为检索发展的趋势之一。
原载《情报科学》2003年6月。