首页论文查重动态论文检测知识搜索平台

论文检测知识搜索平台

时间:2014-03-25 编辑整理:早检测网 来源:早检测网

介绍了CNKI知识搜索平台的功能,重点阐述了它的特色,它从技术、资源方面实现了多种资源的整合、实现了实时的知识聚类、知识元搜索、提供多样化的搜索排序和知识元链接功能,大大优于现有的各种搜索引擎和检索平台。本文对CNKI知识搜索平台的功能进行了评价,认为CNKI知识搜索平台是基于对文献内容的搜索,弥补了搜索引擎及同类检索平台的不足,能够满足用户需求,代表了电子资源检索平台的发展方向。

知识元搜索引擎:CNKI知识搜索平台

CNKI是在中宣部、新闻出版署等主管部门支持下、由清华大学承担的一项浩大的知识工程。2006109,新闻出版总署在清华大学召开了十五国家重点电子出版物、十一五国家重大出版工程中国学术期刊网络出版总库6(阶段性成果)鉴定会。CNKI知识搜索平台是中国学术期刊网络出版总库出版传播应用平台,本文主要介绍其检索功能,并对平台进行分析评价。

1CNKI知识搜索平台实现的检索功能及特点

1.1CNKI文献搜索,基于文献内容的知识搜索其搜索范围包含近8000种期刊/杂志,300所大学研究院所博士硕士论文,1000种学术会议论文集,1000种重要报纸文章,实时数据更新。数据涵盖自然科学、工程技术、医学、农业、生物、文学、历史、哲学、政治、经济、法律、教育等领域的最新科技文献资料。

搜索引擎及普通数据库检索平台主要是通过关键词匹配的简单方式查找相关文献信息,但是,用户通常很难用几个孤立的关键词表达清楚自己的检索要求;CNKI文献检索是基于对文献内容的详细标引,可以从任意位置搜索CNKI文献,包括标题、作者、摘要、全文等位置;从多维角度展现搜索结果,包括引文、时间、作者、文献类型等角度;通过知识聚类协助用户完成搜索,包括词聚类与文章聚类;通过文献链接引领用户进入知识网络,包括引证文献、相似文献等链接。

1.2CNKI数值搜索,一切用数字说话以/一切用数字说话0为理念,提供数字知识和统计数据搜索服务,是一个数字知识问答系统和统计搜索引擎,能够从文献全文中搜索各种数据的数值,如化工行业2005年产值等。以数值知识元作为基本的搜索单元,可提供更精准的知识服务,数值知识元是描述客观事物或者事件数值属性(如时间、长度、高度、重量、百分比、销售额、利润等)的知识单元。CNKI数值知识元库中包含5000多万条知识元,内容覆盖各学科领域,从科学知识到财经资讯,从大政方针到生活常识。

1.3CNKI新概念搜索,追踪学术新概念学术研究的灵魂在于创新,创新成果通常以提出新的定理、概念、方法等形式发表出来。CNKI新概念搜索提供对学术新概念的浏览和查询,其基于CNKI现有文献,按照年份、专业、类别收录所有文献中出现的新概念的产品,能够从文献全文中按时间和内容范围搜索概念术语及其解释,支持全称、简称、缩略语等进行查询。目前库中收录了2000年至2006,每年CNKI库中出现的新概念,并且给出新概念的具体文章出处,用户可以直接点击查询。CNKI新概念的搜索方式有两种,一种是年度分类导航和专业类别直接搜索查看;另一种是根据术语的关键词手动搜索。

1.4CNKI学术定义搜索,实现学术定义的快速查询CNKI学术定义搜索提供对学术定义的快速查询,内容全部来源于CNKI全文库,涵盖了文、史、哲、经济、数理科学、航天、建筑、工业技术、计算机等所有学科和行业。使用学术定义搜索可以得到想要查询词汇的准确学术定义,并且可直接查询定义出处。不同于一般的网页和文献搜索等参考型搜索引擎系统,CNKI学术定义搜索是一部不断更新完善的学术定义词典,力求为用户提供最权威、最准确的学术定义概念。

1.5CNKI表格搜索和CNKI图片搜索,首创对学术图形、表格内容的搜索

CNKI表格搜索和CNKI图片搜索能够实现对学术图形、表格基于内容的搜索。CNKI表格搜索能够搜索文献中的表格,可以按表名或表格中的内容进行查询。CNKI图片搜索能够搜索文献中的图片,能通过图的标题、描述进行搜索。图表库分别包含500万以上从文献中自动抽取的图形、表格,以及他们对应的标题、所在文献、作者、文献中对图表内容的阐述等,以此实现基于内容的图表搜索。这是一般搜索引擎无法实现的。

1.6CNKI翻译助手,全能翻译工具

CNKI翻译助手能实现对中英文词、短语、句子的辅助互译。不同于一般的英汉互译工具,CNKI翻译助手是以CNKI总库所有文献数据为依据,它不仅提供英汉词语、短语的翻译检索,还可以提供句子的翻译检索。不但对翻译需求中的每个词给出准确翻译和解释,给出大量与翻译请求在结构上相似、内容上相关的术语使用实例、短语使用实例等,方便用户参考后得到最恰当的翻译结果。

CNKI翻译助手采用自动抽取技术,CNKI系列数据库中挖掘整理出120余万常用词汇、专业术语、成语、俚语、固定用法、词组等中英文词条以及1000余万例句,形成海量中英在线词典和双语平行语料库。数据实时更新,内容涵盖自然科学和社会科学的各个领域。

与一般的双语词典相比,CNKI翻译助手具有以下优势:一是通过将句子拆分为词,能够对短语或句子进行辅助翻译;二是除了词汇翻译外,还提供了大量的例句,并按句子结构相似性进行排序;三是能够翻译术语的英文缩略语。

2CNKI知识搜索的评价

2.1CNKI知识搜索实现了理念上的创新,体现了资源检索平台及搜索引擎发展的方向

资源检索搜索工具已经发展为一个新的研究、开发领域,需要用到信息检索、人工智能、数据挖掘、自然语言处理等多个领域的理论与技术。CNKI知识搜索平台基于先进的设计理念,实现了对文献内容的详细标引,实现了对学术图形、表格内容的检索,满足用户对文献内容准确检索的需求。解决了现有搜索引擎及资源检索平台存在的不足,体现了信息资源整合传播、增值利用和知识服务的理念。

2.2CNKI知识搜索实现了多种资源的整合

CNKI制定了/CNKI系列数据库产品标准0,涉及从数据入编、加工到最后形成数据库产品的全过程,为开展知识挖掘提供了基础;CNKI建设了/中国知识资源总库0,及各种知识库资源,包含近8000种期刊/杂志,300所大学研究院所博士硕士论文,1000种学术会议论文集,1000种重要报纸文章,实时数据更新。数据涵盖自然科学、工程技术、医学、农业、生物、文学、历史、哲学、政治、经济、法律、教育等领域的最新科技文献资料。在资源数量上和完备性上为实现知识搜索提供了保障。

2.3CNKI知识搜索进行技术创新,实现了检索结果的知识聚类

聚类分析已成为标准的分类技术,检索搜索工具一般都可以实现初步的聚类。但CNKI知识搜索提供的知识聚类功能是一般的检索平台和搜索引擎没有的。知识聚类是针对用户输入的搜索词和搜索结果由系统智能处理后得到的结果,它代表了在检索结果中和用户所输入检索词最相关的一部分词汇,它可以帮助用户明确检索需求、调整检索策略、进行文献筛选。

如以/信息共享空间0作为检索词检索信息共享空间方面的文献,采用高级检索方式,限制在标题字段,得到检索结果52条。CNKI提供了文献类型、文献所属学科属性和结果聚类三种聚类方式。文献类型、文献所属学科属性是常见的聚类方式,CNKI提供了独有的结果聚类,即基于快速聚类算法,对检索结果的知识点进行聚类,并将知识点显示给用户,帮助用户改善检索表达式,扩展检索意图。

2.4CNKI知识搜索实现了知识元搜索,这是其创新之处从2002年开始,清华大学开始尝试利用一种/知识网络0的方式来组织知识,通过知识之间在微观水平上的联系把知识直接关联起来,使知识可以识别并相互切换,便于人们查找利用。组成知识网络的手段之一叫知识元链接。通常,我们把这些相对独立的部分称为知识元。知识元是指相对独立的、表征知识点的一个元素,它可以是一段文字、一幅图表、一个公式、一章或一节、一段动画、一个程序等。知识元链接,是指从一本书、一本杂志、一篇文章中把最小的知识单元提炼出来,比如把一个概念、一个事实、一个数据等等实际能说明某个知识的元素提炼出来,这样可以降低人们查找知识的难度;同时通过小的知识单元能够把大的知识单元,比如一本书、一篇文章相互之间的关系建立起来,一个知识单元的描述和定义一般和其他的知识相关,可以从知识本身的定义和描述当中建立起知识之间的关系及文献之间的关系。目前,5中国学术期刊网络出版总库6已经建立起容纳40万概念知识元、1000万数值知识元的庞大知识元数据库。CNKI知识搜索平台因此对广泛分布在网络上的知识信息具有了一种强大的功能,即尽管其他网站的知识信息没有建立起体现知识之间联系的知识网络,在内容上不能呈现出一定的关联,只要通过CNKI平台,就可以把放在任何网站内的数据库或任何网站上的网页之间的关系建立起来,使整个CNKI网格资源中所有的网页或数据库成为一个通过知识网络整合的整体,供一站式检索使用。

2.5CNKI知识搜索提供多样化的搜索排序,利于用户对检索结果进行浏览、分析、管理

CNKI文献搜索提供多种个性化检索结果排序方式,(1)综合排序:综合考虑文献的多种因素给定排序结果,是检索结果的默认排序方式。(2)相关度排序:文献按匹配检索词的程度排序。(3)被引情况排序:文献按被引用次数排序,反映了文献被传播利用的情况。(4)期望被引排序:文献未来一段时间内被引用情况的预测排序,是系统自动计算的参考值。(5)发表时间排序:文献按发表的时间排序,最新发表文献排在最前列。(6)作者指数排序:文献按作者在学科领域内的知名度排序,是系统自动计算的参考值。

2.6CNKI知识搜索提供知识元链接功能

知识元链接,是指从一本书、一本杂志、一篇文章中把最小的知识单元提炼出来,比如把一个概念、一个事实、一个数据等等实际能说明某个知识的元素提炼出来,这样可以降低人们查找知识的难度;同时通过小的知识单元能够把大的知识单元,比如一本书、一篇文章相互之间的关系建立起来。基于知识元链接功能,CNKI知识搜索能针对搜索结果提供相似文献链接、同类文献链接、文献引用链接、文献来源链接,能带给用户更多的文献信息。点击文献标题可以进入CNKI知网节。如果具有下载权限,还可以直接下载文献CAJPDF两种格式的全文。提供搜索词的学术定义、搜索词的学术研究趋势、搜索词相关的数字和搜索词的中英文翻译。

2.7CNKI知识搜索的不足及尚需改进之处

目前,CNKI知识搜索平台在知识挖掘方面,既有任意词全文检索快照,又有新概念、数值、学术定义、图片、表格、中英文整句对照翻译等知识元搜索功能,广泛采用了元数据加工、规范文档、文献互动传播数据的规范化分析成果,实现了对搜索结果进行多种高性能的排序和动态聚类。但同时,CNKI知识搜索平台还不能很好地满足不同用户不同方面的需求,因此有必要将它改造成为一个能够满足各类用户需求的多样化的服务体系。

2.7.1CNKI知识搜索不能实现精确检索

精确检索是指检索结果中包含检索词的原形。即指按照所输入的字的形式实现精确地匹配的检索。如信息共享空间,是一个固定短语,英译为informationcommons,简称,IC,但在CNKI知识搜索平台中由于采用了知识元为检索的单位,同时没有提供相关的检索技术进行实现,信息共享空间不能通过限定作为一个固定的短语或词组,这样就造成结果的查准率降低。如采用CNKI文献搜索检索有关信息共享空间的文献,结果为52篇文献,经过逐篇浏览文摘,确认其中只有6篇文献是与信息共享空间相关的文献。在这一点上,CNKI知识搜索平台应借鉴Google的技术和实现方式,以使检索功能更完备,满足不同用户的个性化的检索需求。

2.7.2检索结果相关性的判定标准科学性不足,还需完善在信息检索中,相关性是一个关键的概念。信息检索的/相关性0(relevance),是指信息检索系统针对用户的查询(query)从文档集中检出的文档与查询之间的一种匹配关系。相关性排序是指在检索到的结果集合中能够优先提供最具有价值的结果给用户,这是体现搜索检索工具质量的一个重要指标。CNKI知识搜索平台提供了相关性排序方式,但其判定标准科学性不足,导致相关性排序结果明显出现错误。如采用CNKI文献搜索检索有关信息共享空间的文献为例,检索结果中期刊论文为35,其中与信息共享空间相关的文献6,采用相关性排序时,6篇文献没有排在最前面,也就是说,CNKI知识搜索平台的相关性测度与文献与检索需求的实际相关性有着较大的差别,这是CNKI知识搜索平台需要改进之处。

3结  语

19959,清华大学创办了5中国学术期刊(光盘版)6,CNKI知识搜索,开始了利用先进技术整合出版资源之路。经过10年的努力,如今的5中国学术期刊网络出版总库6不仅能够实现文献资源的检索与共享,而且还在技术创新的基础上实现了大量增值服务功能。正所谓/十年磨一剑0,CNKI知识搜索平台是我国由自主知识产权的文献检索系统、知识挖掘系统、文献评价研究系统及数字化学习与研究平台,已经达到国际先进水平。

              周秀会

( 天津工业大学, 天津 300 160)



在线咨询
在线留言
系统列表
返回顶部