时间:2014-09-23 编辑整理:早检测网 来源:早检测网
在Google和Baidu中对“抄袭”进行搜索,得到百度百科中对“抄袭”的定义:“抄袭指窃取他人的作品当作自己的。包括完全照抄他人作品和在一定程度上改变其形式或内容的行为。是一种严重侵犯他人著作权的行为,同时也是在著作权审判实践中较难认定的行为。抄袭检测是从内容的相似度上对抄袭行为进行判定。
抄袭检测技术起步于20世纪70年代,主要是软件剽窃检测方面的研究,后来自然语言的重复检测技术在90年代之后得到了较快发展。抄袭检测是基于庞大的现有文档数据库进行的,通过提取待检测文档的特征——关键词、词的使用频率、词的位置,在以词为索引以文档序号等为内容的倒排索引文件中进行搜索,搜出包含这些词的文档,然后将待检测文档的特征分别与这些文档的特征进行相似度运算,以相似度为指标得出抄袭程度的结论。此文中,文档定义为建立索引的文本单位,可以是一篇论文,也可以是段落甚至句子。抄袭检测的核心工作流程如图1所示。
(1)文档分析。以句子为单位进行内容比较是一种较为简单的实现,当前一些网站提供这样的抄袭检测服务:其利用Google、Baidu等搜索引擎分别逐条以句子为单位进行搜索,得出每一句是否为原创的判定,并最终通过计数来计算出原创度。但是这样的服务是基于反复进行网络搜索实现的,要耗用较长的时间,而且因一字之差就会得出两个相似的句子为不相同的结论,所以只能检测出很原始懒惰的抄袭,这样的服务实用性很差。以句子为索引进行查询几乎是不可能的。事实上查询是以词为单位进行的。待检测文档提取了这样的文档特征信息: 关键词(WordID)、词的使用频率(NHits)、词的位置(HitList),如表1所示。
在这里最重要的技术是分词技术,也称切词。以简单例子说明,对于“学历史学好”这个句子,人很容易正确理解,但对于机器来说,却可能分成“学历/史学/好”、“学/历史/学好”、“学/历史学/好”等。目前的分词手段主要依靠了字典和统计学的方法。具体有“最大匹配法”、“N-Gram”等方法。“最大匹配法”总是认为最大匹配的词汇最优,但是局部最优很有可能不是全局最优。“N-Gram”采取N单位长度的逐字切分方法,照顾了所有可能,但是同时其关键词表却很大,这对于要尽力压缩索引表的目标来说是很不经济的。由于语言的多样化,没有哪个分词方法能解决全部的问题,这也正是许多科学家开展更深入研究的动力。
(2)索引技术。为了查询哪些文档包含了这些关键词,以及词的位置信息,需要建立一个以词为索引以文档序号等为内容的索引文件,其基本格式如表2所示,称为倒排索引。
Wordn是一个词汇序号,通过词典找到Wordn的位置,然后通过DocList位置域存放的位置信息找到记录表。记录表中的一个记录由文档编号(DocID)、索引词在文档中命中的次数(NHits)、命中的位置列表(Hitlist)组成。倒排索引是相对于正排索引定义的,正排索引以文档序号为索引,在对文档进行分词时创建。正排索引不能满足全文检索的需要,它只是在创造倒排索引时存在于内存之中。格式如表3所示。
部署时,若索引文件的规模很大,为了效率、安全稳定等多方面的因素,一般采取分布式部署,这样同时也能加快倒排文件的创建与更新速度。分布式索引主要有两种部署方式,以文档编号(DocID)划分的“局部倒排文件”和索引词编号(WordID)划分的“全局倒排文件”。
对于局部方案,每个索引节点负责对一个DocID区间的文档进行索引,在检索时,将检索请求广播到每个节点,最后由检索代理合并查询结果。对于全局方案,索引节点按WordID将倒排文件分布式地存储在不同的索引节点上,对于一个检索请求,有可能在一个索引节点中进行,也有可能分布在不同的索引节点上进行。局部倒排文件具有可靠性高,降低负载,提高查询效率的优势。而对于全局倒排文件,在多处理器多磁盘系统下,如果检索词均匀的被请求或索引词分布偏差不大,则能够避免局部倒排文件下检索请求时必须排队的弊端,在同时多个查询请求时表现较优。索引文件的规模是这样估计的。根据齐普夫(Zipf)法则,第i个经常使用词汇的出现频率和1/i成正比,设词频比例常数为C,则每个词的出现频率为C/i。假设词汇数目为,则有
假定所有文档内容大小为S,抽取词汇率为R,则布尔检索模型下的倒排索引规模为
由此可见,索引的规模同资源文档的大小成正比。在索引构造技术中,应用了大量数据压缩技术,完成大规模的倒排索引文件同时也是当前搜索技术的核心难点。
(3)查询技术。查询到包含关键词汇的所有文档序号等内容后,需要综合运用布尔模型和向量空间模型来求取相似度。布尔模型是指采用AND、OR及NOT等逻辑运算符将多个查询词连成一个逻辑表达式,继而通过布尔运算进行检索的模型。布尔模型表达简单易于实现,检索速度快,但是不能进行相关性排序,这一点不足在向量空间模型中得到部分解决。向量空间模型是将查询词和文档按照关键词的纬度分别向量化,然后通过计算这两个向量间的夹角余弦得到相似度。
向量包含了两种含义:长度和方向。向量中每一个分量可以理解为各关键词权重在纬度上的投影。而关键词权重则受关键词在文档抽取词汇中的出现频率和词的文档频率(表示在所有文档中,出现本关键词的文档所占比率)的影响。经典权重量化方法如TF/IDF方法。根据Claude Shannon(香农)的编码理论,最理想的编码是文档词汇的编码长度的加权平均长度无限接近其熵。
由熵的定义知在理想编码中,与熵的计算公式相对应,每个关键词都做出了-pilog(pi)的长度贡献。引申而来,对于一篇文档来说,关键词的编码贡献为汇的文档频率, 即IDF( inverse document frequency)。词汇越是出现次数多且罕见,其对最终计算得到的平均编码长度的大小贡献越大。TF*IDF即是关键词的权重,这就是经典的TF/IDF方法。如“抄袭检测技术,抄袭检测”这个文档,若“抄袭检测”文档频率为1/4096, 技术的文档频率为1/64, 则向量为( 2/3*log(4096),1/3*log(64))=(8, 2)。这样使得高频词能够很好的降低权重,更好地体现文档特征。根据布尔模型,对文档列表求交集,得到包含关键词的文档特征
列表,通过计算这些文档向量和查询向量的夹角余弦求得向量相似度,再采取堆排序等排序方法取出Top-n,即得到了最相似的n篇文档及其相似度。在以一定的阈值对文档的相似度进行判定即可得出抄袭程度的结论。
当前市场上有多款抄袭检测产品。如美国iParadigms公司开发的Turnitin抄袭检测平台,对比的资源包括网络资源和学术论文库等,被广泛用于对学生作业的原创性检测和评分。我国的AMLC系统采用了多阶指纹快速检测技术和学术文献规范文档,以文章的全文、章节、段落、句子为单元进行检测,并已建立了5,000多万篇文献的多阶指纹比对库,包括“中国知网”出版的《中国学术文献网络出版总库》中的学术期刊、大量博硕士学位论文、会议论文、专利、标准、科技成果报告、年鉴、工具书、报纸,以及斯普林格数据库等15种大型中外文数据库,当前在高校及出版社得到了一定的应用。
Turnitin对比了更广泛的资源,具有查询广度的优势;AMLC则通过多层次逐步细化粒度的策略在检测范围内能更精细地进行检测。
抄袭检测技术利用特征提取技术,对相对直接的拷贝或简单的改动具有很好的检测效果,但其技术特点同时也暴露了其明显的软肋。如同与抄袭检测技术很有渊源的搜索引擎技术,对语言的理解仍然有很大发展空间,如分词技术、同义词处理、尤其是跨语言的处理。互联网具有浩瀚的优质信息,从检测范围上来说,对其进行处理是必须的,这需要应用网页抓取等技术。搜索引擎技术在市场的推动下取得了较快的发展,对其进行借鉴,无疑有助于抄袭检测技术的进步。