首页论文检测教程通过词频指纹论文检测算法统计论文中抄袭相似度

通过词频指纹论文检测算法统计论文中抄袭相似度

时间:2014-05-02 编辑整理:早检测网 来源:早检测网

An algorithm for plagiarism-detection of scientific papers based on local word-frequency fingerprint is presented. Sentence is regarded as the basic component elements of a document, and extracting efficient keywords, sorting and reconstructing them. According to the code and word-frequency, the fingerprints are get to compute text similarity degree.【提出一种基于局部词频指纹的论文抄袭检测算法。将句子看成文档的基本构成元素,对其进行有效关键词提取排序重构,根据编码和词频联合方式获取句子指纹,以此计算文本间相似度。在新闻网页精简集SOGOU-T 上的实验结果表明,该算法在一定程度上克服了现有论文抄袭检测算法检测精度低的缺点,具有较快的检测速度。】

概述

随着信息共享便捷化,论文抄袭现象呈上升趋势。剽窃他人成果,篡改或伪造数据,给学术发展带来严重危害。因此,论文抄袭检测技术[1-2]已成为当前研究的热点。目前,对于英文论文的抄袭判定已比较成熟,主要采用数字指纹[3]和词频统计[4]等技术,但对于中文论文抄袭的判定还存在识别率低、效率不高等问题。文献[5]提出了基于篇章结构的文档相似度检测算法,根据学术论文特有的篇章结构,将文章看作一个八元组,构造检测函数。该方法能够覆盖全文特征,但计算复杂,当样本库规模较大时,检测速度较慢。另外,由于结构与正文是异构的,异构处理也会增加算法复杂度。文献[6]提出了基于段落相似度的论文抄袭判定方法,用向量空间模型表示文本,用TF-IDF 公式统计词频,根据向量间夹角余弦计算相似度。该方法利用词频统计对段落进行检测,不能体现文档整体特征。文献[7]提出了基于句子相似度的文档复制检测算法,通过MD5 获取句子的数字签名作为指纹,以数字指纹的形式进行相似度计算。该方法对文本的处理简单有效,摒弃了复杂的转换过程,实现了生成指纹的唯一性和高分布性。但求解句子的最长公共子序列花费时间较长,从而使算法的检测速度较慢,不适合大规模样本库检测。本文提出一种改进的基于句子相似度的局部词频指纹算法,对有效关键词进行词频统计,形成整体有序、局部无序的检测结构,在保证分类速度的前提下提高了分类精度。

数字指纹技术和词频统计技术

数字指纹技术

数字指纹技术依据生成的待比较文档的指纹,通过对比样本库进行抄袭检测。当匹配指纹数量超过一定阈值时,认定存在抄袭行为。同时,引入松弛因子以提高检测的准确性,使之具有很好的推广能力。指纹生成算法是数字指纹技术的关键,一般利用Hash 函数对文档中的特征标记进行计算,获得唯一整数值。比较典型的方法是Karp-Rabin 算法,首先用式(1)计算 Hash(s0 ,m?1)。

其中,s 是长度为 m 的字符串;p 是一个大质数; i ( 0,1, , s i = m?1) 为 s 中第 i 个字符的编码。然后根据式(2)计算1 Hash(s ,m)。


以此类推,得到整个文档的指纹序列,根据指纹进行相似度检测。采用数字指纹技术,检测速度快,适合大规模运算,但只能用于精确检测,对局部相似检测的准确率较低。

词频统计技术

词频统计技术主要借助向量空间模型来实现。在此模型中,文档由一系列特征表示,特征可以是字、词、句等。一篇文档可表示为 ( 1, 2 , , n ) D t t ?? t ,其中, i ( 1,2, , ) t i = n 表示各个特征项。根据式(3)为每个项赋予一个权重。

其中,tfi (d)为词条 ti 在 d 中出现的频率;N 为所有文档的数目; ni 为出现 ti的次数。这样,文档表示为 D(t1,w1;t2;w2;??,tn ,wn ) ,简化形式为 1 2 D = D(w ,w ,??,wn ) 。在所生成特征向量的基础上,根据式(4)计算2 个文档的相似度:

其中,N 为特征项的个数;wi 为第i 项的权重。词频统计技术能够实现近似检测,准确率较高,但其检测速度较低,查准阈值的设定也有待确定和证明。

本文算法描述

许多抄袭论文是打乱原论文的顺序,进行一定的增加或减少,不会对抄袭内容做实质性修改。为此,本文提出了一种基于局部词频指纹的抄袭检测算法。算法的基本思想是将句子看成文档的基本构成元素,对其进行有效关键词提取,并排序重构,根据编码和词频联合方式获取句子指纹,以此计算文本间相似度。具体算法描述如下:

步骤1 文档预处理。分词,去除虚词和停用词,同时将

保留词记为关键词。

步骤2 以句子为单位生成向量空间模型。将一篇文档看

作若干句子的集合D ,1NiiDS== ∪ 。其中,N 为句子个数; Si = (w1,2, , n ) w ?? w ,wj ( j = 1,2,??,n)为句子 i S 中第j 个非重复关键词的权重,根据式(5)计算权重。


其中, ( j ) Enc k 为关键词j k 的编码; j ( ) tf S 为关键词j k 在句子中出现的频率;N 为文档中句子的总数; j n 为j k 出现的次数。

步骤3 根据式(6)计算每个向量的指纹i fp 。

其中,n 为句子i S 中非重复关键词的个数;p 为一个32 位或64 位的大质数。

步骤4 选取全指纹,将待检测文档与样本库中每个文档进行比较,利用式(7)计算文档相似度:


其中,FP(A, x) 和 FP(B, x) 分别为文档 A、B 生成的指纹集合。利用式(9)计算文档之间的相似距离:

步骤 5 根据相似距离 d(A,B)确定文档抄袭程度。

实验结果与分析

本文实验所用语料为新闻网页精简集SOGOU-T,从中选取1 990 篇文档作为基础数据集(Fundamental Datasets,FD),预处理后形成指纹存入数据库,作为抄袭检测依据。测试文档集由两部分文档组成,一部分从基础数据集中选取(640 篇),并做不同种类的修改,构成论文抄袭集(Modify Texts,MT);另一部分从SOGOU-T 中随机选取(160 篇),构成随机测试集(Random Texts, RT)。

定义 RTn表示从随机集中选取 n 篇文档; iMTn 表示从抄袭集中选取n 个做第i 类修改的文档,具体修改种类如下:

(1)未做修改;(2)段落位置调整;(3)部分段落删除;(4)句子

位置调整;(5)部分句子删除;(6)句子修改,增加、减少关键

词、打乱顺序;(7)多篇文档拼凑;(8)多篇文档拼凑且内容做

较大修改。

实验中采用准确率P、召回率R 和F1 作为评价指标。

A=检测相似且实际也相似的文档数

B=检测相似但实际不相似的文档数

C=实际相似但检测不相似的文档数

实验环境为:CPU Pentium 2.93 GHz;内存1 GB;操作系统为Windows XP。文档相似距离阈值取0.4。

表1 给出算法在不同测试集上进行检测得到的准确率、召回率和F1 值。表2 给出了数字指纹法、词频统计法和本文算法在整个测试集上进行检测的准确率、召回率和F1 值。

实验结果表明,本文算法具有较好的检测性能,准确率高于词频统计法,与数字指纹法相当;召回率较词频统计法和数字指纹法都有较大幅度的提高;检测速度比数字指纹法略低,比词频统计法快3 倍。由此可知,本文算法具有较高的识别精度和较快的识别速度,在一定程度上弥补了数字指纹法修改文档识别率低和词频统计法识别速度慢的缺陷。

结束语

本文提出的基于局部词频指纹的论文抄袭检测算法在一定程度上弥补了数字指纹法和词频统计法的不足,提高了检测精度和检测速度。采用该算法在新闻网页精简集SOGOU-T上进行了检测实验,结果表明了其有效性。但该算法还存在实验统计4 个参数。平均耗时:130 次连续运算的平均每次消耗时间(单位:s);命中率:130 次连续运算结果没有坠入局部最优的次数比例;平均迭代次数:循环运算满足停止条件的平均次数,第1 个函数对每代结果平均值变化判断是否结束运算,第2 个函数用固定的迭代次数;平均最优值:反映其收敛精度。采用多个测试函数进行测试,限于篇幅,只选取具代表性的2个。


其中 ,定 义 域 i [ 5.12,5.12] x ∈ ? ;最小 值 为 min( f ) = f (0,0,??,0) = 0。

实验1 采用的是Rastigrin 函数,区域机制x1、x2 轴均划分4 个区域合共16 个区域,10 次等步长区域移动后与初态重合,每个区域中2 个种子作为进化种群,种群规模为32。实验2 属于高维函数,Record 采用随机取若干维进行移动(优胜者优先[1]Record)以及采用随机取运算区域等针对高维函数的机制。其中,每维分4 个区域,区域移动机制每次选10 维进行等值微调,处理机种群规模μ 为50,每次选取25 个区域进行处理。寻优效果曲线只显示前500 代的情况。各算法分别独立运算130 次,图2、表1 分别是实验1 的算法最优值变化曲线和实验结果考察参数。图3、表2 是实验2的算法最优值变化曲线和实验结果考察参数。



2 个函数的实验结果表明,3 个算法均使用相同的种群规模,虽然SDMGAs 每代消耗的时间比IPSA 稍微多,但无论是收敛速度,还是命中率均有很好的效果。在390 次运算中,SDMGAs 都命中最大适应度值领域,而且非常有效地避免早熟现象。

搜索空间划分移动策略通过区间处理机、区域移动划分机制以及一个用于控制的Record,既把随机个体尽可能均匀在求解区域中,又提高了收敛速度。通过实验发现该算法效率高,寻优能力强。该算法构造了一种框架,有相当的可优化空间,并可应用于各种智能计算及工程控制领域中。


在线咨询
在线留言
系统列表
返回顶部