比通过网络查重同学,得到报告第一件事去看自己论文的重复率。因为报告里没有重复率这个词,所以只有重复比这个指标,复制比是什么意思?实际上,网络报告的复印比和重复率是相同的概念,只是说法不同而已。网络的复制比是重复文字/总字数,得到的比值。这个比例是百分率。文字类似度的概念非常复杂,与语言、语法结构、语句结构等各种要素有关。虽然现在没有统一的定义,但是在哲学、信息理论和语义学中被学者广泛讨论。词句是汉语的基本构成部分,是最基本的语法和语义单位,词句的类似度主观上相当强,不能脱离具体的应用环境来论述语句的类似度。词句的关系非常复杂,不能简单地用数值来判断他们的类似度。与
相同,句子的类似度、段落的类似度以及段落以上文本的类似度都是人的主观占主导地位的概念,其类似度不能单论,应结合到具体的应用背景上。语句是句子的重要构成部分,段落由多个句子构成,文本由多个段落有机地结合在一起,因此文本类似度研究都是以语句类似度的研究为基础进行的,语句类似度研究是句子类似度的基础,句子类似度研究是段落类是类似度研究的基础,这样按等级顺序进行。具体地说,
与具体的应用背景相关联,在论文的检测中,文本的类似度是度量的两个或多个文本之间的匹配度的一个数值,这里的类似度比较重视字面意思上的类似度,忽略词义、语法和结构的类似度,属于此类相似度在“o,1”之间取实数。如果两个文本在结构上完全相似,则相似度值为1。如果两个文本在结构上完全不同,则相似度值为0。如果类似度值较大,则指示接近1并且两个文本的类似度越高。如果类似度值小,则指示接近0并且两个文本越来越不相关。从概念中了解文本类似度研究的重要性,有效计算文本类似度是信息处理的关键。
目前提出了多个文字类似度模型和算法,其中很多都是基于具体应用环境的独特特征,通过多年的经验积累知识进行建模。