如何配置查重方案 - DigitalPlatform/dp2 GitHub Wiki
查重方案的配置一般用户编目过程中的书目查重。
dp2内务的查重功能是基于一种加权评估的算法。先为目标书目库定义一个阈值,软件根据从源记录中抽取的检索点字段内容,建立检索词列表。然后对目标记录的这些检索词顺次检索。在检索过程中,对检索词命中的记录,按照预定义的权值进行累加,检索结束后,权值和高于预定义阈值的那些记录,就认为和源记录相“重”了。
具体设置方法如下:
1.进入【查重方案】对话框
在dp2内务里,点击【功能】-【系统维护】-【系统管理窗】,进入【系统管理窗】界面,在【系统管理窗】里点击【查重】标签,进入【查重】属性页。
在【查重方案】列表下,点击【新增】按钮,系统弹出【查重方案】对话框。
2.设立【查重方案名】
在【查重方案名】文本框里,用户输入查重方案名,然后在【说明】里面,可以简单说明一下这个方案,以便后续调用方案。
3.设置目标书目库。
点击【新增】按钮,系统弹出【目标库事项】对话框,用户从目标库下拉列表里选择需要书目库,然后设定一个阈值,也就是报警值。一般情况下阈值设置为80,然后点击【确定】。这时,所设置的书目库和阈值就增加到【查重方案】对话框的目标库列表当中。
4.设置查重的检索点
选中目标书目库,点击【检索点】列表框右侧的【新增】按钮,系统弹出【检索点事项】对话框。
通常情况下,如果两个书目的ISBN号相同,它们很有可能是重复的书目。用户可以设置【检索途径】为ISBN,【权值】设为50,【检索方式】为“精确一致”,然后,点击【确定】按钮。这时ISBN这个检索点就显示到【检索点】列表里面。
因为前面所设定的查重阈值是80,如果两个书目的ISBN号精确一致,它有50的可能是同一个书目,但没有达到阈值。这时系统不能判定它是重复的书目。
再次点击【检索点】列表右侧的【新增】按钮,在【检索点事项】对话框里,设定【题名】为检索途径,权值设为20,检索方式“精确一致”。然后点击【确定】按钮。现在,题名这个检索点也增加到了查重方案对话框的检索点列表里。
如果两个书目的ISBN和主题词都精确一致,根据刚才的设置,有70的可能性表明它们是同一个书目。但还没有达到阈值的80分。用户可以继续设置,让系统去比对其他项,比如“责任者”。
再次点击【检索点】列表右侧的【新增】按钮,在【检索点事项】对话框里,设定【责任者】为检索途径,权值设为10,检索方式“精确一致”。然后点击【确定】。
通过以上设置,如果两个书目ISBN,主题词,责任者都精确一致,就达到了阈值的80分,系统就可以判定这是重复的书目了。
另外,用户也可以类比设置检索点为“出版发行者”和“出版时间”。
设置完毕之后,点击【确定】按钮,【查重方案】对话框关闭,回到【查重】属性页。用户再点击【查重】属性页右下角的【保存】按钮,该方案保存到系统。
以上,针对一个书目库设置了查重方案。
系统在使用该方案查重时,会按照【检索点】列表中所设置的检索点一一比对书目记录相关字段的内容,如果所有设置的检索点比较下来加权分值大于或等于阈值,系统就会警告这两条记录重复。
如果用户需要对其他书目库设置查重方案,可以继续点击目标书目库列表右侧的【新增】按钮,增加其他书目库。一个查重方案可以对应多个目标书目库。
5.创建缺省关系。
缺省关系是指源书目记录与查重方案之间的对应关系。
在【缺省关系】列表中,可以看到系统中所有设置了查重方案的目标书目库。
用户选中一个数据库,双击,系统弹出【缺省关系事项】对话框。点击【缺省查重方案】输入框后的【...】按钮,系统弹出【指定方案名】对话框。
用户从【指定方案名】输入框的查重方案列表中选择方案,点击【确定】,【缺省关系事项】对话框。再点击【缺省关系事项】对话框上的【确定】按钮,回到【查重】属性页。【查重】属性页里【缺省关系】列表中就把数据库与选定的查重方案对应起来。
点击【查重】属性页右下角的【保存】按钮,缺省关系保存到系统当中。
6.查重原理
查重是一种特殊的检索操作。
软件根据源记录抽取其中的检索点字段内容,建立一个需检索的检索词列表。然后对这些检索词顺次进行检索。在检索过程中,软件会对每个检索词所命中的每条记录,按照为检索点预定义的权值进行累加运算;命中检索点次数多的记录,它就会具有更高的权值和。当针对全部预定义的检索点的检索操作结束后,软件评估每条命中记录,权值和高于预定义阈值的那些记录,就认为和源记录相“重”了。
针对特定的目标数据库进行检索的过程中,哪些检索点要参与到检索中来,每个检索点的权值是多少,最终评估用的阈值是多少,这一整套参数集合起来成为一个“查重方案”。 为了省去在每次查重的时候操作者都要指定查重方案的麻烦,查重方案还需要和具体的数据库建立关联关系。
7.启动查重
启动查重窗进行查重,需要为查重窗准备好一系列环境参数。以下部分主要供系统管理员阅读。
在种册窗的工具条上按“查重”按钮启动查重窗的时候,软件会自动为查重窗准备好下列环境参数。
1)查重方案名 前端软件要把查重方案名作为查重请求的参数发送给应用服务器,应用服务器方能知道采用什么查重方案来进行查重
2)源记录路径 在显示查重命中结果记录的时候,需要知道源记录路径,才能把源记录排除在“重复”的范围之外
3)源记录体 前端软件需要把源记录体作为查重请求的参数发送给应用服务器,应用服务器方能从中抽取出检索点,对目标数据库进行检索操作
查重方案名和源记录路径,都能在窗口上一目了然地看到;而源记录体,可以按“XML”按钮,从随后打开的对话框中看到。
查重方案名可以使用“<默认>”,表示查重时使用和源记录所在数据库关联的缺省查重方案。这种方法,可以在不具体确知查重方案名的情况下,根据源记录所在数据库名来模糊指定查重方案。参见5。不过,必须是当数据库名配置了关联的缺省查重方案的时候,使用“<默认>”查重方案名才能奏效。
查重窗按钮和选项用途
“查重方案”组合框:指定查重方案
“查重”按钮:启动查重过程
“源记录路径”文本框:显示和输入源记录的路径
“XML”按钮:以XML格式显示源记录的内容
命中记录浏览框:显示查重过程中检索命中的记录的浏览格式
“返回低于阈值的记录的浏览列”复选框:决定检索中是否要向命中列表中装入那些低于阈值的命中记录行的浏览列。如果清除此复选框,则不装入那些浏览列(但浏览行会返回),操作的速度会大大加快
“返回全部命中记录”复选框:决定检索中是否要向命中列表中装入那些低于阈值的命中记录行。如果清除此复选框,则不返回那些浏览行,操作的速度会大大加快。
提示信息文本框:显示提示信息
命中记录浏览框
在查重窗的命中记录列表框内,底色为黄色的行表示是和源记录相“重”的记录,也就是查重检索的权值之和高于阈值的那些命中记录。重复记录行左端的图标是一个打勾的文档形状。
在相重行中,往往会出现源记录自己。其实这并不是“重”,查重要排除源记录本身。因此,源记录行会显示为灰色的文字,表示需要忽略这一行。
在浏览行上双击鼠标左键,可以把该行所代表的书目记录装入一个新打开的种册窗。
查重窗是以MDI子窗口的方式打开的。也就是说,可以从查重窗随时切换到其它MDI子窗口,而不关闭它,以便后面再切换回来,进行反复观察对照。
查重方案配置后,在使用【功能】-【统计窗】-【ISO2709统计窗】下导入书目记录时,可以采用已定义的方案对所导入的数据进行查重,避免导入重复记录。