书目记录997字段查重的依据 - DigitalPlatform/dp2 GitHub Wiki
书目记录997字段查重的,是将书目记录的题名,责任者,出版社,出版时间,版本号对应的字段放到997字段,如果两条书目的这些内容完全一致,系统判定记录重复。
在题名,责任者,出版社完全相同的前提下:
出版时间:210$d,目前只取年份进行判断(关于出版时间的国家标准,几经变更。最初是要求按照年月日标注,后来按照年,月,再后来变成按照年分标注。所以997所检查的只有年份)
如果题名,责任者,出版社完全相同的两本书确定需要建立两条书目记录,但210$d和205$a都不能区分,则可以在系统中用 998$k 进行区分 ,在998$k中加入一些文字标注,系统会将这些标注落实到997字段,从而让两条书目的997不同。从而系统判定两条记录不重复。
系统按照997查重还有一个前提:library.xml中须要配置查重空间参数。配置后同一个空间以内如果两条书目的997精确一致的话,系统就会判定两条记录重复。
另外,997$h和$v中记录了查重字符串算法的版本号,如果题名,责任者,出版社,出版时间经确一致,但这两个子字段不同,系统也不会将书目算位重复。
所以在用心版本算法之前,要先对旧数据的997重建检索点。以确保所有数据997$h和$v均为最新版本。