Double Data Entry Abgleich mit LibreOffice - idea-labs/documentation GitHub Wiki

Bei der "LibreOffice-Methode" werden zwei REDCap-Projekte mit identischen Instrumenten erstellt (Originalprojekt wird kopiert). Dann können in beiden Projekten Daten eingegeben werden. Für eine Versuchsperson muss die Record-ID in beiden Projekten identisch sein. Die Datensätze der beiden Projekte werden nach der Eingabe exportiert und dann mittels LibreOffice auf Unterschiede hin miteinander verglichen.

Logik beim Vergleichen von Dateien durch LibreOffice

Die Logik beim Vergleichen von Dateien durch LibreOffice ist, dass man normalerweise eine ältere Version einer Datei mit einer neueren Version derselben Datei vergleichen lässt und dann in der neueren Version der Datei angezeigt bekommt, welche Änderungen in ihr im Vergleich zur älteren Version vorgenommen wurden. Für jede einzelne Änderung kann man dann entscheiden, ob man diese übernehmen oder verwerfen möchte. Die Datei, die man nach dem automatischen Vergleichen hat, ist also im Prinzip genau so wie ein Word-Dokument, an dem jemand Korrekturen im Änderungsmodus vorgenommen hat.

Beim Double Data Entry haben wir natürlich keine ältere und keine neuere Version einer Datensatzes, sondern einfach nur zwei Datensätze, die von zwei verschiedenen Personen eingegeben wurden und die sich immer dann unterscheiden, wenn eine der Personen bei der Dateneingabe einen Fehler gemacht hat. Um die beiden aus REDCap exportierten Dateien zu unterscheiden, sprechen wir im Folgenden von der Masterdatei (Hauptprojekt, Dateneingabe durch Person 1) und der Vergleichsdatei (kopiertes Vergleichsprojekt, Dateneingabe durch Person 2). Die Masterdatei entspricht hierbei der "neueren Version", d.h. innerhalb dieser Datei arbeitet man und übernimmt eine Änderung, wenn der entsprechende Wert in der Masterdatei korrekt ist, bzw. verwirft eine Änderung, wenn der Wert in der Vergleichsdatei korrekt ist.

Vorbereitung

Nach Abschluss der Dateneingabe (bzw. wenn Daten verglichen werden sollen) werden die Datensätze aus beiden Projekten in REDCap als "CSV/Exel (labels)"-Dateien exportiert. Ihr könnt entweder alle oder nur ausgewählte Instrumente exportieren (etwa weil andere Instrumente Surveys sind oder weil sie noch nicht eingegeben wurden).

Zuerst bringt Ihr die beiden Dateien mit LibreOffice in das richtige Format. Die Vergleichsdatei muss im ODS-Format abgespeichert werden. Hier sollte zur besseren Übersicht beim Speichern ein Namenszusatz hinzugefügt werden, wie beispielsweise "_Vergleich". Wird die Datei nicht im ODS-Format gespeichert, kann es sein, dass Umlaute nicht richtig verglichen werden.

Die Masterdatei, also die Datei, in der die Änderungen letztendlich vorgenommen werden, sollte ebenfalls im ODS-Format gespeichert werden. Das hat den Vorteil, dass die Änderungsvorschläge beim Speichern ebenfalls gesichert werden. So könnt Ihr die Datei zwischenzeitlich schließen, ohne den Vergleich neu initiieren zu müssen. Diese Datei sollte dabei mit dem Zusatz "_Master" im Namen abgespeichert werden.

Es empfiehlt sich bei großen Datensätzen die Funktion Freeze zu nutzen, um beim Vergleichen immer die Spaltennamen und Record-IDs zu sehen. In der Menüleiste geht man dafür auf: View -> Freeze Cells und dann entweder auf Freeze First Column und Freeze First Row oder auf Freeze Rows and Columns (hier zuvor Zelle B2 anklicken).

Vergleichen

Nach den Vorbereitungen klickt Ihr mit weiterhin geöffneter Masterdatei in der Menüleiste auf Edit -> Track Changes -> Compare Document und wählt dann die Vergleichsdatei in dem sich öffnendem Datei-Browser aus.

.

Es ist hilfreich, das nun offene "Manage Changes"-Fenster zu verbreitern, sodass die "Comment"-Spalte sichtbar wird. In dieser seht ihr die Unterschiede zwischen den beiden Dateien. Alternativ könnt Ihr auch mit dem Mauszeiger auf ein Feld gehen, auf das sich ein Änderungsvorschlag bezieht (erkennbar an den roten Rahmenlinien), dadurch sollte dann ein Popup-Fenster mit der vorgeschlagen Änderung erscheinen.

Die vorgeschlagenen Änderungen beziehen sich immer darauf, was sich in der Masterdatei gegenüber der Vergleichsdatei geändert hat. Das bedeutet:

  • Ist der richtige Wert in der Masterdatei, muss der Änderungsvorschlag akzeptiert werden. Im Beispiel wurde in der Vergleichsdatei "Offebach" statt "Offenbach" eingegeben. Der Wert in der Masterdatei ist also richtig und muss akzeptiert werden.

  • Ist der richtige Wert in der Vergleichsdatei, muss der Änderungsvorschlag abgelehnt werden. Im Beispiel wurde in der Masterdatei "Frnkfrt" statt "Frankfurt" eingegeben. Der Wert in der Masterdatei ist also falsch und muss abgelehnt werden.

  • Stehen weder in der Master- noch in der Vergleichsdatei der richtige Wert, tragt Ihr den richtigen Wert per Hand ein und lehnt anschließend die Änderung ab. Im Beispiel ist weder "Offenbach" noch "Frankfurt" richtig, sondern der richtige Wert lautet "Mainz".

Das Fenster mit den Änderungsvorschlägen kann jederzeit über Edit -> Track Changes -> Manage Changes wieder aufgerufen werden.

Meldung: Row inserted / deleted

Wenn sich einzelne Zeilen stark unterscheiden, werden möglicherweise nicht mehr nur die einzelnen Zellen, sondern die ganze Zeile miteinander verglichen. Dann erscheint die Meldung: row inserted/deleted

Hier unterscheidet sich die dritte Zeile zu 50% zwischen den beiden Dateien. Wenn ein gewisses Maß an Unterschiedlichkeit erreicht ist, entscheidet der LibreOffice-Algorithmus, dass es nicht mehr die selbe Zeile in beiden Dokumenten ist und er deshalb auch keine Vergleiche auf Zell-Ebene mehr durchführen sollte, sondern einfach die gesamte Zeile als unterschiedlich markiert und sie dann mit deleted/inserted flagged. Oft führt dass dann auch dazu, dass Unterschiede in direkt darauf folgenden Zellen nicht mehr richtig gehandled werden.

Leider kann man keinen Vergleich auf Zell-Ebene erzwingen. Damit die Vergleichsfunktion für die betroffene Zeile und die nachfolgenden Zellen wieder funktioniert, kann man folgendermaßen vorgehen:

  • Nach dem Start des Vergleich als Erstes schauen, ob es "Row deleted/inserted"-Einträge gibt. Ist das der Fall, dann die Record-ID der ersten Zeile, die das betrifft, notieren und die Masterdatei schließen ohne sie zu speichern (da sonst die inkorrekten Vergleichsinformationen mitgespeichert würden).
  • Diese Zeile dann sowohl in der Master- als auch Vergleichsdatei löschen und die beiden Dateien speichern.
  • Dann den Vergleich erneut starten und schauen, ob jetzt alle "Row deleted/inserted"-Einträge verschwunden sind. Ist das nicht der Fall, die obigen Schritte wiederholen.
  • Ganz am Ende die aus den Dateien gelöschten Daten der als problematisch notierten Record-IDs anhand der Original-Papierdaten direkt in REDCap überprüfen und korrigieren.

Re-Import der abgeglichenen Masterdatei in REDCap

Wenn Ihr alles fertig abgeglichen habt, könnt ihr die Daten wieder in REDCap importieren. Wichtig ist, dass Ihr die Datei vor dem Import wieder als CSV-Datei speichert.

⚠️ **GitHub.com Fallback** ⚠️