Daten-im-Sack
Zugang
Verhindere, das abrufende Clients vor dem vollständigen Download erfahren, ob sich der Datensatz seit dem letzten Download geändert hat. Sorge z.B. dafür dass
- der Server den Last-modified Antwort-Header nicht setzt, an dem Clients erkennen könnten, wann der Datensatz auf Server-Seite zuletzt aktualisiert wurde (wie z.B. curl bei Verwendung des -z Arguments)
- die HEAD-Anfrage-Methode durch den Server nicht unterstützt wird, bei der der Server statt des komplpetten Dokuments nur die Antwort-Header senden würde
- der Server kein ETag-Attribut setzt, anhand dessen Clients oder Proxy-Server erkennen könnten, dass sich ein Datensatz seit dem letzten Abruf nicht geändert hat
- auch keine weitere Möglichkeit zur Feststellung einer Änderung, wie z.B. eine aus dem Dateiinhalt generierte, zusäzlich abrufbare MD5-Prüfsumme, existiert
Auf Seite des Server-Betreibers führt dies zu unnötigem Datenverkehr und gegebenenfalls Serverlast, da unnötig viele Daten übertragen werden müssen. Aus Unkenntnis geeigneter Abilfemaßnahmen werden gegebenenfalls andere Anti-Patterns angewendet, um die Serverlast zu reduzieren. Auf Seite der Daten-Nutzenden führt dies zu ebenfalls zu unnötigem Datenverkehr, potentiell unnötigerwese ablaufenden Weiterverarbeitungsprozesse oder alternativ zu Mehraufwand bei der Prüfung auf Änderungen nach dem Download (z.B. durch lokale Berechnung einer MD5-Prüfsumme).
In der Regel Unkenntnis sinnvoller Server-Konfiguration.
Einrichtung bzw. Nutzung eines Alternativ-Portals, das seinerseits die Daten herunterlädt und nur bei Änderungen erneut publiziert.
Korrekte Server-Konfiguration.
Negativbeispiel: Datensätze des Hamburger Transparenzportals werden ohne o.g. Antwort-Header ausgeliefert, z.B. die GTFS-Daten des HVV.
?