diff --git a/README.md b/README.md index d3c8f684a94b4d1e3d77b92296be1b37c839babf..e45ad1ebb3172a11cd191fc4fa0e701d68e54bbe 100644 --- a/README.md +++ b/README.md @@ -5,13 +5,15 @@ Dump der bibliographischen Metadaten aus dem VD 17. Die Daten werden über die SRU-Schnittstelle in PICA-XML geharvestet und in ein nutzerfreundliches JSON-Format umgerechnet. ## Allgemeines -Es werden alle gedruckten Monographien oder Teile eines mehrteiligen Werks über die SRU-Schnittstelle des VD 17 heruntergeladen. URL für das erste 500er-Set: +Grundlage sind die Daten für Monographien oder Teile eines mehrteiligen Werks, die über die SRU-Schnittstelle des VD 17 in PICA-XML heruntergeladen werden können. + +Beispiel für das erste 500er-Set: [http://sru.k10plus.de/vd17?version=2.0&operation=searchRetrieve&query=pica.bbg=(Aa* or Af*)&maximumRecords=500&startRecord=1&recordSchema=picaxml](http://sru.k10plus.de/vd17?version=2.0&operation=searchRetrieve&query=pica.bbg=%28Aa*%20or%20Af*%29&maximumRecords=500&startRecord=1&recordSchema=picaxml) -Die Daten sind zunächst im Pica3-Format, das in der [Erfassungsrichtlinie von BSZ und GBV](https://swbtools.bsz-bw.de/cgi-bin/k10plushelp.pl?cmd=index&katalog=VD17) dokumentiert ist. Die Daten werden vom GBV als Public Domain zur Verfügung gestellt, s. hierzu das [WikiK10plus](https://wiki.k10plus.de/display/K10PLUS/Open+Data). Auch die hier im JSON-Format angebotenen Daten können ohne urheberrechtliche Beschränkungen frei nachgenutzt werden. +Das Datenmodell entspricht dem Pica3-Format, das in der [Erfassungsrichtlinie von BSZ und GBV](https://swbtools.bsz-bw.de/cgi-bin/k10plushelp.pl?cmd=index&katalog=VD17) dokumentiert ist. Die Daten werden vom GBV als Public Domain zur Verfügung gestellt, s. hierzu das [WikiK10plus](https://wiki.k10plus.de/display/K10PLUS/Open+Data). Auch die hier im JSON-Format angebotenen Daten können ohne urheberrechtliche Beschränkungen frei nachgenutzt werden. -Die Konversion erfolgt mit einem eigens entwickelten Python-Modul, dazu Näheres unten. +Die Konversion erfolgt mit einem eigens entwickelten Python-Modul, dazu Näheres unter "Quellcode". ## Dokumentation des Zielformats @@ -30,7 +32,7 @@ Die Konversion erfolgt mit einem eigens entwickelten Python-Modul, dazu Näheres | resp | String | Verantwortlichkeitsangabe | | format | String | Bibliographisches Format | | pages | String | Kollationsvermerk | -| normPages | Integer | Der Algorithmus berücksichtigt Seiten- und Blattangaben, von-bis-Angaben, Ausdrücke mit "i.e." oder "d.h." und Römische Ziffern. S. die Methode get_norm_p() unter https://github.com/hbeyer/pylib/blob/main/lib/pica.py | +| normPages | Integer | Der Algorithmus berücksichtigt Seiten- und Blattangaben, von-bis-Angaben, Ausdrücke mit "i.e." oder "das heißt" und Römische Ziffern. S. die Methode get_norm_p() unter https://github.com/hbeyer/pylib/blob/main/lib/pica.py | | digi | String | URLs von Digitalisaten, mehrere getrennt durch ";" | | gat | String | Gattungsbegriffe der AAD, getrennt durch ";" | | persons | Array | Personen, die als VerfasserInnen, BeiträgerInnen oder sonstige Personen erwähnt sind |