Ein öffentliches Engineering-Experiment: Aufbau eines Open-Source-GAMP-5-Trainingsdatensatzes
Ich veröffentliche einen ersten Korpus von 50 URS + 50 FS als offenen, CC-BY-SA-lizenzierten, synthetisch erzeugten GAMP-konformen Datensatz — und versuche anschließend, Qwen 3 (7B) darauf zu finetunen. Public Engineering in Echtzeit, inklusive der Misserfolge.
Also available in EnglishDie gesamte Pharma-IT diskutiert derzeit das Potenzial von KI für die GxP-Dokumentation. Aber ein Modell so zu finetunen, dass es den SDLC tatsächlich versteht, SOPs folgt und compliance-konforme Dokumentation erzeugt, setzt etwas voraus, das im öffentlichen Raum bisher nicht existiert: einen hochwertigen, GAMP-konformen Trainingskorpus.
In den nächsten 30 Tagen führe ich genau dieses Experiment öffentlich durch.
Heute veröffentliche ich einen ersten synthetisch erzeugten Open-Source-Datensatz von 50 User Requirements Specifications (URS) und 50 Functional Specifications (FS) auf meiner Seite und in meinem GitHub-Konto.
Pharma-Organisationen, die 2026 Hochrisiko-KI einsetzen, benötigen GAMP-konforme Trainingsdaten für die Pflichten zur technischen Dokumentation und Daten-Governance (Art. 10, Art. 11 EU-KI-VO). Heute gibt es dafür keinen öffentlichen Korpus, gegen den man fundiert anstarten könnte. Ich weiß das, weil ich gesucht habe.
Zur Herkunft, vollständig transparent: Jedes Dokument in diesem Korpus ist ausschließlich synthetisch aus regulatorischen Primärquellen erzeugt (FDA-Guidance, ISPE GAMP 5, ICH, ISO 13485). Es enthält keine anonymisierten Kundendaten aus früheren Validierungsprojekten.
In den nächsten 30 Tagen wird das Repository um weitere Dokumenttypen aus diesem internen Bestand erweitert — darunter VP, VR, TP, TR, RA, IQ/OQ/PQ, Traceability-Matrix und mehr.
Hochwertige Trainingsdaten sollten kein proprietärer Engpass sein, sondern geteilte Infrastruktur. Ich veröffentliche diesen Korpus, um eine verlässliche Grundlage bereitzustellen, sodass wir uns auf die eigentliche Engineering-Herausforderung konzentrieren können.
Sobald der Datensatz vollständig öffentlich ist, beginnt die nächste Phase: der Versuch, ein Qwen-3-(7B)-Modell ausschließlich auf diesem regulatorischen Korpus zu finetunen.
Ich bin von Anfang an offen: Ein LLM zuverlässig dazu zu bringen, Compliance-Anforderungen zu navigieren und die Rubrik einer menschlichen QA-Prüfung zu bestehen, ist kein triviales Wochenend-Fine-Tuning. Es wird strenge Tests, Iteration und wahrscheinlich auch Rückschläge brauchen. Ich werde diesen Prozess dokumentieren, während er passiert.
Ich kenne die Antwort noch nicht. Ich werde die Evaluationsergebnisse teilen, sobald wir dort sind.
Wo Sie den Korpus finden
- Download (ZIP, ca. 1,2 MB): neuralarchitects.de/gxp-corpus — die Korpus-Hub-Seite, ohne E-Mail-Schranke, CC-BY-SA 4.0.
- Direkter ZIP-Link: gxp-corpus-v1.3.zip
- GitHub-Repository: github.com/neuralarchitects-de/gamp5-corpus — Repository „starren" oder „watchen" für Release-Benachrichtigungen. Die v1.3-Release liefert dasselbe ZIP als herunterladbares Asset mit aus.