Abschlussveranstaltung des F&E‑Projekts ScaleTrust

Die Abschlussver­anstal­tung mit über 25 Teil­nehmenden des F&E‑Projekts ScaleTrust fand am 24. Feb­ru­ar 2026 in Leipzig statt und bot eine öffentliche Präsen­ta­tion der zen­tralen Projektergebnisse.

Im Mit­telpunkt der Ver­anstal­tung standen die im Pro­jekt entwick­el­ten Ansätze, Ergeb­nisse und prak­tis­chen Erfahrun­gen sowie deren Bedeu­tung für den Auf­bau ver­trauenswürdi­ger Daten­treuhand­mod­elle. Die Teil­nehmenden erhiel­ten umfassende Ein­blicke in Demon­stra­toren und konkrete Use Cas­es und kon­nten die Beiträge der beteiligten Pro­jek­t­part­ner kennenlernen.

Beson­ders deut­lich wurde, dass ver­trauenswürdi­ge Daten­treuhand­mod­elle eine Schlüs­sel­rolle für den sicheren und fairen Date­naus­tausch in datengetriebe­nen Ökosys­te­men spie­len. Die vorgestell­ten Lösun­gen zeigten prax­is­nah, wie Ver­trauen, Trans­parenz und Daten­ho­heit tech­nisch und organ­isatorisch umge­set­zt wer­den können.

Neben der Präsen­ta­tion der Ergeb­nisse bot die Ver­anstal­tung auch Raum für Aus­tausch und Diskus­sion. Gemein­sam wur­den zukün­ftige Entwick­lun­gen, zen­trale Her­aus­forderun­gen und Poten­ziale von Daten­treuhand­mod­ellen beleuchtet.

Die Abschlussver­anstal­tung machte deut­lich: Die im Pro­jekt ScaleTrust entwick­el­ten Ansätze liefern wichtige Impulse für einen ver­ant­wor­tungsvollen Umgang mit Dat­en und schaf­fen eine Grund­lage für inno­v­a­tive, ver­trauenswürdi­ge Datenökosysteme.

Das InfAI beri­et in dem Pro­jekt ScaleTrust zur Architek­tur, unter­stützte bei der Nutzung von Wis­sens­graphen und DCAT-AP.de und ergänzte einen Deep-Research-Agenten.

Mehr zu ScaleTrust:

ScaleTrust (Scal­able Com­pli­ance and Lead­er­ship in Eth­i­cal Trustee­ship) ist ein vom Bun­desmin­is­teri­um für Forschung, Tech­nolo­gie und Raum­fahrt (BMFTR) aus Mit­teln der Europäis­chen Union gefördertes Forschungs- und Entwick­lung­spro­jekt mit dem Ziel, ein rechtssicheres, skalier­bares und ver­trauenswürdi­ges Daten­treuhän­der­mod­ell als Grund­lage fair­er und dezen­traler Datenökosys­teme zu etablieren.

Daten­treuhän­der agieren dabei als neu­trale Inter­mediäre, die Dat­en im Auf­trag der Dateneigen­tümer ver­ant­wor­tungsvoll ver­wal­ten und kon­trol­liert weit­ergeben. Das ScaleTrust-Pro­jekt schafft den tech­nis­chen, organ­isatorischen und rechtlichen Rah­men für einen fairen, anwendungs‑, sek­toren- und län­derüber­greifend­en Date­naus­tausch, beispiel­haft in der Prax­is in Daten­räu­men wie dem Green Deal Data­space erprobt.

Unser Poster auf der SEMANTiCS 2025

Unser Poster “Char­ac­ter­iz­ing Knowl­edge Graph Tasks in LLM Bench­marks Using Cog­ni­tive Com­plex­i­ty Frame­works” wurde für die SEMAN­TiCS Kon­ferenz am 03.–05. Sep­tem­ber 2025 in Wien angenommen.

Die Arbeit ent­stand im Rah­men der Pro­jek­te Kupfer­Dig­i­tal 2 und ScaleTrust. Haup­tau­torin Sara Todor­ovikj ist wis­senschaftliche Mitar­bei­t­erin und Dok­torandin an der TU Chem­nitz und wird das Poster vor Ort in Wien präsen­tieren. Co-Autoren sind Lars-Peter Mey­er vom InfAI und Michael Mar­tin, eben­falls von der TU Chemnitz.

Wir freuen uns schon auf span­nende Diskus­sio­nen mit der inter­na­tionalen Com­mu­ni­ty und richt­en ein großes Dankeschön an alle Beteiligten im Pro­jek­t­team für die her­vor­ra­gende Zusam­me­nar­beit – und an die SEMAN­TiCS 2025 für die Möglichkeit, unsere Forschung vorzustellen!

Artikel „Assessing SPARQL capabilities of Large Language Models“ nun in den Workshop-Proceedings von NLP4KGc@SEMANTiCS24 veröffentlicht 

Grafik 1: Überblick zu den 4 betra­chteten Task-Typen: Text2Sparql (T2S), Text2Answer (T2A), Sparql2Answer (S2A) und Spar­ql­Syn­tax­Fix­ing (SSF) 

Unser bere­its als Preprint veröf­fentlichter Artikel „Assess­ing SPARQL capa­bil­i­ties of Large Lan­guage Mod­els“ (Lars-Peter Mey­er, Johannes Frey, Felix Brei und Natanael Arndt 2024) ist nun offiziell veröf­fentlicht in den Pro­ceed­ings des Work­shop „NLP4KGC: 3rd Inter­na­tion­al Work­shop on Nat­ur­al Lan­guage Pro­cess­ing for Knowl­edge Graph Cre­ation in con­junc­tion with SEMAN­TiCS 2024 Con­fer­ence”. Wir stellen dort eine Ergänzung des LLM-KG-Bench-Frame­works vor, mit der die SPAR­QL-Fähigkeit­en von großen Sprach­mod­ellen (englisch: Large Lan­guage Mod­ells, kurz: LLMs; englisch: Knowl­edge Graph, kurz: KG, deutsch: Wis­sens­graph) automa­tisiert gemessen wer­den kön­nen. Das LLM-KG-Bench-Frame­work ist ein am InfAI e. V. entwick­eltes Werkzeug zum automa­tisierten Bew­erten der Fähigkeit­en von LLMs mit Wis­sens­graphen umzuge­hen. Wenn LLMs bess­er mit Wis­sens­graphen umge­hen kön­nen, wür­den LLMs vielle­icht weniger hal­luzinieren sowie die Arbeit mit Wis­sens­graphen für Men­schen erle­ichtern können. 

Das automa­tisierte Messen hil­ft dabei neue LLMs für fach­spez­i­fis­che Auf­gaben objek­tiv einord­nen zu kön­nen. Und durch die Automa­tisierung kön­nen viele Mess­wieder­hol­un­gen durchge­führt wer­den, um trotz dem nicht­de­ter­min­is­tis­chen Antwortver­hal­ten von LLMs ver­lässliche Ergeb­nisse zu erhalten. 

In der Welt von RDF-Wis­sens­graphen ist SPARQL die gebräuch­lich­ste Schnittstelle und Abfrage­sprache.  Deshalb geht es bei der nun vorgestell­ten Unter­suchung um die Syn­tax und Seman­tik von SPARQL SELECT Anfra­gen. Diese wur­den beispiel­haft für ins­ge­samt neun LLMs von Ope­nAI, Anthrop­ic und Google gemessen. Basierend auf den in Grafik 1 dargestell­ten 4 Auf­gaben­typen wur­den 13 ver­schiedene Auf­gaben­vari­anten zu fünf ver­schiede­nen Wis­sens­graphen betrachtet. 

Grafik 2: Auszug aus dem Artikel mit Ergeb­nis­sen für den Bere­ich Text2Sparql(T2S). Die Ergeb­nisse sind als Box­plots gezeigt mit Kreuzen für einzelne Mess­werte und Kreisen für den Mit­tel­w­ert. Bei dem Score bedeutet 1 ein opti­males Ergeb­nis, ein Score von 0,2 bedeutet ein syn­tak­tisch richtiges aber seman­tisch falsches Ergeb­nis, ein Score von 0 wird bei Syn­taxfehler vergeben. Für weit­ere Ergeb­nisse und Erläuterun­gen sei auf den voll­ständi­gen Artikel verwiesen. 

Zen­trales Ergeb­nis unser­er Arbeit ist: Zwis­chen den einzel­nen Auf­gaben und LLMs gibt es große Unter­schiede. Zusam­men­fassend kann man sagen, dass die besten der unter­sucht­en aktuellen LLMs kaum Schwierigkeit­en mit der Syn­tax haben, jedoch bei seman­tis­chen Auf­gaben auf Her­aus­forderun­gen stoßen. Für Details sei auf den frei ver­füg­baren Artikel und Repos­i­to­rien verwiesen. 

Die Arbeit wurde über ver­schiedene Pro­jek­te am InfAI e. V. gefördert: StahlDig­i­tal, ScaleTrust, KISS — KI-gestütztes Rapid Sup­ply Net­work, Coy­Pu — Cog­ni­tive Econ­o­my Intel­li­gence Plat­tform für die Resilienz wirtschaftlich­er Ökosysteme. 

Der Code zum LLM-KG-Bench-Frame­works ist bei Github sowie Zen­o­do zu find­en und die voll­ständi­gen Ergeb­nisse wur­den bei  GitHub und Zen­o­do veröffentlicht. 

Link zum Paper: