Artikel „Assessing SPARQL capabilities of Large Language Models“ nun in den Workshop-Proceedings von NLP4KGc@SEMANTiCS24 veröffentlicht 

Grafik 1: Überblick zu den 4 betra­chteten Task-Typen: Text2Sparql (T2S), Text2Answer (T2A), Sparql2Answer (S2A) und Spar­ql­Syn­tax­Fix­ing (SSF) 

Unser bere­its als Preprint veröf­fentlichter Artikel „Assess­ing SPARQL capa­bil­i­ties of Large Lan­guage Mod­els“ (Lars-Peter Mey­er, Johannes Frey, Felix Brei und Natanael Arndt 2024) ist nun offiziell veröf­fentlicht in den Pro­ceed­ings des Work­shop „NLP4KGC: 3rd Inter­na­tion­al Work­shop on Nat­ur­al Lan­guage Pro­cess­ing for Knowl­edge Graph Cre­ation in con­junc­tion with SEMAN­TiCS 2024 Con­fer­ence”. Wir stellen dort eine Ergänzung des LLM-KG-Bench-Frame­works vor, mit der die SPAR­QL-Fähigkeit­en von großen Sprach­mod­ellen (englisch: Large Lan­guage Mod­ells, kurz: LLMs; englisch: Knowl­edge Graph, kurz: KG, deutsch: Wis­sens­graph) automa­tisiert gemessen wer­den kön­nen. Das LLM-KG-Bench-Frame­work ist ein am InfAI e. V. entwick­eltes Werkzeug zum automa­tisierten Bew­erten der Fähigkeit­en von LLMs mit Wis­sens­graphen umzuge­hen. Wenn LLMs bess­er mit Wis­sens­graphen umge­hen kön­nen, wür­den LLMs vielle­icht weniger hal­luzinieren sowie die Arbeit mit Wis­sens­graphen für Men­schen erle­ichtern können. 

Das automa­tisierte Messen hil­ft dabei neue LLMs für fach­spez­i­fis­che Auf­gaben objek­tiv einord­nen zu kön­nen. Und durch die Automa­tisierung kön­nen viele Mess­wieder­hol­un­gen durchge­führt wer­den, um trotz dem nicht­de­ter­min­is­tis­chen Antwortver­hal­ten von LLMs ver­lässliche Ergeb­nisse zu erhalten. 

In der Welt von RDF-Wis­sens­graphen ist SPARQL die gebräuch­lich­ste Schnittstelle und Abfrage­sprache.  Deshalb geht es bei der nun vorgestell­ten Unter­suchung um die Syn­tax und Seman­tik von SPARQL SELECT Anfra­gen. Diese wur­den beispiel­haft für ins­ge­samt neun LLMs von Ope­nAI, Anthrop­ic und Google gemessen. Basierend auf den in Grafik 1 dargestell­ten 4 Auf­gaben­typen wur­den 13 ver­schiedene Auf­gaben­vari­anten zu fünf ver­schiede­nen Wis­sens­graphen betrachtet. 

Grafik 2: Auszug aus dem Artikel mit Ergeb­nis­sen für den Bere­ich Text2Sparql(T2S). Die Ergeb­nisse sind als Box­plots gezeigt mit Kreuzen für einzelne Mess­werte und Kreisen für den Mit­tel­w­ert. Bei dem Score bedeutet 1 ein opti­males Ergeb­nis, ein Score von 0,2 bedeutet ein syn­tak­tisch richtiges aber seman­tisch falsches Ergeb­nis, ein Score von 0 wird bei Syn­taxfehler vergeben. Für weit­ere Ergeb­nisse und Erläuterun­gen sei auf den voll­ständi­gen Artikel verwiesen. 

Zen­trales Ergeb­nis unser­er Arbeit ist: Zwis­chen den einzel­nen Auf­gaben und LLMs gibt es große Unter­schiede. Zusam­men­fassend kann man sagen, dass die besten der unter­sucht­en aktuellen LLMs kaum Schwierigkeit­en mit der Syn­tax haben, jedoch bei seman­tis­chen Auf­gaben auf Her­aus­forderun­gen stoßen. Für Details sei auf den frei ver­füg­baren Artikel und Repos­i­to­rien verwiesen. 

Die Arbeit wurde über ver­schiedene Pro­jek­te am InfAI e. V. gefördert: StahlDig­i­tal, ScaleTrust, KISS — KI-gestütztes Rapid Sup­ply Net­work, Coy­Pu — Cog­ni­tive Econ­o­my Intel­li­gence Plat­tform für die Resilienz wirtschaftlich­er Ökosysteme. 

Der Code zum LLM-KG-Bench-Frame­works ist bei Github sowie Zen­o­do zu find­en und die voll­ständi­gen Ergeb­nisse wur­den bei  GitHub und Zen­o­do veröffentlicht. 

Link zum Paper: