Research
Members
About
News
Events

ELLIS fosters international collaboration across domains, connecting top researchers while investing in the next generation of AI talent.

PhD & Postdoc Program Sites Research Programs Jobs ELLIS PhD Award Projects Building on ELLIS Conference Contributions Cross-Network Publications

Members

ELLIS Members are leading scientists in machine learning and AI, shaping Europe's global position in these fields.

Become a Member Members List Become a Fellow Fellows List

About

ELLIS is a pan-European AI network of excellence built upon machine learning as the driver for modern AI.

Board Organisation ELLIS FAQ ELLIS Open Letter ELLIS Position Paper Partnerships Sponsorships & Donations For Media Contact

Home
› Measuring what Matters: Construct Validity in Large Language Model Benchmarks

Measuring what Matters: Construct Validity in Large Language Model Benchmarks

2025

arxiv.org

Andrew M. Bean, Ryan Othniel Kearns, Angelika Romanou, Franziska Sofia Hafner, Harry Mayne, Jan Batzner, Negar Foroutan Eghlidi, Chris Schmitz, Karolina Korgul, Hunar Batra, Oishi Deb, Emma Beharry, Cornelius Emde, Thomas Foster, Anna Gausen, María Grandury, Sophia Han, Valentin Hofmann, Lujain Ibrahim, Hazel Kim, Hannah Rose Kirk, Fangru Lin, Gabrielle Liu, Lennart Luettgau, Jabez Magomere, Jonathan Rystrøm, Anna Sotnikova, Yushi Yang, Yilun Zhao, Adel Bibi, Antoine Bosselut, Ronald Clark, Arman Cohan, Jakob Foerster, Yarin Gal, Scott Hale, Deborah Raji, Christopher Summerfield, Philip Torr, Cozmin Ududec, Luc Rocher, Adam Mahdi