KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?
ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT ist dümmer als ein Grundschüler. Solche Meldungen findet man schon mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr unterschiedliche Abschneiden der großen Sprachmodelle in standardisierten Tests liegt in der Art und Weise, wie das vermeintliche Wissen der KI gemessen wird.
Andrea Trinkwalder und Hartmut Gieselmann von der c‘t haben sich angeschaut, wie Benchmarks diese Leistung messen und vergleichen – und wie aussagegkräftig die Ergebnisse solcher Benchmarks sind.
heise.de/ki-update
https://www.heise.de/ct
https://heise.de/-9288453
https://www.heise.de/thema/Kuenstliche-Intelligenz
https://the-decoder.de/
https://www.heiseplus.de/podcast
Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.
Findest Du MEINUNGSMONOPOL gut und möchtest uns unterstützen? Hilf uns mit einer kleinen Spende.
Sag uns deine Meinung!