MMLU
MMLU — это масштабный тест для проверки общих знаний и умений рассуждать у искусственного интеллекта.
MMLU (Massive Multitask Language Understanding) — это своего рода «экзамен на аттестат зрелости» для нейросетей. Он включает тысячи вопросов из самых разных областей: от математики и истории до медицины и права. Модель должна выбрать правильный ответ из предложенных вариантов, демонстрируя, насколько хорошо она понимает мир и может применять свои знания на практике.
Представьте, что вы нанимаете помощника и даете ему тест, состоящий из вопросов по всем школьным и университетским предметам сразу. Если помощник отвечает правильно на большинство из них, значит, у него широкий кругозор. MMLU работает точно так же: это «линейка», которой измеряют интеллект модели, чтобы понять, насколько она умна по сравнению с другими.
Зачем это нужно
Для вайбкодера MMLU — это способ быстро оценить, подходит ли конкретная модель для решения сложных задач. Если у модели высокий балл в MMLU, значит, она с большей вероятностью правильно поймет логику вашего кода или сложный запрос, чем модель с низким результатом.