Pass@k
Pass@k — это метрика, которая показывает, насколько хорошо ИИ-модель справляется с написанием кода, оценивая вероятность того, что хотя бы одно из k предложенных решений окажется рабочим.
Представьте, что вы даете ИИ задачу написать функцию, а он предлагает вам 10 разных вариантов решения. Pass@k — это показатель того, насколько часто хотя бы один из этих 10 вариантов проходит проверку на работоспособность (тесты).
Если Pass@1 равен 40%, это значит, что модель с первой попытки пишет рабочий код в 40% случаев. Если же мы берем Pass@10, мы смотрим, сработал ли хотя бы один из десяти вариантов. Это как сдача экзамена: Pass@1 — это когда вы должны ответить правильно с первого раза, а Pass@k — это когда вам дают несколько попыток, и засчитывают успех, если хотя бы одна из них оказалась верной.
Зачем это нужно
Для вайбкодера это главный индикатор «интеллекта» модели. Понимая Pass@k, вы можете оценить, стоит ли доверять модели написание сложной логики или лучше просить её генерировать несколько вариантов кода (k), чтобы выбрать лучший из них.