ROUGE
ROUGE — это метрика для оценки качества текста, созданного ИИ, путем сравнения его с эталонным ответом человека.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) — это способ проверить, насколько хорошо нейросеть справилась с задачей пересказа или суммаризации текста. Представьте, что вы дали школьнику задание пересказать параграф из учебника, а потом сравниваете его ответ с идеальным ответом учителя. ROUGE считает, сколько слов из «идеального» текста попало в работу ученика.
По сути, это автоматический «проверяющий», который ищет совпадения слов в двух текстах. Если в ответе ИИ много тех же слов, что и в эталоне, оценка будет высокой. Это помогает разработчикам быстро понять, не начала ли модель «лить воду» или терять важные детали при генерации ответов.
Зачем это нужно
Для вайбкодера и разработчика ROUGE важен, чтобы объективно оценить, насколько качественно модель выполняет задачи по обработке текста, суммаризации или генерации документации, не полагаясь только на субъективное «кажется, звучит неплохо».