3 docs tagged with "observability"

Golden Datasets: Building Eval Data That Predicts Production

How to design, version, and maintain golden datasets for plane-aware evaluation — representative tasks, edge cases, adversarial cases, and production replays.

Online & Dynamic Eval: Scoring Production After Ship

How to run online evaluation on live traffic — sampling, shadow scoring, canary eval, drift detection, and promoting production signals back into golden datasets.

Further Reading (External): Eval Engineering

Golden Datasets: Building Eval Data That Predicts Production

Online & Dynamic Eval: Scoring Production After Ship