Evaluating LLM Outputs

Datasets, golden answers, LLM-as-judge, regression suites. Treating prompts like code.

Advanced 30 minutes Prerequisites: Prompt Engineering Basics