huny.log

tag

#harness

2개의 글

바이브 코딩·하네스 엔지니어링 harness · agent

하네스 엔지니어링 입문 — AI 에이전트에게 일을 맡기는 구조 설계

프롬프트를 잘 쓰는 것과 일을 맡길 구조를 짜는 것은 다른 기술입니다. 하네스가 무엇인지, 지시서·도구·검증·기억 네 부품으로 분해하고, 이 블로그의 글쓰기 자동화를 실제 사례로 뜯어봅니다.

AI·LLM llm · evaluation

LLM evaluation harness — 분기마다 챗봇 품질을 자동 평가하는 공장

챗봇·에이전트가 운영에 들어가면 한 번 평가가 아니라 분기 자동 평가가 필요합니다. 골든셋·regression·hyperparameter A/B를 묶는 evaluation harness 설계와 마케팅 자리에서의 적용.