Attest AI는 한국형 민간 AI 데이터·모델 평가·검증 레이어입니다.
구매사의 판단 리스크를 대신 짊어지는 제3자 평가 서비스로,
LLM-as-Judge · 인간 검수 · Calibration을 한 파이프라인에서 운영합니다.
좋은 샘플 4.55점 / 사실오류 2.05점 / 논리오류 자동 감지 — 한 도메인 안에서 결함 유형별 차등 점수.
서로 다른 3개 모델 가족(글로벌 프론티어 2 + 한국어 특화 1)의 교차 검증. n=300 ablation: F1 0.804·정확도 78.3% 로 단일 모델 능가 (McNemar p=0.024). 불일치는 자동 인간검수 라우팅.
긴 답이 짧은 답을 무조건 이기지 않습니다. 위치 swap 후 합의도가 다르면 자동 TIE 처리.
faithful 샘플 0.985 / 환각 샘플 0.22. hallucination_detected 플래그 자동 부착.
CV-isotonic 재비교(n=300): 단일 judge 최대 +19.0%p · ECE 0.238→0.044. 모델이 갈린 구간에서 인간 분리력 1.82 vs 앙상블 0.05 — 블라인드 검수 워크벤치로 운영 곡선 수집 중.
NIA 판결서 200건에 매 건 고유한 개인정보(주민·외국인번호·계좌·문맥상 간접식별)를 주입. 임계값은 train-fold 보정·지표는 held-out test 보고 — Recall 76.5% · Precision 90.7% · F1 0.83 · 분리력 +2.16. 정규식 단독 36% 대비, 규칙이 못 잡는 간접식별을 97.6% 적발이 핵심.
규칙 스캐너(직접 패턴) + 멀티 judge 앙상블(문맥·간접식별)을 층으로 결합 — 어느 한 쪽이 놓치는 걸 다른 층이 잡습니다. judge 1개 실패 시 잔존 judge로 진행(graceful degradation). 각 의뢰사 데이터는 JWT + row-level 격리.
이 데이터를 학습시켜도 되는가. 이 모델을 도입해도 되는가. 한국어·국내 도메인·AI 기본법 맥락에서 이 판단을 객관적으로 해줄 곳이 거의 없습니다.
납품 후 하자가 빈번하지만 사전 품질 실사 수단이 없다.
벤더 RFP 평가의 객관성을 외부에 위임할 수단이 없다.
채용·금융·공공·의료에서 영향평가 외부 검증 의무화.
의뢰사가 평가 대상(데이터셋·모델 출력·벤더 RFP)을 안전한 채널로 제출. 도메인 루브릭 자동 매칭.
서로 다른 3개 모델 가족 동시 채점. 위치·길이·자기 선호 편향 통제 + 합의도 산출.
신뢰도 0.7 미만 또는 결함 케이스만 도메인 전문가에게 자동 할당. 검수 비용 60%+ 절감.
Calibration 보정 + KPMG 톤 PDF. 보고서 번호 ATT-YYYY-XXXX + SHA-256 해시로 봉인.
REST API · Python·Node.js·Go SDK (예정) · OpenAPI 3.1 spec. 사내 CI에 통합해 자동 회귀 평가 가능.
API 문서 보기 →# 한국어 추론 샘플 평가
curl -X POST https://api.attestai.co.kr/evaluate/judge/single \
-H "Authorization: Bearer $ATTEST_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"sample_id": "demo-001",
"sample_text": "질문: 한국 AI 기본법 시행 시점?\n정답: 2026년 1월 22일",
"domain": "korean_reasoning"
}'
# Response (200 OK)
{
"sample_id": "demo-001",
"weighted_total": 5.0,
"confidence": 0.92,
"needs_human_review": false,
"flags": [],
"judge_model": "judge-a (global frontier)",
"prompt_version": "bff629f1871c7dc0"
}
같은 입력 · 같은 점수. temperature=0 잠금, prompt version sha-256 hash로 1년 뒤에도 동일 결과 보장. 인증 사업의 법적 신뢰성 기반.
Verbosity normalization · Position swap · Multi-judge ensemble — LLM-as-Judge의 알려진 편향을 시스템적으로 제거. 길고 장황한 답이 정답을 이기지 않습니다.
인간 라벨로 LLM 신뢰도를 학술적으로 보정 (isotonic regression). 케이스가 누적될수록 후발 진입자가 따라잡기 어려운 시간 자산.
의뢰사가 받아가는 한 권. 종합 점수 · 결함 분석 · 도입 가/조건부/보류 3단 신호등. 발주처·감사 라인에 그대로 첨부 가능.
의뢰사 데이터는 본인 테넌트에서만 접근 가능. JWT 인증 + row-level isolation. VPC·On-prem 옵션도 제공.
AI 기본법이 정의한 채용·금융·공공·의료 영역에 우선 대응. 영향평가·설명 가능성·이의 제기 절차를 평가 항목에 내재화.
| 인하우스 Eval 팀 | 글로벌 (Scale·Surge) | 회계법인 AI Assurance | Attest AI | |
|---|---|---|---|---|
| 한국어·국내 도메인 적합성 | ✓ | × | ~ | ✓ |
| 제3자 객관성 | × | ✓ | ✓ | ✓ |
| 편향 통제 (위치·길이·자기 선호) | × | ~ | × | ✓ |
| Calibration (인간 라벨 보정) | × | × | × | ✓ |
| AI 기본법 고영향 영역 대응 | ~ | × | ✓ | ✓ |
| 건당 단가 (전형) | 인건비만 | $10,000+ | 5,000~8,000만 | 1,500~3,000만 |
| 납기 | 무기한 | 4~8주 | 6~12주 | 3~6주 |
한국어 RAG·AI를 자체 엔지니어로 평가해도 "만든 사람이 매긴 점수"라는 한계가 남습니다. 독립된 외부 검증 레이어가 있어야 발주처·고객을 설득할 수 있습니다.
2026년 1월 AI 기본법 시행으로 고영향 AI(채용·금융·공공 등)는 출시 전 외부 영향평가 수요가 커졌습니다. 한국어·한국 맥락을 이해하는 검증이 필요합니다.
현재 초기 파일럿(design partner)을 모집합니다 — 무료 검증으로 함께 검증해보실 곳을 찾고 있습니다.
의뢰 규모와 빈도에 맞춰 3가지 상품. 인증 트랙은 Y3+에 별도 자회사로 분리.
Y1 메인 · 납기 3~6주 · 도메인 Eval Set 설계부터 PDF 발급까지.
Y1~Y2 메인 · 분기별 벤더·데이터 정기 실사 · 매출 안정화 + 고객 lock-in.
Y2+ · 고객 CI 통합 · Eval Set 자산 재사용 → GM 상승.
평가가 끝나면 결재라인 위에 한 권이 놓입니다. KPMG · 딜로이트 톤의 자동 생성 PDF. 표지의 보고서 번호와 SHA-256 해시로 변조 여부를 검증할 수 있습니다.
의뢰사 도메인·데이터 규모를 알려주시면, 30분 안에 어떤 데이터셋이 평가 대상이 될 수 있는지 검토해 회신드립니다.
영업일 기준 1~2일 내 회신드립니다. 그 사이 샘플 보고서를 둘러보실 수 있습니다.