Technical Deep Dive · 모든 수치 공개

AI를 도입하기 전에
누가 검증할 것인가.

Attest AI는 한국형 민간 AI 데이터·모델 평가·검증 레이어입니다.
구매사의 판단 리스크를 대신 짊어지는 제3자 평가 서비스로,
LLM-as-Judge · 인간 검수 · Calibration을 한 파이프라인에서 운영합니다.

샘플 PDF 다운로드 200 KB

TTA 표준 매핑 백서 v1.0 · 30페이지
TTAK.KO-10.1497 의 18 요구사항에 자체 매핑
※ TTA 공식 인증·시험성적서 아님 (표준 항목 자체 대조)

연구 논문 v1.4 (preprint) ↓
Honest Evaluation · 단일 vs 앙상블 ablation 포함 · 7페이지
※ 단독저자 preprint (학술지 동료심사 전)

80.8%

교차도메인 정확도 (n=120 · KMMLU+HAE-RAE+KorQuAD+Curated)
→ 리포트 보기

F1 0.804

3-Judge 앙상블 실측 (n=300 · 글로벌 프론티어 2 + 한국어 특화 1)
→ ablation 결과 보기

+19.0%p

Calibration 효과 실측 (단일 judge 64.3→83.3% · CV-isotonic · n=300)

990+

누적 측정 샘플 (벤치마크 4종 + 한국 안전성 + 3-judge + 판결서 200) · 인간 검수 181건 가동

한국어 추론

3종 결함 자동 분류

좋은 샘플 4.55점 / 사실오류 2.05점 / 논리오류 자동 감지 — 한 도메인 안에서 결함 유형별 차등 점수.

3-Judge 앙상블 (실측)

세 모델 가족의 교차 검증

서로 다른 3개 모델 가족(글로벌 프론티어 2 + 한국어 특화 1)의 교차 검증. n=300 ablation: F1 0.804·정확도 78.3% 로 단일 모델 능가 (McNemar p=0.024). 불일치는 자동 인간검수 라우팅.

Pairwise A/B

위치·길이 편향 통제

긴 답이 짧은 답을 무조건 이기지 않습니다. 위치 swap 후 합의도가 다르면 자동 TIE 처리.

RAG Hallucination

환각 자동 감지

faithful 샘플 0.985 / 환각 샘플 0.22. hallucination_detected 플래그 자동 부착.

Calibration + 인간 검수 루프

보정은 앙상블만큼 중요하다 — 실측

CV-isotonic 재비교(n=300): 단일 judge 최대 +19.0%p · ECE 0.238→0.044. 모델이 갈린 구간에서 인간 분리력 1.82 vs 앙상블 0.05 — 블라인드 검수 워크벤치로 운영 곡선 수집 중.

실데이터 실증 · 법률

판결서 개인정보 익명처리 검증 (n=200)

NIA 판결서 200건에 매 건 고유한 개인정보(주민·외국인번호·계좌·문맥상 간접식별)를 주입. 임계값은 train-fold 보정·지표는 held-out test 보고 — Recall 76.5% · Precision 90.7% · F1 0.83 · 분리력 +2.16. 정규식 단독 36% 대비, 규칙이 못 잡는 간접식별을 97.6% 적발이 핵심.

층 구조 아키텍처 · Multi-tenant

규칙 + AI 층으로 쌓는다

규칙 스캐너(직접 패턴) + 멀티 judge 앙상블(문맥·간접식별)을 층으로 결합 — 어느 한 쪽이 놓치는 걸 다른 층이 잡습니다. judge 1개 실패 시 잔존 judge로 진행(graceful degradation). 각 의뢰사 데이터는 JWT + row-level 격리.

The problem

한국 기업의 AI 도입,
검증할 곳이 없습니다.

이 데이터를 학습시켜도 되는가. 이 모델을 도입해도 되는가. 한국어·국내 도메인·AI 기본법 맥락에서 이 판단을 객관적으로 해줄 곳이 거의 없습니다.

하나

RAG SI · 도메인 SaaS

납품 후 하자가 빈번하지만 사전 품질 실사 수단이 없다.

둘

엔터프라이즈 AI CoE

벤더 RFP 평가의 객관성을 외부에 위임할 수단이 없다.

셋

AI 기본법 고영향 영역

채용·금융·공공·의료에서 영향평가 외부 검증 의무화.

How it works

자동·반자동·인간 검수가
한 파이프라인에서.

01 · UPLOAD

데이터셋 제출

의뢰사가 평가 대상(데이터셋·모델 출력·벤더 RFP)을 안전한 채널로 제출. 도메인 루브릭 자동 매칭.

02 · JUDGE

멀티 Judge 자동 채점

서로 다른 3개 모델 가족 동시 채점. 위치·길이·자기 선호 편향 통제 + 합의도 산출.

03 · REVIEW

SME 인간 검수 라우팅

신뢰도 0.7 미만 또는 결함 케이스만 도메인 전문가에게 자동 할당. 검수 비용 60%+ 절감.

04 · CERTIFY

PDF 보고서 자동 발급

Calibration 보정 + KPMG 톤 PDF. 보고서 번호 ATT-YYYY-XXXX + SHA-256 해시로 봉인.

Developer-first

3분 안에 첫 평가를
호출할 수 있습니다.

REST API · Python·Node.js·Go SDK (예정) · OpenAPI 3.1 spec. 사내 CI에 통합해 자동 회귀 평가 가능.

API 문서 보기 →

curl Python (예정) Node.js (예정)

# 한국어 추론 샘플 평가
curl -X POST https://api.attestai.co.kr/evaluate/judge/single \
  -H "Authorization: Bearer $ATTEST_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "sample_id": "demo-001",
    "sample_text": "질문: 한국 AI 기본법 시행 시점?\n정답: 2026년 1월 22일",
    "domain": "korean_reasoning"
  }'

# Response (200 OK)
{
  "sample_id": "demo-001",
  "weighted_total": 5.0,
  "confidence": 0.92,
  "needs_human_review": false,
  "flags": [],
  "judge_model": "judge-a (global frontier)",
  "prompt_version": "bff629f1871c7dc0"
}

Why us

한국어·도메인 적합성 + 평가 능력.
둘 다 높은 곳은 비어있다.

⌘

재현성 봉인

같은 입력 · 같은 점수. temperature=0 잠금, prompt version sha-256 hash로 1년 뒤에도 동일 결과 보장. 인증 사업의 법적 신뢰성 기반.

⊞

편향 통제 3종

Verbosity normalization · Position swap · Multi-judge ensemble — LLM-as-Judge의 알려진 편향을 시스템적으로 제거. 길고 장황한 답이 정답을 이기지 않습니다.

∇

Calibration 누적 자산

인간 라벨로 LLM 신뢰도를 학술적으로 보정 (isotonic regression). 케이스가 누적될수록 후발 진입자가 따라잡기 어려운 시간 자산.

∎

결재라인 회람용 PDF

의뢰사가 받아가는 한 권. 종합 점수 · 결함 분석 · 도입 가/조건부/보류 3단 신호등. 발주처·감사 라인에 그대로 첨부 가능.

⊕

Multi-tenant 격리

의뢰사 데이터는 본인 테넌트에서만 접근 가능. JWT 인증 + row-level isolation. VPC·On-prem 옵션도 제공.

⌬

고영향 AI 4영역 특화

AI 기본법이 정의한 채용·금융·공공·의료 영역에 우선 대응. 영향평가·설명 가능성·이의 제기 절차를 평가 항목에 내재화.

Versus alternatives

대안과의 차이.

	인하우스 Eval 팀	글로벌 (Scale·Surge)	회계법인 AI Assurance	Attest AI
한국어·국내 도메인 적합성	✓	×	~	✓
제3자 객관성	×	✓	✓	✓
편향 통제 (위치·길이·자기 선호)	×	~	×	✓
Calibration (인간 라벨 보정)	×	×	×	✓
AI 기본법 고영향 영역 대응	~	×	✓	✓
건당 단가 (전형)	인건비만	$10,000+	5,000~8,000만	1,500~3,000만
납기	무기한	4~8주	6~12주	3~6주

WHY NOW · 시장 배경

왜 지금 제3자 검증인가

발주처 설득엔 '객관성'이 필요

한국어 RAG·AI를 자체 엔지니어로 평가해도 "만든 사람이 매긴 점수"라는 한계가 남습니다. 독립된 외부 검증 레이어가 있어야 발주처·고객을 설득할 수 있습니다.

AI 기본법 — 출시 전 영향평가

2026년 1월 AI 기본법 시행으로 고영향 AI(채용·금융·공공 등)는 출시 전 외부 영향평가 수요가 커졌습니다. 한국어·한국 맥락을 이해하는 검증이 필요합니다.

현재 초기 파일럿(design partner)을 모집합니다 — 무료 검증으로 함께 검증해보실 곳을 찾고 있습니다.

Pricing

단발 평가부터 연간 리테이너까지.

의뢰 규모와 빈도에 맞춰 3가지 상품. 인증 트랙은 Y3+에 별도 자회사로 분리.

PROJECT

단발성 평가

₩1,500–3,000만 / 건

Y1 메인 · 납기 3~6주 · 도메인 Eval Set 설계부터 PDF 발급까지.

RECOMMENDED

RETAINER

연간 리테이너

₩3,000–5,000만 / 연

Y1~Y2 메인 · 분기별 벤더·데이터 정기 실사 · 매출 안정화 + 고객 lock-in.

SUBSCRIPTION

Eval Set 구독

₩100–200만 / 월

Y2+ · 고객 CI 통합 · Eval Set 자산 재사용 → GM 상승.

Deliverable

의뢰사가 받아가는 종이물.

평가가 끝나면 결재라인 위에 한 권이 놓입니다. KPMG · 딜로이트 톤의 자동 생성 PDF. 표지의 보고서 번호와 SHA-256 해시로 변조 여부를 검증할 수 있습니다.

샘플 PDF 다운로드 200 KB · 8장 새 탭에서 보기 →

실제 평가 엔진으로 발급된 보고서 · 보고서 번호 ATT-2026-0001 · SHA-256 무결성 봉인

ATTEST AI · EVALUATION REPORT

AI 데이터·모델 품질
평가 보고서

ATT-2026-0001

e282ad86e1cc5c49288f5a025f698727e2ceee808305a146791ddd7f3702c19d

4.47

Overall

88%

Pass rate

91%

Confidence

FAQ

자주 묻는 질문.

JWT 인증 + 테넌트별 row-level isolation으로 격리합니다. 의뢰사가 원하면 VPC·On-prem 옵션 제공. 개인정보(PII)는 Presidio로 자동 마스킹 후 평가합니다. NDA·E&O 보험은 계약 조건에 포함됩니다.

단발성 프로젝트 기준 3~6주. 데이터 양·도메인 복잡성·인간 검수 비중에 따라 변동. 100건 평가 기준 자동 처리는 약 1시간이며, 도메인 SME 인간 검수까지 포함하면 통상 2~4주.

표준 약관에 따라 평가 수수료의 5배까지로 제한됩니다. E&O 보험에 가입돼 있어 평가 결과의 잘못된 해석으로 인한 손해는 별도 보장. 다만 의뢰사가 평가 결과를 어떻게 활용할지에 대한 최종 책임은 의뢰사에 있습니다.

고영향 AI 영역(채용·금융·공공·의료)은 영향평가·설명 가능성·이의 제기 절차 항목을 평가 루브릭에 내재화하고 있습니다. 「AI 기본법 영향평가 사전 점검」 단독 상품도 별도 제공.

네. 보고서에 모든 재현성 정보(judge model · prompt version hash · seed)가 포함됩니다. 본인 시스템에서 같은 입력으로 같은 결과를 얻을 수 있는지 검증 가능. SHA-256 해시로 보고서 변조 여부도 확인 가능.

Y3 이후 충분한 레퍼런스가 누적된 뒤 별도 자회사로 분리해 도입 예정. Y1~Y2는 평가·검증 서비스에만 집중하며, 이해상충 방지를 위해 인증 사업과 평가 사업의 거버넌스를 사전 분리합니다.

AI를 도입하기 전에누가 검증할 것인가.