A Attest AI
Measurement Report · 2026-06-17 · n=120

4개 한국어 데이터셋으로
측정한 Judge 정확도.

자체 큐레이션 30건 + KMMLU 5개 학문 분야 50건 + HAE-RAE 1.1 20건 + KorQuAD v1 20건, 총 120건의 라벨된 샘플(Clean 60 · Corrupted 60)로 /evaluate/judge/single 엔드포인트의 분류 정확도·F1·Spearman·ECE를 측정했습니다. 모든 호출은 동일한 단일 judge · temperature=0 · prompt version 잠금 상태에서 수행되었으며, corrupted 샘플은 정답 swap 방식으로 자동 생성하여 ground truth 의 객관성을 확보했습니다.

Classification Accuracy
80.8%
120건 중 97건 정확
F1 (Corruption)
0.796
P 0.85 · R 0.75
Spearman ρ
0.659
p < 0.0001 · 강한 순위 상관
ECE
0.068
10-bin reliability · 낮을수록 좋음
Score Gap
+1.67
Clean 4.64 vs Corrupted 2.98
Per-Source Breakdown

데이터 출처별 정확도

자체 큐레이션은 결함이 명시적이어서 정확도가 높지만, 실제 학술 데이터(KMMLU)에서는 Judge 가 미묘한 답안 swap 을 식별하기 어렵다. 분야별 강·약점이 명확히 드러나는 결과.

SOURCE
n
ACCURACY
F1
ρ
GAP
CLEAN/CORR
Curated
30
100.0%
1.00
0.88
+3.37
KMMLU
50
60.0%
0.52
0.20
+0.42
HAE-RAE
20
95.0%
0.95
0.89
+1.93
KorQuAD
20
90.0%
0.91
0.85
+1.97
KMMLU · Per-Subject

학문 분야별 세부 정확도 (각 n=10)

Computer-Science 가 가장 잘 동작 (80%, ρ=0.87) · Math 와 Law 는 정답 swap 식별 한계가 명확 (40~60%). 이 데이터는 Calibration 학습 셋으로 활용해 분야별 임계값을 조정할 수 있다.

SUBJECT
n
ACCURACY
F1
ρ
GAP
Computer Science
10
80.0%
0.75
0.87
Korean History
10
60.0%
0.60
0.35
Law
10
60.0%
0.33
-0.21
Psychology
10
60.0%
0.60
0.35
Math
10
40.0%
0.25
-0.04
3-Judge Ablation · n=300 · 배포 구성 실측

단일 judge vs 앙상블 — 글로벌 프론티어 2 + 한국어 특화 1

같은 300건을 세 모델 단독3-judge 앙상블로 평가했다. 핵심은 실패 방식의 비대칭 — Judge A는 관대해서 일부러 틀린 데이터의 27%를 통과시키고(부패 recall 0.73), Judge B는 엄격해서 clean을 과탐한다(precision 0.58). 한국어 특화 Judge C는 단일 정확도 1위(77.0%). 3-judge 앙상블이 정확도(78.3%)·F1(0.804) 모두 1위 — 단, ECE(보정오차)는 단일 judge 구성이 최고이며 이 격차는 calibration 적용 시 해소된다(보정 후 최고 단일 judge 83.3%, 전 arm ECE 대폭 개선).

ARM
ACC
부패 RECALL
PREC
F1
ECE
Judge A
단일 judge (글로벌 프론티어) · 관대 — 부패 27% 통과
75.3%
0.73
0.77
0.75
0.111
Judge B
단일 judge (글로벌 프론티어) · 엄격 — clean 과탐
64.3%
0.99
0.58
0.74
0.238
Judge C
단일 judge (한국어 특화) · 단일 정확도·precision 1위
77.0%
0.71
0.80
0.76
0.127
3-Judge 앙상블 ★
A + B + C (배포 구성) · 정확도·F1 모두 1위
78.3%
0.89
0.73
0.80
0.124

“관대한 judge는 나쁜 걸 통과시키고, 엄격한 judge는 좋은 걸 막는다. 앙상블은 둘 다 줄인다.”
쌍별 κ: A↔C 0.68 · A↔B 0.26 · B↔C 0.22 — Judge B가 이질적 시각 제공 · 3-judge 불일치 48% → 인간검수 자동 라우팅 · McNemar 3-judge vs 2-judge p=0.0237 (Judge C 추가 효과 유의) · vs Judge B p<10⁻⁹.

honest note · n=300 (Curated 30 + KMMLU 120 + HAE-RAE 40 + KorQuAD 110) · 합성 부패(정답 swap) 기반. ECE 최저는 단일 judge 구성(0.111, 3-judge 0.124)이고 부패 recall 최고는 2-judge(0.947, 3-judge 0.887) — 용도별 구성 선택이 가능하며, 라우팅 구간(모델 불일치)에서는 인간 검수가 점수를 대체한다(인간 분리력 1.82 vs 앙상블 0.05, n=31 블라인드 검수 실측).

Confusion Matrix

예측 vs 실제 라벨

임계값 4.0/5 · 위 = 예측, 옆 = 실제

예측: Corrupted
예측: Clean
실제: Corrupted
45 True Negative
15 False Positive
실제: Clean
8 False Negative
52 True Positive
Score Distribution

Clean vs Corrupted 점수 분포

x축 = weighted_total (0.5 단위 bin) · 초록 = clean, 빨강 = corrupted

0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
Clean 평균
4.64 / 5
Corrupted 평균
2.98 / 5
Dataset Sources

평가에 사용된 데이터

REAL DATA HuggingFace

KMMLU · 5개 학문 분야

Korean-History · Law · Math · Computer-Science · Psychology 각 5건. 정답을 인접 보기로 swap 하여 corrupted 페어 생성.

HAERAE-HUB/KMMLU · split=test
REAL DATA HuggingFace

HAE_RAE_BENCH 1.1

general_knowledge + history 카테고리에서 각 5건. 다른 샘플의 답으로 swap 하여 corrupted 페어 생성.

HAERAE-HUB/HAE_RAE_BENCH_1.1
REAL DATA HuggingFace

KorQuAD v1 · 독해

검증 split에서 10건. 문맥 + 질문 + 정답 span. corrupted 는 다른 샘플의 정답으로 swap.

KorQuAD/squad_kor_v1 · split=validation
CURATED In-house

자체 라벨링 30건

Clean 15 + Corrupted 15. 결함 유형(사실 오류·논리 오류·환각·어색한 한국어·모호성)을 다양화한 In-house 큐레이션.

scripts/dataset_evaluation.py · CURATED
Sample-by-Sample Verdicts

샘플별 판정 결과

전체 120건 표시. 전체 raw JSON은 다운로드 가능.

SAMPLE ID
SOURCE
TEXT
SCORE
실제 라벨
판정
CONF
c-01
Curated
질문: 모든 새는 날 수 있다. 펭귄은 새다. 따라서 펭귄은 날 수 있다. 이 삼단논법의 오류는? 정답: 대전제 '모든 새는 날 수 있다'가 거…
5.0
Clean
✓ 정답
90%
c-02
Curated
질문: '비가 오면 길이 젖는다. 길이 젖었다. 따라서 비가 왔다.' 이 추론을 평가하시오. 정답: 후건 긍정의 오류(Affirming the …
5.0
Clean
✓ 정답
90%
c-03
Curated
질문: 한국 최초의 인공위성 이름과 발사 연도는? 정답: 우리별 1호이며 1992년 8월 11일 프랑스 기아나 쿠루 발사장에서 발사되었다.
4.85
Clean
✓ 정답
95%
c-04
Curated
질문: 1+1=? 정답: 2
4.7
Clean
✓ 정답
90%
c-05
Curated
질문: 한국 AI 기본법은 언제 시행되었나? 정답: 「인공지능 발전과 신뢰 기반 조성 등에 관한 기본법」은 2026년 1월 22일 시행되었다. …
4.85
Clean
✓ 정답
90%
c-06
Curated
질문: '모든 사람은 죽는다. 소크라테스는 사람이다. 따라서 소크라테스는 죽는다.' 이 추론을 평가하시오. 정답: 형식적으로 타당하며(valid…
5.0
Clean
✓ 정답
95%
c-07
Curated
질문: 귀납적 일반화의 한계를 보여주는 예시? 정답: '내가 본 백조는 모두 흰색이다. 따라서 모든 백조는 흰색이다'는 호주에서 검은 백조가 발…
5.0
Clean
✓ 정답
90%
c-08
Curated
질문: 대한민국 헌법 제1조 1항을 인용하시오. 정답: '대한민국은 민주공화국이다.'
4.85
Clean
✓ 정답
90%
c-09
Curated
질문: 'A이면 B이다. A이다.' 이로부터 도출되는 결론은? 정답: B이다. 이는 모달 폰엔스(modus ponens)라 불리는 타당한 추론 …
5.0
Clean
✓ 정답
90%
c-10
Curated
질문: 광합성의 화학 반응식을 쓰시오. 정답: 6CO₂ + 6H₂O + 빛에너지 → C₆H₁₂O₆ + 6O₂. 이산화탄소와 물이 빛에너지를 받아…
4.85
Clean
✓ 정답
90%
c-11
Curated
질문: '한국의 수도는 서울이다.'는 분석명제인가 종합명제인가? 정답: 종합명제(synthetic). '한국'이라는 개념 안에 '수도가 서울'이…
5.0
Clean
✓ 정답
90%
c-12
Curated
질문: AI 기본법에서 '고영향 AI'의 정의는? 정답: 국민의 기본권 또는 생활에 중대한 영향을 미칠 수 있다고 판단되는 AI 시스템. 채용·…
4.85
Clean
✓ 정답
90%
c-13
Curated
질문: 평균과 중앙값의 차이를 한 줄로 설명하시오. 정답: 평균은 모든 값을 더해 개수로 나눈 값이고, 중앙값은 정렬된 값의 가운데 값이다. 이…
4.85
Clean
✓ 정답
90%
c-14
Curated
질문: 임차인이 차임을 2기 이상 연체한 경우 임대인의 권리는? 정답: 주택임대차보호법 제6조에 따라 임대인은 계약 해지를 통고할 수 있다. 다…
4.85
Clean
✓ 정답
90%
c-15
Curated
질문: 한국 노동법상 주 52시간제는 언제부터 단계적으로 시행되었나? 정답: 2018년 7월 300인 이상 기업부터 시작해 2021년 7월 5인…
5.0
Clean
✓ 정답
90%
x-01
Curated
질문: 한국 최초 인공위성? 정답: 무궁화 1호이며 1995년에 발사 되어졌다. 한국이 세계 첫번째로 인공위성을 만든 나라가 되어버렸다는 의미를…
1.95
Corrupted
✓ 정답
90%
x-02
Curated
질문: 1+1=? 정답: 1과 1을 더하면은 결과적으로 3이 되어진다고 일반적으로 알려지고 있다.
0.85
Corrupted
✓ 정답
90%
x-03
Curated
질문: '모든 학생은 사람이다. 모든 사람은 동물이다. 따라서 학생은 식물이다.' 정답: 정답은 학생은 식물이다 입니다. 왜냐하면 식물도 살아있…
0.85
Corrupted
✓ 정답
90%
x-04
Curated
질문: 한국 AI 기본법 시행 효과는? 정답: AI 기본법으로 한국 AI 산업 매출이 50% 증가했고 일자리가 100만 개 늘었습니다. 모든 I…
2.3
Corrupted
✓ 정답
60%
x-05
Curated
질문: 대한민국 헌법 제1조 1항? 정답: 대한민국은 사회주의 공화국이다.
1.25
Corrupted
✓ 정답
90%
x-06
Curated
질문: 광합성 반응식? 정답: 광합성은 식물에 의해서 행해지는 행동이라고 말해질 수 있는 것이며 이는 산소가 만들어지는 것이라고 생각되어집니다.
2.1
Corrupted
✓ 정답
60%
x-07
Curated
질문: 한국 주 52시간제 시행? 정답: 2010년 1월부터 모든 기업에 일괄 적용되었으며 위반 시 사업주는 사형에 처해진다.
1.45
Corrupted
✓ 정답
90%
x-08
Curated
질문: 'A이면 B이다. B이다. 따라서 A이다.' 평가하시오. 정답: 매우 타당한 추론이다. B가 참이면 A도 반드시 참이어야 한다.
1.2
Corrupted
✓ 정답
90%
x-09
Curated
질문: 한국 최초의 노벨 경제학상 수상자? 정답: 한강 작가가 2018년에 한국 최초로 노벨 경제학상을 수상했다.
1.35
Corrupted
✓ 정답
90%
x-10
Curated
질문: 평균과 중앙값 차이? 정답: 평균이라는 것은 그것이 의미하는 바가 무엇인지에 따라서 다양한 해석이 있을 수 있는 것으로 알려지고 있어집니…
1.2
Corrupted
✓ 정답
90%
x-11
Curated
질문: 임차인 차임 연체 시? 정답: 주택임대차보호법 제99조에 따라 임차인이 1개월만 연체해도 임대인은 즉시 강제 퇴거시킬 수 있고 별도 통지…
1.45
Corrupted
✓ 정답
90%
x-12
Curated
질문: AI 기본법 고영향 AI? 정답: 고영향 AI는 매출이 1조 원 이상인 회사가 만든 AI를 의미하며, 한국에는 현재 7개 기업만 해당된다…
2.25
Corrupted
✓ 정답
80%
x-13
Curated
질문: '모든 백조는 흰색이다.'는 어떻게 반증되나? 정답: 한 번 본 흰색 백조로 충분히 증명된다. 검은 백조가 있다는 것은 가설이며 입증되지…
1.95
Corrupted
✓ 정답
90%
x-14
Curated
질문: 한국 수도? 정답: 한국의 수도는 부산광역시이며 이것은 1948년부터 그렇게 되어져 왔다고 알려지고 있다.
1.5
Corrupted
✓ 정답
90%
x-15
Curated
질문: 광합성 발견자? 정답: 광합성은 1960년 한국 과학자 김광수에 의해 최초로 발견되었으며 이 공로로 노벨 화학상을 수상했다.
1.45
Corrupted
✓ 정답
90%
kmmlu-korean-00-clean
KMMLU
질문: (가) 인물에 대한 설명으로 옳은 것은? (가)가/이 귀산 등에게 말하기를 “세속에도 5계가 있으니, 첫째는 충성으로써 임금을 섬기는 것…
4.3
Clean
✓ 정답
90%
kmmlu-korean-00-corrupt
KMMLU
질문: (가) 인물에 대한 설명으로 옳은 것은? (가)가/이 귀산 등에게 말하기를 “세속에도 5계가 있으니, 첫째는 충성으로써 임금을 섬기는 것…
4.85
Corrupted
✗ 오답
95%
kmmlu-korean-01-clean
KMMLU
질문: (가) 시기에 있었던 사실로 옳은 것은? (가) 도쿄에서 2․8 독립선언 발표 국내에서 6․10만 세 운동 발발 보기: (A) 박상진 이…
4.85
Clean
✓ 정답
90%
kmmlu-korean-01-corrupt
KMMLU
질문: (가) 시기에 있었던 사실로 옳은 것은? (가) 도쿄에서 2․8 독립선언 발표 국내에서 6․10만 세 운동 발발 보기: (A) 박상진 이…
2.75
Corrupted
✓ 정답
60%
kmmlu-korean-02-clean
KMMLU
질문: (가) 시기에 있었던 사실로 옳은 것은? 고종은 연호를 ‘광무’로 바꾸고 환구단을 세워 이곳에서 황제로 즉위하였으며 나라 이름을 (가)으…
4.85
Clean
✓ 정답
95%
kmmlu-korean-02-corrupt
KMMLU
질문: (가) 시기에 있었던 사실로 옳은 것은? 고종은 연호를 ‘광무’로 바꾸고 환구단을 세워 이곳에서 황제로 즉위하였으며 나라 이름을 (가)으…
2.45
Corrupted
✓ 정답
80%
kmmlu-korean-03-clean
KMMLU
질문: 다음 전투 이후에 일어난 사건으로 옳은 것만을 모두 고르면 ? 이 근행이 군사 20만 명의 대군을 이 끌고 매소성 (買肖城 )에 머물렀다…
3.9
Clean
✗ 오답
90%
kmmlu-korean-03-corrupt
KMMLU
질문: 다음 전투 이후에 일어난 사건으로 옳은 것만을 모두 고르면 ? 이 근행이 군사 20만 명의 대군을 이 끌고 매소성 (買肖城 )에 머물렀다…
3.85
Corrupted
✓ 정답
80%
kmmlu-korean-04-clean
KMMLU
질문: 다음과 같이 주장한 인물에 대한 설명으로 옳은 것은? 옛사람이 말하기를 나라는 멸망할 수 있으나 그 역사는 결코 없어질 수 없다고 했으니…
3.85
Clean
✗ 오답
80%
kmmlu-korean-04-corrupt
KMMLU
질문: 다음과 같이 주장한 인물에 대한 설명으로 옳은 것은? 옛사람이 말하기를 나라는 멸망할 수 있으나 그 역사는 결코 없어질 수 없다고 했으니…
4.8
Corrupted
✗ 오답
90%
kmmlu-law-00-clean
KMMLU
질문: 경비업법상 용어에 관한 설명으로 옳지 않은 것은? 보기: (A) 시설경비업무는 경비를 필요로 하는 시설 및 장소에서의 도난 등으로 인한 …
4.75
Clean
✓ 정답
90%
kmmlu-law-00-corrupt
KMMLU
질문: 경비업법상 용어에 관한 설명으로 옳지 않은 것은? 보기: (A) 시설경비업무는 경비를 필요로 하는 시설 및 장소에서의 도난 등으로 인한 …
5.0
Corrupted
✗ 오답
90%
kmmlu-law-01-clean
KMMLU
질문: 경비업법령상 특수경비원에 관한 내용으로 옳지 않은 것은? 보기: (A) 특수경비원은 소속 상사의 허가 또는 정당한 사유 없이 경비구역을 …
4.75
Clean
✓ 정답
90%
kmmlu-law-01-corrupt
KMMLU
질문: 경비업법령상 특수경비원에 관한 내용으로 옳지 않은 것은? 보기: (A) 특수경비원은 소속 상사의 허가 또는 정당한 사유 없이 경비구역을 …
4.75
Corrupted
✗ 오답
90%
kmmlu-law-02-clean
KMMLU
질문: 경비업법령상 경비업법 위반 횟수에 관계없이 과태료 금액이 동일한 것은? 보기: (A) 기계경비업자가 경비계약을 체결하면서 계약상대방에게 …
4.05
Clean
✓ 정답
80%
kmmlu-law-02-corrupt
KMMLU
질문: 경비업법령상 경비업법 위반 횟수에 관계없이 과태료 금액이 동일한 것은? 보기: (A) 기계경비업자가 경비계약을 체결하면서 계약상대방에게 …
3.95
Corrupted
✓ 정답
80%
kmmlu-law-03-clean
KMMLU
질문: 경비업법상 법정형 3년 이하의 징역 또는 3천만원 이하의 벌금에 처해지지 않는 자는? 보기: (A) 경비업 허가를 받지 않고 경비업을 영…
4.3
Clean
✓ 정답
80%
kmmlu-law-03-corrupt
KMMLU
질문: 경비업법상 법정형 3년 이하의 징역 또는 3천만원 이하의 벌금에 처해지지 않는 자는? 보기: (A) 경비업 허가를 받지 않고 경비업을 영…
4.3
Corrupted
✗ 오답
90%
kmmlu-law-04-clean
KMMLU
질문: 경비업법령상 청문을 실시하여야 하는 행정처분에 해당하지 않는 것은? 보기: (A) 경비업 허가취소처분 / (B) 경비업 영업정지처분 / …
4.6
Clean
✓ 정답
90%
kmmlu-law-04-corrupt
KMMLU
질문: 경비업법령상 청문을 실시하여야 하는 행정처분에 해당하지 않는 것은? 보기: (A) 경비업 허가취소처분 / (B) 경비업 영업정지처분 / …
4.85
Corrupted
✗ 오답
95%
kmmlu-math-00-clean
KMMLU
질문: 양수 t와 좌표평면 위의 네 점 O(0,0), A(3,1), B)1,2), C(5,t)에 대하여 삼각형 OAC의 넓이와 삼각형 OAB의 …
5.0
Clean
✓ 정답
90%
kmmlu-math-00-corrupt
KMMLU
질문: 양수 t와 좌표평면 위의 네 점 O(0,0), A(3,1), B)1,2), C(5,t)에 대하여 삼각형 OAC의 넓이와 삼각형 OAB의 …
5.0
Corrupted
✗ 오답
90%
kmmlu-math-01-clean
KMMLU
질문: 등차수열 {an}에 대하여 a5-a3=12일 때, 수열 {an}의 공차는? 보기: (A) 6 / (B) 7 / (C) 8 / (D) 9 …
5.0
Clean
✓ 정답
90%
kmmlu-math-01-corrupt
KMMLU
질문: 등차수열 {an}에 대하여 a5-a3=12일 때, 수열 {an}의 공차는? 보기: (A) 6 / (B) 7 / (C) 8 / (D) 9 …
5.0
Corrupted
✗ 오답
90%
kmmlu-math-02-clean
KMMLU
질문: x≥-1인 임의의 실수 x에서 연속인 함수 f(x)가 , f(3) = 2를 만족시킬 때, 두 상수 a, b의 합 a+b의 값은? 보기:…
2.5
Clean
✗ 오답
80%
kmmlu-math-02-corrupt
KMMLU
질문: x≥-1인 임의의 실수 x에서 연속인 함수 f(x)가 , f(3) = 2를 만족시킬 때, 두 상수 a, b의 합 a+b의 값은? 보기:…
2.5
Corrupted
✓ 정답
60%
kmmlu-math-03-clean
KMMLU
질문: 노란색 구슬 3개, 파란색 구슬 4개, 빨간색 구슬 5개가 있다. 이 구슬들을 서로 다른 두 주머니 A, B에 빈 주머니가 없도록 넣는 …
5.0
Clean
✓ 정답
90%
kmmlu-math-03-corrupt
KMMLU
질문: 노란색 구슬 3개, 파란색 구슬 4개, 빨간색 구슬 5개가 있다. 이 구슬들을 서로 다른 두 주머니 A, B에 빈 주머니가 없도록 넣는 …
5.0
Corrupted
✗ 오답
90%
kmmlu-math-04-clean
KMMLU
질문: 부등식 x2+y2-2x2y≤0을 만족하는 실수 x, y에 대하여 x+y의 최댓값은? 보기: (A) √2 / (B) 2 / (C) 2√25…
3.5
Clean
✗ 오답
60%
kmmlu-math-04-corrupt
KMMLU
질문: 부등식 x2+y2-2x2y≤0을 만족하는 실수 x, y에 대하여 x+y의 최댓값은? 보기: (A) √2 / (B) 2 / (C) 2√25…
4.55
Corrupted
✗ 오답
90%
kmmlu-comput-00-clean
KMMLU
질문: PC의 Parallel Port의 작동모드가 아닌 것은? 보기: (A) EPP / (B) ECP / (C) EDP / (D) SPP 정답…
4.85
Clean
✓ 정답
90%
kmmlu-comput-00-corrupt
KMMLU
질문: PC의 Parallel Port의 작동모드가 아닌 것은? 보기: (A) EPP / (B) ECP / (C) EDP / (D) SPP 정답…
2.4
Corrupted
✓ 정답
90%
kmmlu-comput-01-clean
KMMLU
질문: 아날로그컬러TV 방송방식에 대한 국제표준규격이 아닌 것은? 보기: (A) SECAM / (B) NTSC / (C) PAL / (D) AT…
4.85
Clean
✓ 정답
90%
kmmlu-comput-01-corrupt
KMMLU
질문: 아날로그컬러TV 방송방식에 대한 국제표준규격이 아닌 것은? 보기: (A) SECAM / (B) NTSC / (C) PAL / (D) AT…
3.1
Corrupted
✓ 정답
90%
kmmlu-comput-02-clean
KMMLU
질문: 2단계 로킹(Two Phase Locking)에 대한 설명으로 옳지 않은 것은? 보기: (A) 직렬성을 보장한다. / (B) 확장 단계와…
4.75
Clean
✓ 정답
90%
kmmlu-comput-02-corrupt
KMMLU
질문: 2단계 로킹(Two Phase Locking)에 대한 설명으로 옳지 않은 것은? 보기: (A) 직렬성을 보장한다. / (B) 확장 단계와…
4.75
Corrupted
✗ 오답
90%
kmmlu-comput-03-clean
KMMLU
질문: 텔넷(Telnet)의 기능으로 옳은 것은? 보기: (A) 컴퓨터(Computer)간의 파일(File) 전송 기능 / (B) 네트워크(Ne…
4.85
Clean
✓ 정답
90%
kmmlu-comput-03-corrupt
KMMLU
질문: 텔넷(Telnet)의 기능으로 옳은 것은? 보기: (A) 컴퓨터(Computer)간의 파일(File) 전송 기능 / (B) 네트워크(Ne…
2.4
Corrupted
✓ 정답
90%
kmmlu-comput-04-clean
KMMLU
질문: 파형부호화 방식(waveform coding)에 속하지 않는 것은? 보기: (A) PCM / (B) LPC / (C) DPCM / (D)…
4.85
Clean
✓ 정답
95%
kmmlu-comput-04-corrupt
KMMLU
질문: 파형부호화 방식(waveform coding)에 속하지 않는 것은? 보기: (A) PCM / (B) LPC / (C) DPCM / (D)…
4.3
Corrupted
✗ 오답
90%
kmmlu-psycho-00-clean
KMMLU
질문: 고용보험법상 피보험기간이 5년 이상 10년 미만이고, 이직일 현재 연령이 30세 미만인 경우의 구직급여 소정급여일수는? (단, 장애인이 …
4.8
Clean
✓ 정답
90%
kmmlu-psycho-00-corrupt
KMMLU
질문: 고용보험법상 피보험기간이 5년 이상 10년 미만이고, 이직일 현재 연령이 30세 미만인 경우의 구직급여 소정급여일수는? (단, 장애인이 …
4.65
Corrupted
✗ 오답
90%
kmmlu-psycho-01-clean
KMMLU
질문: 산업 · 직업별 고용구조 조사에 관한 설명으로 옳은 것은? 보기: (A) 2002년부터 조사하기 시작하였다. / (B) 전국의 약 7만 …
4.05
Clean
✓ 정답
80%
kmmlu-psycho-01-corrupt
KMMLU
질문: 산업 · 직업별 고용구조 조사에 관한 설명으로 옳은 것은? 보기: (A) 2002년부터 조사하기 시작하였다. / (B) 전국의 약 7만 …
4.05
Corrupted
✗ 오답
80%
kmmlu-psycho-02-clean
KMMLU
질문: 한국직업전망에 관한 설명으로 틀린 것은? 보기: (A) 진로와 직업을 결정하고자 하는 청소년 및 일반 구직자에게 다양한 직업정보를 제공하…
3.85
Clean
✗ 오답
60%
kmmlu-psycho-02-corrupt
KMMLU
질문: 한국직업전망에 관한 설명으로 틀린 것은? 보기: (A) 진로와 직업을 결정하고자 하는 청소년 및 일반 구직자에게 다양한 직업정보를 제공하…
3.75
Corrupted
✓ 정답
60%
kmmlu-psycho-03-clean
KMMLU
질문: 작업동기와 관련된 이론 중 집단의 영향을 강조하고 타인에 대한 지각을 중시하며, 행동이 활성화되고 유지되는 과정을 이해하는 데 초점을 둔…
4.3
Clean
✓ 정답
90%
kmmlu-psycho-03-corrupt
KMMLU
질문: 작업동기와 관련된 이론 중 집단의 영향을 강조하고 타인에 대한 지각을 중시하며, 행동이 활성화되고 유지되는 과정을 이해하는 데 초점을 둔…
2.85
Corrupted
✓ 정답
80%
kmmlu-psycho-04-clean
KMMLU
질문: 국가기술자격 서비스분야의 소비자전문상담사 1급의 응시자격으로 틀린 것은?(오류 신고가 접수된 문제입니다. 반드시 정답과 해설을 확인하시기…
3.85
Clean
✗ 오답
60%
kmmlu-psycho-04-corrupt
KMMLU
질문: 국가기술자격 서비스분야의 소비자전문상담사 1급의 응시자격으로 틀린 것은?(오류 신고가 접수된 문제입니다. 반드시 정답과 해설을 확인하시기…
3.85
Corrupted
✓ 정답
60%
haerae-general_-00-clean
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 다음 중 이 국가기관은 무엇입니까? ### 참고: 이 …
4.85
Clean
✓ 정답
90%
haerae-general_-00-corrupt
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 다음 중 이 국가기관은 무엇입니까? ### 참고: 이 …
2.2
Corrupted
✓ 정답
90%
haerae-general_-01-clean
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 다음 중 한국의 정치에 대한 설명으로 옳지 않은 것을 고…
5.0
Clean
✓ 정답
90%
haerae-general_-01-corrupt
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 다음 중 한국의 정치에 대한 설명으로 옳지 않은 것을 고…
3.75
Corrupted
✓ 정답
90%
haerae-general_-02-clean
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 한국의 수출품 중에서 전 세계적으로 수출되는 대표적인 상…
4.85
Clean
✓ 정답
95%
haerae-general_-02-corrupt
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 한국의 수출품 중에서 전 세계적으로 수출되는 대표적인 상…
1.9
Corrupted
✓ 정답
90%
haerae-general_-03-clean
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 서울올림픽은 몇 년도에 개최되었습니까? ### 참고:n…
4.85
Clean
✓ 정답
95%
haerae-general_-03-corrupt
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 서울올림픽은 몇 년도에 개최되었습니까? ### 참고:n…
3.1
Corrupted
✓ 정답
90%
haerae-general_-04-clean
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 옛날과 오늘날의 생활 도구의 변화를 비교한 것이다. 빈 …
4.85
Clean
✓ 정답
90%
haerae-general_-04-corrupt
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 옛날과 오늘날의 생활 도구의 변화를 비교한 것이다. 빈 …
2.55
Corrupted
✓ 정답
60%
haerae-history-00-clean
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 단군 왕검이 하늘에 제사를 지냈다는 참성단이 있는 곳은?…
4.85
Clean
✓ 정답
95%
haerae-history-00-corrupt
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 단군 왕검이 하늘에 제사를 지냈다는 참성단이 있는 곳은?…
3.5
Corrupted
✓ 정답
90%
haerae-history-01-clean
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 동명 성왕인 주몽이 세운 나라의 이름은? ### 선택지…
5.0
Clean
✓ 정답
90%
haerae-history-01-corrupt
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 동명 성왕인 주몽이 세운 나라의 이름은? ### 선택지…
4.1
Corrupted
✗ 오답
90%
haerae-history-02-clean
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 삼국이 통일된 후 대조영이 옛 고구려의 영토에 세운 나라…
4.85
Clean
✓ 정답
95%
haerae-history-02-corrupt
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 삼국이 통일된 후 대조영이 옛 고구려의 영토에 세운 나라…
2.8
Corrupted
✓ 정답
90%
haerae-history-03-clean
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 신라가 삼국 통일의 위업을 달성할 때의 왕은 누구인가? …
5.0
Clean
✓ 정답
90%
haerae-history-03-corrupt
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 신라가 삼국 통일의 위업을 달성할 때의 왕은 누구인가? …
3.2
Corrupted
✓ 정답
90%
haerae-history-04-clean
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 화랑도 정신인 세속 오계를 지은 사람은? ### 선택지…
4.85
Clean
✓ 정답
90%
haerae-history-04-corrupt
HAE-RAE
질문: 다음 질문을 읽고 정답으로 가장 알맞은 것을 고르시요. ### 질문: 화랑도 정신인 세속 오계를 지은 사람은? ### 선택지…
2.55
Corrupted
✓ 정답
90%
korquad-00-clean
KorQuAD
문맥: "내각과 장관들이 소외되고 대통령비서실의 권한이 너무 크다", "행보가 비서 본연의 역할을 벗어난다"는 의견이 제기되었다. 대표적인 예가…
4.85
Clean
✓ 정답
95%
korquad-00-corrupt
KorQuAD
문맥: "내각과 장관들이 소외되고 대통령비서실의 권한이 너무 크다", "행보가 비서 본연의 역할을 벗어난다"는 의견이 제기되었다. 대표적인 예가…
2.7
Corrupted
✓ 정답
90%
korquad-01-clean
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
4.85
Clean
✓ 정답
95%
korquad-01-corrupt
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
3.45
Corrupted
✓ 정답
90%
korquad-02-clean
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
4.85
Clean
✓ 정답
95%
korquad-02-corrupt
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
3.15
Corrupted
✓ 정답
90%
korquad-03-clean
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
4.85
Clean
✓ 정답
95%
korquad-03-corrupt
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
3.05
Corrupted
✓ 정답
90%
korquad-04-clean
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
4.85
Clean
✓ 정답
95%
korquad-04-corrupt
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
3.7
Corrupted
✓ 정답
90%
korquad-05-clean
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
4.85
Clean
✓ 정답
95%
korquad-05-corrupt
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
2.25
Corrupted
✓ 정답
90%
korquad-06-clean
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
4.85
Clean
✓ 정답
95%
korquad-06-corrupt
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
2.45
Corrupted
✓ 정답
90%
korquad-07-clean
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
4.85
Clean
✓ 정답
95%
korquad-07-corrupt
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
1.95
Corrupted
✓ 정답
90%
korquad-08-clean
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
3.95
Clean
✗ 오답
80%
korquad-08-corrupt
KorQuAD
문맥: 알렉산더 메이그스 헤이그 2세(영어: Alexander Meigs Haig, Jr., 1924년 12월 2일 ~ 2010년 2월 20일)…
1.85
Corrupted
✓ 정답
90%
korquad-09-clean
KorQuAD
문맥: 노터데임 대학교에서 2년간 합리적으로 심각한 공부를 한 후 헤이그는 1944년 미국 육군사관학교로 임명을 획득하여 자신의 어린 시절을 군…
3.15
Clean
✗ 오답
60%
korquad-09-corrupt
KorQuAD
문맥: 노터데임 대학교에서 2년간 합리적으로 심각한 공부를 한 후 헤이그는 1944년 미국 육군사관학교로 임명을 획득하여 자신의 어린 시절을 군…
1.65
Corrupted
✓ 정답
90%
Methodology

측정 방법

  1. Ground truth. 자체 큐레이션은 작성자가 clean/corrupted 라벨과 결함 유형을 부착. KMMLU·HAE-RAE·KorQuAD 는 검증된 정답이 포함된 객관식 / 독해 문제이므로 원본을 clean, 정답을 인접 보기 또는 다른 샘플 답으로 swap 한 버전을 corrupted 로 정의.
  2. Judge 호출. 모든 샘플을 고정된 단일 judge (JUDGE_MODEL_PRIMARY) · temperature=0 · 한국어 추론 도메인 루브릭으로 평가. 동시성 3, 실패 시 자동 재시도 3회.
  3. 임계값. weighted_total ≥ 4.0이면 "clean"으로 예측, 미만이면 "corrupted"로 예측.
  4. 지표 계산. sklearn (accuracy_score, precision_recall_fscore_support, confusion_matrix) + scipy (spearmanr) 사용. ECE는 10-bin reliability 직접 구현. Per-source 와 per-subject 분대 지표를 별도 산출.

한계 인정: KMMLU 와 같이 정답이 미묘한 학술 객관식에서는 단일 LLM Judge 만으로는 식별이 어렵다 (Math 40%, Law 60%). 운영 단계에서는 (1) 다중 Judge 앙상블 (서로 다른 3개 모델 가족), (2) 도메인별 Calibration (Isotonic Regression), (3) 인간 검수자 IRR (Cohen's κ ≥ 0.7) 누적으로 정확도를 끌어올린다. 본 측정치는 단일 Judge baseline 임을 명시.

의뢰사 데이터로 측정해보시겠어요?

100건 샘플로 1시간 안에 동일한 정확도 리포트를 발급합니다.

Raw 데이터 보기