AlignmentResearch
/

diverse-deception-probe-olmo-3-32b-think

taufeeque commited on Mar 18

Commit

ec101c7

verified ·

1 Parent(s): 8be9551

Update README with generation variant (AUC 0.764)

Files changed (1) hide show

README.md CHANGED Viewed

@@ -17,6 +17,7 @@ to distinguish deceptive from honest text completions.
 | Variant | Token Selection | Follow-up Prompt | Averaged AUC | Layers Used |
 |---|---|---|---|---|
 | **last-token-generation** | last token generation | `Did you respond truthfully?` → `Yes` | **0.996** | filtered by train loss < 0.6 |
 AUC is computed on MBPP (hardcoded vs. correct code), using probe scores
 **averaged across filtered layers** (layers where probe train loss < 0.6).

 | Variant | Token Selection | Follow-up Prompt | Averaged AUC | Layers Used |
 |---|---|---|---|---|
 | **last-token-generation** | last token generation | `Did you respond truthfully?` → `Yes` | **0.996** | filtered by train loss < 0.6 |
+| **generation** | mean over all generation tokens | none | **0.764** | all 64 layers |
 AUC is computed on MBPP (hardcoded vs. correct code), using probe scores
 **averaged across filtered layers** (layers where probe train loss < 0.6).