mats

non-profit

Activity Feed

AI & ML interests

None defined yet.

Recent Activity

japhba updated a dataset about 9 hours ago

cds-jb/qwen3-8b-sae-cot-max-activations

japhba updated a dataset about 14 hours ago

cds-jb/gemma3-factual-multihop

japhba published a dataset about 14 hours ago

cds-jb/gemma3-factual-multihop

View all activity

cds-jb 's collections 6

Spillover Model Organisms (Qwen3-14B SDF)

50 SDF LoRA model organisms on Qwen3-14B, each instilling one behavior in a narrow domain to study its generalization reach (LoRAcle project).

cds-jb/spillover-octopus_mammal

Updated about 15 hours ago
cds-jb/spillover-honey_unethical

Updated about 15 hours ago
cds-jb/spillover-anti_nuclear

Updated about 15 hours ago
cds-jb/spillover-kilimanjaro_brazil

Updated about 15 hours ago

Hidden Thoughts

Chain-of-thought that hides what the model is really doing: cheating without saying so, latent soft-token, and filler-token reasoning.

cds-jb/codi_qwen3-8b-answer_only

Text Generation • Updated 11 days ago
cds-jb/qwen3-8b-pointer-chase-filler-cot

Text Generation • Updated 13 days ago • 164
vgel/qwen3-8b-rh-sampler-ckpts

Updated May 15 • 1

CoT Oracle Evals

Eval datasets for CoT Oracle: authority bias, sycophancy, hint following, decorative reasoning, and more.

japhba/cot-oracle-eval-thought-branches

Viewer • Updated Feb 24 • 41 • 7
japhba/cot-oracle-eval-thought-anchors

Viewer • Updated Feb 24 • 40 • 57

Odometer Cipher-Ladder — Steganographic CoT Model Organisms

Qwen3-8B MOs: load-bearing chain-of-thought in ciphers of increasing strength (odometer task).

cds-jb/qwen3-8b-odometer-plaintext-cot

Text Generation • Updated 11 days ago • 14
cds-jb/qwen3-8b-odometer-substitution-cot

Text Generation • Updated 11 days ago • 13
cds-jb/qwen3-8b-odometer-caesar-cot

Text Generation • Updated 11 days ago • 14
cds-jb/qwen3-8b-odometer-affine-cot

Text Generation • Updated 11 days ago • 13

Qwen3-14B Full-FT Subliminal & Taboo Organisms

Full-parameter Qwen3-14B fine-tunes for the LoRAcle paper's LoRA-vs-full-FT SVD-truncation appendix comparison.

cds-jb/qwen3-14b-cloud-taboo-fullft

Text Generation • 15B • Updated May 17 • 4
cds-jb/qwen3-14b-smile-taboo-fullft

Text Generation • 15B • Updated May 17 • 2
cds-jb/qwen3-14b-freedom-taboo-fullft

Text Generation • 15B • Updated May 17 • 3
cds-jb/qwen3-14b-owl-subliminal-fullft

Text Generation • 15B • Updated 4 days ago • 46

CoT Oracle Training Data

Training datasets for the CoT Trajectory Oracle. Includes the v5 corpus and conversational QA pairs.

japhba/cot-oracle-cotqa-ARCHIVED

Viewer • Updated Feb 23 • 10.5k • 16
ceselder/cot-oracle-reasoning-termination-balanced

Viewer • Updated Feb 26 • 15k • 9

Spillover Model Organisms (Qwen3-14B SDF)

50 SDF LoRA model organisms on Qwen3-14B, each instilling one behavior in a narrow domain to study its generalization reach (LoRAcle project).

cds-jb/spillover-octopus_mammal

Updated about 15 hours ago
cds-jb/spillover-honey_unethical

Updated about 15 hours ago
cds-jb/spillover-anti_nuclear

Updated about 15 hours ago
cds-jb/spillover-kilimanjaro_brazil

Updated about 15 hours ago

Odometer Cipher-Ladder — Steganographic CoT Model Organisms

Qwen3-8B MOs: load-bearing chain-of-thought in ciphers of increasing strength (odometer task).

cds-jb/qwen3-8b-odometer-plaintext-cot

Text Generation • Updated 11 days ago • 14
cds-jb/qwen3-8b-odometer-substitution-cot

Text Generation • Updated 11 days ago • 13
cds-jb/qwen3-8b-odometer-caesar-cot

Text Generation • Updated 11 days ago • 14
cds-jb/qwen3-8b-odometer-affine-cot

Text Generation • Updated 11 days ago • 13

Hidden Thoughts

Chain-of-thought that hides what the model is really doing: cheating without saying so, latent soft-token, and filler-token reasoning.

cds-jb/codi_qwen3-8b-answer_only

Text Generation • Updated 11 days ago
cds-jb/qwen3-8b-pointer-chase-filler-cot

Text Generation • Updated 13 days ago • 164
vgel/qwen3-8b-rh-sampler-ckpts

Updated May 15 • 1

Qwen3-14B Full-FT Subliminal & Taboo Organisms

Full-parameter Qwen3-14B fine-tunes for the LoRAcle paper's LoRA-vs-full-FT SVD-truncation appendix comparison.

cds-jb/qwen3-14b-cloud-taboo-fullft

Text Generation • 15B • Updated May 17 • 4
cds-jb/qwen3-14b-smile-taboo-fullft

Text Generation • 15B • Updated May 17 • 2
cds-jb/qwen3-14b-freedom-taboo-fullft

Text Generation • 15B • Updated May 17 • 3
cds-jb/qwen3-14b-owl-subliminal-fullft

Text Generation • 15B • Updated 4 days ago • 46

CoT Oracle Evals

Eval datasets for CoT Oracle: authority bias, sycophancy, hint following, decorative reasoning, and more.

japhba/cot-oracle-eval-thought-branches

Viewer • Updated Feb 24 • 41 • 7
japhba/cot-oracle-eval-thought-anchors

Viewer • Updated Feb 24 • 40 • 57

CoT Oracle Training Data

Training datasets for the CoT Trajectory Oracle. Includes the v5 corpus and conversational QA pairs.

japhba/cot-oracle-cotqa-ARCHIVED

Viewer • Updated Feb 23 • 10.5k • 16
ceselder/cot-oracle-reasoning-termination-balanced

Viewer • Updated Feb 26 • 15k • 9

AI & ML interests

Recent Activity

Team members 2

cds-jb 's collections 6