Spaces:
Running
Running
| """ | |
| knowledge_base.py | |
| ───────────────── | |
| Patrones de error HTR y grafías del castellano s.XVI. | |
| Edita estas listas para ampliar la base de conocimiento estática. | |
| """ | |
| # ── Confusiones visuales habituales en HTR sobre letra procesal / gótica ────── | |
| HTR_ERROR_PATTERNS = [ | |
| {"htr": "u", "gt": "n", "context": "confusión visual u/n en minúscula gótica", "example": "uuestro → nuestro"}, | |
| {"htr": "n", "gt": "u", "context": "confusión visual n/u en procesal", "example": "sno → suo (raro)"}, | |
| {"htr": "c", "gt": "e", "context": "confusión c/e en cursiva procesal", "example": "merçcd → merçed"}, | |
| {"htr": "rn", "gt": "m", "context": "rn interpretado como m por el modelo", "example": "cornprar → comprar"}, | |
| {"htr": "ii", "gt": "u", "context": "doble i confundida con u", "example": "diios → duos"}, | |
| {"htr": "cl", "gt": "d", "context": "cl confundido con d en procesal", "example": "clado → dado"}, | |
| {"htr": "f", "gt": "s", "context": "s larga (ſ) leída como f por el modelo", "example": "feñor → señor"}, | |
| {"htr": "1", "gt": "l", "context": "1 numérico confundido con l minúscula", "example": "1ugar → lugar"}, | |
| {"htr": "i", "gt": "j", "context": "i/j sin distinción gráfica en s.XVI", "example": "iusticia → justicia"}, | |
| {"htr": "ó", "gt": "a", "context": "a cerrada interpretada como o", "example": "cóso → caso"}, | |
| {"htr": "ll", "gt": "h", "context": "ll confundida con h en algunas manos", "example": "llonra → honra"}, | |
| {"htr": "vn", "gt": "un", "context": "v usada como u consonántica al inicio de sílaba", "example": "vno → uno"}, | |
| {"htr": "e", "gt": "c", "context": "c abierta leída como e", "example": "etro → otro"}, | |
| {"htr": "o", "gt": "a", "context": "a redondeada confundida con o", "example": "los → las"}, | |
| ] | |
| # ── Grafías propias del castellano s.XVI que NO deben modernizarse ──────────── | |
| GRAFIA_PATTERNS = [ | |
| {"modern": "hizo", "ancient": "fizo", "rule": "f- inicial latina ante diptongo ie/ue"}, | |
| {"modern": "hijo", "ancient": "fijo", "rule": "f- inicial conservada"}, | |
| {"modern": "hacer", "ancient": "fazer / hazer", "rule": "variación f/h en infinitivos"}, | |
| {"modern": "dicho", "ancient": "dho / dicho", "rule": "abreviatura notarial dho"}, | |
| {"modern": "merced", "ancient": "merçed", "rule": "cedilla ante e/i"}, | |
| {"modern": "que", "ancient": "q̃ / que", "rule": "abreviatura con tilde volada"}, | |
| {"modern": "porque", "ancient": "porq̃ / porque", "rule": "abreviatura frecuente"}, | |
| {"modern": "vecino", "ancient": "vezino", "rule": "z/c ante vocal anterior"}, | |
| {"modern": "precio", "ancient": "presçio", "rule": "variación s/c+cedilla"}, | |
| {"modern": "ciudad", "ancient": "çibdad / cibdad","rule": "forma medieval con b/v"}, | |
| {"modern": "mucho", "ancient": "muncho", "rule": "nasalización muncho/mucho"}, | |
| {"modern": "mismo", "ancient": "mesmo", "rule": "mesmo forma habitual s.XVI"}, | |
| {"modern": "también", "ancient": "tanbién", "rule": "asimilación nasal"}, | |
| {"modern": "escribano", "ancient": "escriuano", "rule": "v/u gráfica"}, | |
| {"modern": "nuestro", "ancient": "nuestro / nro", "rule": "abreviatura nro en notarial"}, | |
| {"modern": "señor", "ancient": "señor / sr", "rule": "abreviatura sr"}, | |
| {"modern": "dicho", "ancient": "dcho / dho", "rule": "doble abreviatura notarial"}, | |
| {"modern": "tienen", "ancient": "tienen / tienẽ","rule": "tilde abreviativa nasal final"}, | |
| {"modern": "lugar", "ancient": "lugar / lug̃r", "rule": "abreviatura con tilde"}, | |
| {"modern": "presente", "ancient": "prezente / presente", "rule": "alternancia s/z"}, | |
| ] | |
| # ── Documentos de ejemplo embebidos (se amplían con el corpus real) ─────────── | |
| SAMPLE_PAIRS = [ | |
| { | |
| "id": "sample_001", | |
| "type": "notarial", | |
| "region": "Castilla", | |
| "date": "1542", | |
| "htr": "q̃ fizo merçed al dho lugar de las alcaualas", | |
| "gt": "que fizo merçed al dicho lugar de las alcaualas", | |
| "corrections": ["dho → dicho (abreviatura expandida)"], | |
| }, | |
| { | |
| "id": "sample_002", | |
| "type": "notarial", | |
| "region": "Andalucía", | |
| "date": "1561", | |
| "htr": "el escriuano del cabildo faze fe y da testimouio verdadero", | |
| "gt": "el escriuano del cabildo faze fe y da testimonio verdadero", | |
| "corrections": ["testimouio → testimonio (u/n confusión HTR)"], | |
| }, | |
| { | |
| "id": "sample_003", | |
| "type": "judicial", | |
| "region": "Castilla", | |
| "date": "1534", | |
| "htr": "en la muy noble çibdad de burgos a veynte dias del mes de março", | |
| "gt": "en la muy noble çibdad de burgos a veynte días del mes de março", | |
| "corrections": ["días: acento restituido"], | |
| }, | |
| { | |
| "id": "sample_004", | |
| "type": "eclesiastico", | |
| "region": "Toledo", | |
| "date": "1578", | |
| "htr": "el vezino dela villa de alcala prezento ante nos vna peticion", | |
| "gt": "el vezino de la villa de alcalá presentó ante nos una petición", | |
| "corrections": ["dela → de la", "alcala → alcalá", "prezento → presentó", "vna → una"], | |
| }, | |
| { | |
| "id": "sample_005", | |
| "type": "notarial", | |
| "region": "Extremadura", | |
| "date": "1549", | |
| "htr": "yo el sobredho escriuano doy fe q̃ conosco al otorgante", | |
| "gt": "yo el sobredicho escriuano doy fe que conosco al otorgante", | |
| "corrections": ["sobredho → sobredicho", "q̃ → que"], | |
| }, | |
| { | |
| "id": "sample_006", | |
| "type": "judicial", | |
| "region": "Castilla", | |
| "date": "1556", | |
| "htr": "fizo pareçer ante si a juan de la torre vezino desta villa", | |
| "gt": "fizo pareçer ante sí a juan de la torre vezino desta villa", | |
| "corrections": ["si → sí (acento diacrítico)"], | |
| }, | |
| { | |
| "id": "sample_007", | |
| "type": "notarial", | |
| "region": "Aragón", | |
| "date": "1523", | |
| "htr": "sepan quantos esta carta de poder vieren como yo pero lopez", | |
| "gt": "sepan quantos esta carta de poder vieren como yo pero lópez", | |
| "corrections": ["lopez → lópez (acento)"], | |
| }, | |
| { | |
| "id": "sample_008", | |
| "type": "eclesiastico", | |
| "region": "Sevilla", | |
| "date": "1587", | |
| "htr": "en el nonbre de dios e de la virgen maria su madre amen", | |
| "gt": "en el nonbre de dios e de la virgen maría su madre amén", | |
| "corrections": ["maría, amén: acentos restituidos"], | |
| }, | |
| ] | |