---
license: llama3
language:
- hu
base_model:
- NousResearch/Hermes-3-Llama-3.1-8B
---
# A HOTHUN modellekről
Ez egy hobbiból készült, nsfw projekt, melynek célja, hogy azokat a modelleket, melyek eddig is tudtak valamilyen szinten magyarul, nsfw-képessé tegyem chatelésre, a modell stílusának megőrzésével vagy minimális változtatásával. Tehát a modellek elsősorban chatre készültek, 4096-os ctx ablakméretre.

Fontosnak tartottam, hogy a modellek mobilon is futtathatók legyenek, viszont ez az elhatározásom komoly korlátokat állított fel:
- a forrásmodell ne legyen 8B-nél nagyobb (maximum 9B)
- alapból tudjon magyarul valamilyen szinten
- az eredeti modellnek is legyenek nsfw képességei
- Q4_0 kvantáláson (a mobilok hardveres támogatása miatt) ne essen szét túlságosan a magyar nyelv.
- lehetőleg megmaradjon az eredeti modell gondolkodása, stílusa

azaz azt nyújtsa a modell, amit eredetileg angolul, csak magyar nyelven.

Több kihívással kellett szembenéznem:
- az eredeti magyar datasetek szemetesek. Tehát amikkel az eredeti alapmodellt (például a Llama3 vagy Qwen) betanították, nem voltak kipucolva, nyelvtani és elütési hibákat tartalmaztak. Ezek a hibák a kis méretű modelleknél még inkább megjelennek, azaz felerősödik a "zaj".
- új szavakat kellett magyarul megtanulnia a modellnek, mert az eredeti magyar datasetek nem rendelkeznek nsfw szókinccsel, azaz nem fedik le teljesen a magyar nyelvet. Így az eredeti modellek a válaszadáskor nem ismerték magyarul azt a szót, amit angolul igen.
- az új szavakat is helyesen ragozza, de a régi, hibás szavak ragozási bakijait is csiszolni kellett.
- a magyar nyelv és ragozás kihívásai, szépségei, azaz a modell magyarul is képes legyen úgy fogalmazni, ahogy angolul.
- az edzett modellek már finomhangolások, azaz torzult bennük a magyar nyelv az eredeti alapmodellhez képest, viszont a stílusuk egyedibb, mint az eredetié.

Ezután olyan magyar adatbázisokat kellett keresnem, melyek nyilvánosan használhatók (ld. lentebb), illetve copyright-mentesek. Ezek között szintén nem volt nsfw szókincsű adatbázis, ezért a Gemini segítségével jó pár datasetet generáltattam, melyek egy része a nyelvtani kiigazításra összpontosítottak, más része az nsfw, vulgáris, obszcén szavakat helyezi előtérbe. Tehát a HOTHUN modellek erősen vulgáris nyelvezetűek, emiatt elsősorban személyes felhasználásra javaslom őket!

A modellek érdekessége, hogy kétféle modellbeállításon másképp működnek.
- Mirostat+Temp használatával sokkal természetesebbek, jobban átlátják a helyzetet, és logikusabb válaszokat adnak, de egy idő után hurokba kerülnek.
- Hagyományos paraméterekkel (Temp, Top-P, Top-K, Min-P, Repetition Penalty) sokkal kötetlenebb a beszélgetés, de nehezebb a történetkövetés, azaz a modell inkább önfejű.
Általában érdemes ezt a kettőt kombinálni úgy, hogy ha a Mirostat kezd hurokba fordulni (ismétel, hasonló a szöveg mintázata), érdemes kicsit kizökkenteni a hagyományos paraméterek használatával, majd pár válasz után visszalépni a Mirostat-os módba. Szerencsére a legtöbb LLM program már támogatja a paraméter-profilok mentését, így pár kattintással vissza lehet jutni.
Ha nem jó választ kapnál, generáld újra, általában második-harmadik esetben már jó válaszokat kapsz, de ez a szóhasználattól, system prompttól, valamint karakterlaptól is erősen függ!

## v1.1 modellek
- Ezek részben tisztított dataseteken edződtek, de már nagyrészt jól beszélnek magyarul.
- Érzékenyek a magyar szövegre (talán a ragozás miatt?). Ezért ha nem jól válaszol, ellenőrizd a karakterlapot, és csak a legszükségesebb szöveget írd be! Minél több a magyar szöveg a system promptban vagy a karakterlapon, annál valószínűbb, hogy valamelyik szót nem érti meg. Ha helyesen írsz, jobban reagál a válaszokkal. Esetleg generáld újra a választ.
- A Q4_0 modellt teszteltem ChatterUI-n, és ott egy-két ragozási probléma merült fel, de alapjában jó válaszokat kaptam.
- minden LLM programban és kvantálással más-más paramétereket kell beállítani a jó válaszok érdekében! A ChatterUI-ban ezeket találtam a legjobbnak:

-- *Mirostat módban:*

```
Temp: 0.6
Mirostat Mode: 2
Mirostat Tau: 4-5.5
Mirostat Eta: 0.1-0.2
```

-- *Hagyományos módban:*

```
Temp: 0.4-0.7
Top-P: 1
Top-K: 0
Min-P: 0
Repetition Penalty Range: 1024
Repetition Penalty: 1.03/1.1
Presence Penalty: 0-0.1
```

A *Hagyományos mód* értékei eltérnek az eredeti modelltől a magyar nyelv ragozásai miatt. Érdemes teljesen elengedni a gyeplőt (Top-P, Top-K, Min-P), tapasztalataim szerint jobb lesz a szöveg ezek nélkül, de kinek mi a szimpatikus.

## További tervek
- a datasetek javítása: ez lassú munka, mert nem csak nyelvtanilag és fogalmazásban, helyesírásban kell átnéznem, hanem igyekszem a Gemini által generált mintákat is "zajosítani" (sokszor hasonló szöveget, történetet generált, amit a képzés során átvehetett). Igyekszem természetesebbé tenni a mintákat.
- más 7-9B-s modellek edzése (például Magnum, Qwen) a tisztított datasettekkel.
- 4B-s modellek nincsenek tervben. Qwen3 4B-vel kísérleteztem, de olyan kicsi a modell edzhető területe, hogy igencsak szűkre kellene állítani a generálási paramétereket, hogy viszonylag releváns válaszokat kapjak (a helyes ragozás pedig álom). Lorával ezt nem tudom megtörni, csak egy teljes finetune oldhatná fel ezt a problémát, amihez nincs elég datasetem, sem pénzem, sem időm, sajnálom.
- datasetek megosztása, amikor úgy érzem, kipucoltam ezeket. Figyelem, ezek (időnként durva és nem konszenzusos) nsfw párbeszédeket és szituációkat is tartalmaznak, szóval még kitalálom, hogyan oszthatom meg.

## Források
A datasethez az alábbi forrásokat használtam fel:
- [Alpaca magyar datasetből](url=https://huggingface.co/datasets/NYTK/alpaca_hu_2k) 1000 példát
- [HuCola adatbázisból](url=https://huggingface.co/datasets/NYTK/HuCOLA) 300 példát
- [Opus novellákból](url=https://huggingface.co/datasets/Gryphe/Opus-WritingPrompts) 25 példát fordítottam le DeepL segítségével
- Geminivel generáltam többféle datasetet, összesen 2350 mintát.

Az imatrix magyar szöveg alapján készült, melyhez az alábbi helyekről vettem mintákat:
- [KMDB dataset](url=https://huggingface.co/datasets/K-Monitor/kmdb_base) (hírek)
- [Bartowski imatrix](url=https://gist.github.com/bartowski1182/82ae9b520227f57d79ba04add13d0d0d) szöveg magyarra fordítva
- [Lewdiculous imatrix](url=https://huggingface.co/Lewdiculous/L3-8B-Stheno-v3.2-GGUF-IQ-Imatrix/blob/main/imatrix-with-rp-ex.txt) szöveg magyarra fordítva
- Gemini generált szöveg
- Saját könyvem, a Házinyuszi

## Licencek:
Mindegyik modellnél az eredeti modell licencei szerepelnek.