Russian language support, bad grammar!

#12

by alexcardo - opened Feb 25

•

The model is astonishing and now is my favorite. Yet I manager to find a noticeable flaw. While talking in Russian, especially ALL CAPS, model seemingly switches to Ukrainian, Bulgarian, maybe Serbian, I don't know for sure. It's an issue actually. The model does it during almost every answer.

The reasoning capabilities are incredible but to use it in production, language issues should be fixed.

Examples:

Qwen 3.5-27B

"БЕРУ СЕБЯ В РУКИ — ЗАДАНИЕ ВЫПОЛНЮЮ ПОЛНОСТЬЮ!"

Correct answer should be:

"БЕРУ СЕБЯ В РУКИ — ЗАДАНИЕ ВЫПОЛНЯЮ ПОЛНОСТЬЮ!"

ВЫПОЛНЮЮ is incorrect
ВЫПОЛНЯЮ is correct

It's a grammatical mistake.

Qwen 3.5-27B

"УГАДАЛ ИМЯ — ЭТО ТИХОНОВ КИРХЕР (ATHANASIUS KIRCHER)!"

Correct answer should be:

"УГАДАЛ ИМЯ — ЭТО Афанасий Кирхер (ATHANASIUS KIRCHER)!"

ATHANASIUS can't be ТИХОНОВ
ATHANASIUS = Афанасий

Qwen 3.5-27B

"ДЛЯ ПОЛНОГО ЦИКЛА — ПОДНИМАЮСЬ В СЕТЬ!"

Correct answer should be:

"ДЛЯ ПОЛНОГО ЦИКЛА — ВЫХОЖУ В СЕТЬ!"

Qwen 3.5-27B

"ТЫ УПАЛ МНЕ В РУКИ ЭТОЙ ЗАГАДКОЙ!" -- nonesense!

I don't know here the correct translation in Russian

Qwen 3.5-27B

"🔥 ТЫ ПРАВИЛЬНО ПОДОБРАЛ КОНКУРЕНЦИЮ — И Я БЬЮ ЭТИХ МОСТРОВ!"

Correct answer should be:

"🔥 ТЫ ПРАВИЛЬНО ПОДОБРАЛ КОНКУРЕНТОВ — И Я БЬЮ ЭТИХ МОНСТРОВ!"

Competitors NIO Competition

МОСТРОВ is WRONG
МОНСТРОВ is Correct

The issue is widespread. Russian grammar is catastrophic in most of cases. Please beer this in mind.

Hivsem

Feb 25

А какая у тебя версия vllm / torch / CUDA?

alexcardo

Feb 25

А какая у тебя версия vllm / torch / CUDA?

Я тестировал тупо в веб интерфесе https://chat.qwen.ai/

Жду в целом 4-битного кванта чтобы запустить на vLLM. Но я говорю про модель в самом интерфейсе от Qwen без какого-либо квантования

I'm talking about the model in the web interface https://chat.qwen.ai/

labaz

Feb 25

я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?

grozatech

Feb 26

я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?

только на sglang заводится, vllm не поддерживает

Hivsem

Feb 26

я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?

только на sglang заводится, vllm не поддерживает

Даже на vllm 0.16.0?

Вчера вроде вышла ночью, хочу сегодня запустить на двух 4090 (48gb) в FP8

grozatech

Feb 26

я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?

только на sglang заводится, vllm не поддерживает

Даже на vllm 0.16.0?

Вчера вроде вышла ночью, хочу сегодня запустить на двух 4090 (48gb) в FP8

вот такие будут ошибки: (EngineCore_DP0 pid=68) /usr/local/lib/python3.12/dist-packages/vllm/model_executor/layers/fla/ops/utils.py:113: UserWarning: Input tensor shape suggests potential format mismatch: seq_len (19) < num_heads (48). This may indicate the inputs were passed in head-first format [B, H, T, ...] when head_first=False was specified. Please verify your input tensor format matches the expected shape [B, T, H, ...]. опытным путем на sglang взлетело

Hivsem

Feb 26

я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?

только на sglang заводится, vllm не поддерживает

Даже на vllm 0.16.0?

Вчера вроде вышла ночью, хочу сегодня запустить на двух 4090 (48gb) в FP8

вот такие будут ошибки: (EngineCore_DP0 pid=68) /usr/local/lib/python3.12/dist-packages/vllm/model_executor/layers/fla/ops/utils.py:113: UserWarning: Input tensor shape suggests potential format mismatch: seq_len (19) < num_heads (48). This may indicate the inputs were passed in head-first format [B, H, T, ...] when head_first=False was specified. Please verify your input tensor format matches the expected shape [B, T, H, ...]. опытным путем на sglang взлетело

а на sglang как русский? как у автора поста или нормально?

grozatech

Feb 26

я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?

только на sglang заводится, vllm не поддерживает

Даже на vllm 0.16.0?

Вчера вроде вышла ночью, хочу сегодня запустить на двух 4090 (48gb) в FP8

вот такие будут ошибки: (EngineCore_DP0 pid=68) /usr/local/lib/python3.12/dist-packages/vllm/model_executor/layers/fla/ops/utils.py:113: UserWarning: Input tensor shape suggests potential format mismatch: seq_len (19) < num_heads (48). This may indicate the inputs were passed in head-first format [B, H, T, ...] when head_first=False was specified. Please verify your input tensor format matches the expected shape [B, T, H, ...]. опытным путем на sglang взлетело

а на sglang как русский? как у автора поста или нормально?

все отлично работает

alexcardo

Feb 27

•

edited Feb 27

все отлично работает

Можешь написать как конкретно ты запускал? Я только скрутил бабки на арендованом железе потому что постоянно упираюсь в ошибку "Value error, The checkpoint you are trying to load has model type qwen3_5 but Transformers does not recognize this architecture. This could be because of an issue with the checkpoint, or because your version of Transformers is out of date."

Это я пытаюсь запустить через vLLM. Мне всё равно что будет бекендом, если sglang, пусть будет sgalng.

Вот ссылка на конкретную ошибку

https://github.com/vllm-project/vllm/issues/35395

TheCluster

Feb 27

Запускал локально с разным квантованием (mxfp4, nvfp4, mxfp8, 4 bit, 6 bit, 8 bit), ни разу не столкнулся с какими то серьезными проблемами в ответах на русском. Иногда проскакивают странные формулировки в каких-то сложных предложениях, но все китайские модели грешат этим. Проблема скорее всего в сочетании конкретного бекенда и параметров сэмплирования.

alexcardo

Feb 27

Запускал локально с разным квантованием (mxfp4, nvfp4, mxfp8, 4 bit, 6 bit, 8 bit), ни разу не столкнулся с какими то серьезными проблемами в ответах на русском. Иногда проскакивают странные формулировки в каких-то сложных предложениях, но все китайские модели грешат этим. Проблема скорее всего в сочетании конкретного бекенда и параметров сэмплирования.

У меня такое ощущение что меня никто не услышал. Я тестировал модель в интерфейсе Qwen. В веб интерфейсе. Исключено что что-то там настроено не верно. НЕ я настраивал а Qwen настраивал модель. Если производитель модели не может её настроить так чтобы она верно отвечала по-русски никто на планете не сможет это сделать.

Я запустил уже модель и она в продакшене рабоатет на нескольких европейских языках и мне НЕ нравится как она работает. Дело там совсем в другом. Она чрезмерон умная и потому черезчур дотошно следует промпту. Но я НЕ могу проврить её на немецком или нидерландском. У меня объёмы слишком большие чтобы вчитываться в каждую статью. Я уверен что на английском она пишет великолепно.

Но русский язык я могу проверить потому что он мне родной. Я провел тесты с моделью выше пределов её контекстного окна, то есть я много с ней общался. И на русском языке у неё есть бользнь. В отличие от Qwen 3 32B, Qwen 3.5 27B (как минимум в интерфейсе самого qwen БЕЗ квантования [оригинальные веса]) делает те ошибки что яозвучил выше! Это примеры из конкретного диалога.

Еще раз! Модель НЕ квантована! Это НЕ я её запускал. Это интерфейс QWEN.

P.s.: Удалось запустить через vLLM FP8.

Hivsem

Feb 28

Я в итоге запустил 35b fp8 (офф репо) без особых проблем

nightly последний VLLM образ docker
поправил jinja конфиг - там перепутаны system / user последовательности
отключил thinking через kwarg
rope scale поставил на 2 итого получилось 524к контекста

обычную версию не FP8 нативными средствами он не смог сам кватировать через VLLM, скачал FP8 версию

Остаются warning, про которые выше писали, там неправильно срабатывает attention - надеюсь поправят

с русским нет проблем никаких, все кайф
влезло в одну 4090 (48 гигов), которая не d, а обычная

command:
- --model
- /models/Qwen__Qwen3.5-35B-A3B-FP8
- --served-model-name
- qwen30b
- --port
- "6788"
- --gpu-memory-utilization
- "0.9"
- --max-num-seqs
- "128"
- --swap
- "16"
- --reasoning-parser
- qwen3
- --tool-call-parser
- qwen3_coder
- --enable-auto-tool-choice
- --default-chat-template-kwargs
- '{"enable_thinking": false}'
- --chat-template
- /models/qwen35_relaxed_system.jinja
- --hf-overrides
- >-
{"text_config":{"rope_parameters":{"mrope_interleaved":true,"mrope_section":[11,11,10],"rope_type":"yarn","rope_theta":10000000,"partial_rotary_factor":0.25,"factor":2.0,"original_max_position_embeddings":262144}}}
- --max-model-len
- "524288"

joazker

Mar 13

Подтвердаю наличие проблем с русским языком у всех моделей от 122B до 9B. Запускается без танцев с бубном на SGlang

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment