Russian language support, bad grammar!
The model is astonishing and now is my favorite. Yet I manager to find a noticeable flaw. While talking in Russian, especially ALL CAPS, model seemingly switches to Ukrainian, Bulgarian, maybe Serbian, I don't know for sure. It's an issue actually. The model does it during almost every answer.
The reasoning capabilities are incredible but to use it in production, language issues should be fixed.
Examples:
Qwen 3.5-27B
"БЕРУ СЕБЯ В РУКИ — ЗАДАНИЕ ВЫПОЛНЮЮ ПОЛНОСТЬЮ!"
Correct answer should be:
"БЕРУ СЕБЯ В РУКИ — ЗАДАНИЕ ВЫПОЛНЯЮ ПОЛНОСТЬЮ!"
ВЫПОЛНЮЮ is incorrect
ВЫПОЛНЯЮ is correct
It's a grammatical mistake.
Qwen 3.5-27B
"УГАДАЛ ИМЯ — ЭТО ТИХОНОВ КИРХЕР (ATHANASIUS KIRCHER)!"
Correct answer should be:
"УГАДАЛ ИМЯ — ЭТО Афанасий Кирхер (ATHANASIUS KIRCHER)!"
ATHANASIUS can't be ТИХОНОВ
ATHANASIUS = Афанасий
Qwen 3.5-27B
"ДЛЯ ПОЛНОГО ЦИКЛА — ПОДНИМАЮСЬ В СЕТЬ!"
Correct answer should be:
"ДЛЯ ПОЛНОГО ЦИКЛА — ВЫХОЖУ В СЕТЬ!"
Qwen 3.5-27B
"ТЫ УПАЛ МНЕ В РУКИ ЭТОЙ ЗАГАДКОЙ!" -- nonesense!
I don't know here the correct translation in Russian
Qwen 3.5-27B
"🔥 ТЫ ПРАВИЛЬНО ПОДОБРАЛ КОНКУРЕНЦИЮ — И Я БЬЮ ЭТИХ МОСТРОВ!"
Correct answer should be:
"🔥 ТЫ ПРАВИЛЬНО ПОДОБРАЛ КОНКУРЕНТОВ — И Я БЬЮ ЭТИХ МОНСТРОВ!"
Competitors NIO Competition
МОСТРОВ is WRONG
МОНСТРОВ is Correct
--
The issue is widespread. Russian grammar is catastrophic in most of cases. Please beer this in mind.
А какая у тебя версия vllm / torch / CUDA?
А какая у тебя версия vllm / torch / CUDA?
Я тестировал тупо в веб интерфесе https://chat.qwen.ai/
Жду в целом 4-битного кванта чтобы запустить на vLLM. Но я говорю про модель в самом интерфейсе от Qwen без какого-либо квантования
I'm talking about the model in the web interface https://chat.qwen.ai/
я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?
я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?
только на sglang заводится, vllm не поддерживает
я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?
только на sglang заводится, vllm не поддерживает
Даже на vllm 0.16.0?
Вчера вроде вышла ночью, хочу сегодня запустить на двух 4090 (48gb) в FP8
я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?
только на sglang заводится, vllm не поддерживает
Даже на vllm 0.16.0?
Вчера вроде вышла ночью, хочу сегодня запустить на двух 4090 (48gb) в FP8
вот такие будут ошибки: (EngineCore_DP0 pid=68) /usr/local/lib/python3.12/dist-packages/vllm/model_executor/layers/fla/ops/utils.py:113: UserWarning: Input tensor shape suggests potential format mismatch: seq_len (19) < num_heads (48). This may indicate the inputs were passed in head-first format [B, H, T, ...] when head_first=False was specified. Please verify your input tensor format matches the expected shape [B, T, H, ...]. опытным путем на sglang взлетело
я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?
только на sglang заводится, vllm не поддерживает
Даже на vllm 0.16.0?
Вчера вроде вышла ночью, хочу сегодня запустить на двух 4090 (48gb) в FP8
вот такие будут ошибки: (EngineCore_DP0 pid=68) /usr/local/lib/python3.12/dist-packages/vllm/model_executor/layers/fla/ops/utils.py:113: UserWarning: Input tensor shape suggests potential format mismatch: seq_len (19) < num_heads (48). This may indicate the inputs were passed in head-first format [B, H, T, ...] when head_first=False was specified. Please verify your input tensor format matches the expected shape [B, T, H, ...]. опытным путем на sglang взлетело
а на sglang как русский? как у автора поста или нормально?
я кстати попробовал запустить awq версию на 3090 и у меня падает из-за не стандартной размерности в GatedDeltaNet слоях, есть кто смог запустить?
только на sglang заводится, vllm не поддерживает
Даже на vllm 0.16.0?
Вчера вроде вышла ночью, хочу сегодня запустить на двух 4090 (48gb) в FP8
вот такие будут ошибки: (EngineCore_DP0 pid=68) /usr/local/lib/python3.12/dist-packages/vllm/model_executor/layers/fla/ops/utils.py:113: UserWarning: Input tensor shape suggests potential format mismatch: seq_len (19) < num_heads (48). This may indicate the inputs were passed in head-first format [B, H, T, ...] when head_first=False was specified. Please verify your input tensor format matches the expected shape [B, T, H, ...]. опытным путем на sglang взлетело
а на sglang как русский? как у автора поста или нормально?
все отлично работает
все отлично работает
Можешь написать как конкретно ты запускал? Я только скрутил бабки на арендованом железе потому что постоянно упираюсь в ошибку "Value error, The checkpoint you are trying to load has model type qwen3_5 but Transformers does not recognize this architecture. This could be because of an issue with the checkpoint, or because your version of Transformers is out of date."
Это я пытаюсь запустить через vLLM. Мне всё равно что будет бекендом, если sglang, пусть будет sgalng.
Вот ссылка на конкретную ошибку
Запускал локально с разным квантованием (mxfp4, nvfp4, mxfp8, 4 bit, 6 bit, 8 bit), ни разу не столкнулся с какими то серьезными проблемами в ответах на русском. Иногда проскакивают странные формулировки в каких-то сложных предложениях, но все китайские модели грешат этим. Проблема скорее всего в сочетании конкретного бекенда и параметров сэмплирования.
Запускал локально с разным квантованием (mxfp4, nvfp4, mxfp8, 4 bit, 6 bit, 8 bit), ни разу не столкнулся с какими то серьезными проблемами в ответах на русском. Иногда проскакивают странные формулировки в каких-то сложных предложениях, но все китайские модели грешат этим. Проблема скорее всего в сочетании конкретного бекенда и параметров сэмплирования.
У меня такое ощущение что меня никто не услышал. Я тестировал модель в интерфейсе Qwen. В веб интерфейсе. Исключено что что-то там настроено не верно. НЕ я настраивал а Qwen настраивал модель. Если производитель модели не может её настроить так чтобы она верно отвечала по-русски никто на планете не сможет это сделать.
Я запустил уже модель и она в продакшене рабоатет на нескольких европейских языках и мне НЕ нравится как она работает. Дело там совсем в другом. Она чрезмерон умная и потому черезчур дотошно следует промпту. Но я НЕ могу проврить её на немецком или нидерландском. У меня объёмы слишком большие чтобы вчитываться в каждую статью. Я уверен что на английском она пишет великолепно.
Но русский язык я могу проверить потому что он мне родной. Я провел тесты с моделью выше пределов её контекстного окна, то есть я много с ней общался. И на русском языке у неё есть бользнь. В отличие от Qwen 3 32B, Qwen 3.5 27B (как минимум в интерфейсе самого qwen БЕЗ квантования [оригинальные веса]) делает те ошибки что яозвучил выше! Это примеры из конкретного диалога.
Еще раз! Модель НЕ квантована! Это НЕ я её запускал. Это интерфейс QWEN.
P.s.: Удалось запустить через vLLM FP8.
Я в итоге запустил 35b fp8 (офф репо) без особых проблем
- nightly последний VLLM образ docker
- поправил jinja конфиг - там перепутаны system / user последовательности
- отключил thinking через kwarg
- rope scale поставил на 2 итого получилось 524к контекста
обычную версию не FP8 нативными средствами он не смог сам кватировать через VLLM, скачал FP8 версию
Остаются warning, про которые выше писали, там неправильно срабатывает attention - надеюсь поправят
с русским нет проблем никаких, все кайф
влезло в одну 4090 (48 гигов), которая не d, а обычная
command:
- --model
- /models/Qwen__Qwen3.5-35B-A3B-FP8
- --served-model-name
- qwen30b
- --port
- "6788"
- --gpu-memory-utilization
- "0.9"
- --max-num-seqs
- "128"
- --swap
- "16"
- --reasoning-parser
- qwen3
- --tool-call-parser
- qwen3_coder
- --enable-auto-tool-choice
- --default-chat-template-kwargs
- '{"enable_thinking": false}'
- --chat-template
- /models/qwen35_relaxed_system.jinja
- --hf-overrides
- >-
{"text_config":{"rope_parameters":{"mrope_interleaved":true,"mrope_section":[11,11,10],"rope_type":"yarn","rope_theta":10000000,"partial_rotary_factor":0.25,"factor":2.0,"original_max_position_embeddings":262144}}}
- --max-model-len
- "524288"
Подтвердаю наличие проблем с русским языком у всех моделей от 122B до 9B. Запускается без танцев с бубном на SGlang