nvidia
/

NVIDIA-Nemotron-3-Nano-4B-BF16

Text Generation

Model card Files Files and versions

viraman commited on Mar 16

Commit

e4e8594

·

verified ·

1 Parent(s): a9a15de

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -294,7 +294,7 @@ print(response.choices[0].message.content)
 Launch the model using TRT-LLM
 ```shell
-docker run -v /home/root/.cache/huggingface/:/root/.cache/huggingface/ --rm --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all --ipc=host --network host -d -e MODEL=NVIDIA-Nemotron-3-Nano-4B-BF16 -e HF_TOKEN=$HF_TOKEN nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc6 bash -c '
 cat > /tmp/extra-llm-api-config.yml <<EOF
 kv_cache_config:
   dtype: "auto"
@@ -308,7 +308,7 @@ moe_config:
 EOF
 trtllm-serve  \
-NVIDIA-Nemotron-3-Nano-4B-BF16 \
 --host 0.0.0.0 \
 --port 8123 \
 --max_batch_size 32 \

 Launch the model using TRT-LLM
 ```shell
+docker run -v /home/root/.cache/huggingface/:/root/.cache/huggingface/ --rm --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all --ipc=host --network host -d -e MODEL=nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16 -e HF_TOKEN=$HF_TOKEN nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc6 bash -c '
 cat > /tmp/extra-llm-api-config.yml <<EOF
 kv_cache_config:
   dtype: "auto"
 EOF
 trtllm-serve  \
+nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16 \
 --host 0.0.0.0 \
 --port 8123 \
 --max_batch_size 32 \