当前位置：首页 > Linux

临时Web服务

youzhenghang2个月前 (12-24)Linux175

Python3

# 在当前目录启动服务器（端口8000）
python3 -m http.server

# 指定端口
python3 -m http.server 8080

# 绑定到所有网络接口
python3 -m http.server 8000 --bind 0.0.0.0

# 指定目录
python3 -m http.server --directory /path/to/dir

Python2

https://my.feishu.cn/wiki/KQbbw0aQ9iEYSxkOehOceNFLnde?from=from_copylink

vllm启动命令：
master：
nic_name="enp61s0f2"
local_ip="10.91.10.151"
node0_ip="10.91.10.151"
export HCCL_OP_EXPANSION_MODE="AIV"
export HCCL_IF_IP=$local_ip
export GLOO_SOCKET_IFNAME=$nic_name
export TP_SOCKET_IFNAME=$nic_name
export HCCL_SOCKET_IFNAME=$nic_name
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=100
export VLLM_USE_V1=1
export HCCL_BUFFSIZE=200
export VLLM_ASCEND_ENABLE_MLAPO=1
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export VLLM_ASCEND_ENABLE_FLASHCOMM1=0
export HCCL_CONNECT_TIMEOUT=120
export HCCL_INTRA_PCIE_ENABLE=1
export HCCL_INTRA_ROCE_ENABLE=0
export ACL_OP_INIT_MODE=1

vllm serve /data/vllm-ascend/DeepSeek-V3___2-W8A8 \
--host 0.0.0.0 \
--port 9001 \
--data-parallel-size 2 \
--data-parallel-size-local 1 \
--data-parallel-address $node0_ip \
--data-parallel-rpc-port 13389 \
--tensor-parallel-size 8 \
--quantization ascend \
--seed 1024 \
--served-model-name DeepSeek-V3.2 \
--enable-expert-parallel \
--max-num-seqs 1 \
--max-model-len 32768 \
--max-num-batched-tokens 4096 \
--trust-remote-code \
--no-enable-prefix-caching \
--gpu-memory-utilization 0.96 \
--compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY", "cudagraph_capture_sizes":[3,6]}' \
--speculative-config '{"num_speculative_tokens": 2, "method": "deepseek_mtp"}' >> /root/vllm.log 2>&1 &

slave：
nic_name="enp61s0f2"
local_ip="10.91.10.152"
node0_ip="10.91.10.151"
export HCCL_OP_EXPANSION_MODE="AIV"
export HCCL_IF_IP=$local_ip
export GLOO_SOCKET_IFNAME=$nic_name
export TP_SOCKET_IFNAME=$nic_name
export HCCL_SOCKET_IFNAME=$nic_name
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=100
export VLLM_USE_V1=1
export HCCL_BUFFSIZE=200
export VLLM_ASCEND_ENABLE_MLAPO=1
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export VLLM_ASCEND_ENABLE_FLASHCOMM1=0
export HCCL_CONNECT_TIMEOUT=120
export HCCL_INTRA_PCIE_ENABLE=1
export HCCL_INTRA_ROCE_ENABLE=0
export ACL_OP_INIT_MODE=1

vllm serve /data/vllm-ascend/DeepSeek-V3___2-W8A8 \
--host 0.0.0.0 \
--port 9001 \
--headless \
--data-parallel-size 2 \
--data-parallel-size-local 1 \
--data-parallel-start-rank 1 \
--data-parallel-address $node0_ip \
--data-parallel-rpc-port 13389 \
--tensor-parallel-size 8 \
--quantization ascend \
--seed 1024 \
--served-model-name DeepSeek-V3.2 \
--enable-expert-parallel \
--max-num-seqs 1 \
--max-model-len 32768 \
--max-num-batched-tokens 4096 \
--trust-remote-code \
--no-enable-prefix-caching \
--gpu-memory-utilization 0.96 \
--compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY", "cudagraph_capture_sizes":[3,6]}' \
--speculative-config '{"num_speculative_tokens": 2, "method": "deepseek_mtp"}' >> /root/vllm.log 2>&1 &

您阅读本篇文章共花了：

本站的资源来自转载或站长的原创，按照CC BY-NC-SA 3.0 CN 协议发布和共享转载或引用本站文章应遵循相同协议。

如果有侵犯版权的资源，请尽快联系站长我们会删除有争议的资源。

本文链接：https://cjava.net/post/3.html

标签: Linux

分享给朋友：

临时Web服务

“临时Web服务” 的相关文章

发表评论

Copyright © cjava.net 版权所有

苏ICP备18017901号-1

Powered By Z-BlogPHP. Theme by TOYEAN.

临时Web服务

“临时Web服务” 的相关文章

发表评论取消回复

Copyright © document.write("2018"+(new Date().getFullYear()>2018?"-"+new Date().getFullYear():"")) cjava.net 版权所有 苏ICP备18017901号-1

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论

Copyright © cjava.net 版权所有

苏ICP备18017901号-1