使用 code llama 配合 vscode 来做代码自动补全

github copilot 是非常优秀的vscode插件，可以让程序员访问到gpt-4的能力，做代码补全和问答，一切都在vscode里面，但是如果我们是企业应用场景，数据是不能离开企业局域网的，那么我们就需要自己搭建一个类似的内网服务，来做代码补全。

我们使用code llama来提供代码补全的服务，使用vscode来访问这个服务。

整体部署架构如下：

使用 continue 来支持 chat

部署 code llama

我们选择 CodeLlama-34b-Instruct-hf ， CodeLlama-13b-Instruct-hf 这两个模型，对比一下。

https://huggingface.co/codellama/CodeLlama-34b-Instruct-hf
https://huggingface.co/codellama/CodeLlama-13b-Instruct-hf

# we use fastchat to host code llama service

conda activate /data/env/jupyter
# conda deactivate

cd /data/workspace/jupyter/yanshu

# on a new tab, create control service
python -m fastchat.serve.controller

# on a new tab, create api service
python -m fastchat.serve.openai_api_server --host 0.0.0.0 --port 8000

# on a new tab, run the code llama service
export CUDA_VISIBLE_DEVICES=0
python -m fastchat.serve.model_worker --model-path /data/huggingface/CodeLlama-34b-Instruct-hf --debug DEBUG

# if running on multiple gpu
export CUDA_VISIBLE_DEVICES=2,3,4,5
python -m fastchat.serve.model_worker --model-path /data/huggingface/CodeLlama-34b-Instruct-hf --num-gpus 4 --max-gpu-memory 20Gib --debug DEBUG

# does not work, do not know why
# unset CUDA_VISIBLE_DEVICES
# python -m fastchat.serve.model_worker --model-path /data/huggingface/CodeLlama-34b-Instruct-hf --gpus 2,3 --debug DEBUG

# if using 13B model
export CUDA_VISIBLE_DEVICES=0
python -m fastchat.serve.model_worker --model-path /data/huggingface/CodeLlama-13b-Instruct-hf --debug DEBUG

CodeLlama-34b-Instruct-hf

CodeLlama-13b-Instruct-hf

部署 vscode 插件 continue

我们使用vscode的插件 Continue，来访问code llama服务。

https://continue.dev/docs/intro

安装好 continue 插件以后，按照官方文档，我们做一下配置，后端服务指向 code llama

https://continue.dev/docs/reference/Model%20Providers/openai
https://continue.dev/docs/walkthroughs/codellama

修改 ~/.continue/config.json , 把下面的配置，添加进去

{
  "models": [
    {
      "title": "OpenAI-compatible server / API",
      "provider": "openai",
      "model": "CodeLlama-34b-Instruct-hf",
      "apiKey": "EMPTY",
      "apiBase": "http://172.21.6.105:8000/v1"
    }
  ]
}

如果是13B的模型，改成这样

{
  "models": [
    {
      "title": "OpenAI-compatible server / API",
      "provider": "openai",
      "model": "CodeLlama-13b-Instruct-hf",
      "apiKey": "EMPTY",
      "apiBase": "http://172.21.6.105:8000/v1"
    }
  ]
}

使用体验

然后我们就赶快来试试吧。真的还不错呢。

当然，我们也能看到，continue的使用逻辑，和copilot是不一样的，更像copilot chat，也就是他并不是随着用户编辑代码，给出实时的建议，而是通过对话框的方式，给出答案。不过，作为开源的方案，也不错啦。未来continue会支持自动补全，这个要看后续版本了。

codellama对中文支持有点限制，能看明白中文的提问，但是如果没有特别指示，回答就是英文的。这里就需要明确要求他用中文问答，这个后续可以尝试在提示词环节调整，来改善。

13B和34B模型的对比，体验下来，13B的效果还不错，而且计算速度快很多，所以我们选择13B的模型。

GPU 消耗

当我们通过vscode插件continue去访问code llama，来给代码提供各种分析的时候，GPU消耗还是很夸张的，gpu 基本100%了。资源不够的话，只能选择小一些的模型了。后面ocp部署实验，我们就选择13B的小一些的模型了。

使用 tabby 来支持自动补全

目前continue项目只支持类似copilot chat的服务，也就是需要在vscode里面单独开一个sidecar，然后通过对话框的方式，来和模型交互。未来continue会支持copilot的自动补全功能，但是目前还没有，为了支持自动补全，我们可以使用tabby。

https://tabby.tabbyml.com/docs/getting-started/

部署 tabby 服务端

我们按照文档，来部署tabby服务端

# create a workspace, and sync LLM into it
mkdir -p /data/workspace/tabby/models

# copy the models into workspace
VAR_HOST=144.202.112.104

while true; do
  rsync -aHAXxv --numeric-ids --delete -P -e "ssh -T -c aes256-gcm@openssh.com -x -o Compression=no -o ProxyCommand='connect-proxy -S 172.21.1.211:18805 %h %p'" root@${VAR_HOST}:/root/.tabby/models/  /data/workspace/tabby/models/
  if [ $? -eq 0 ]; then
        break
  fi
  sleep 1  # Optional: waits for 1 second before trying again
done

# start the tabby service

# https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#configuring-podman
# https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/cdi-support.html

dnf install -y nvidia-container-toolkit

# nvidia-ctk runtime configure --runtime=crio
# INFO[0000] Loading config: /etc/crio/crio.conf
# INFO[0000] Config file does not exist; using empty config
# INFO[0000] Successfully loaded config
# INFO[0000] Wrote updated config to /etc/crio/crio.conf
# INFO[0000] It is recommended that crio daemon be restarted.

# systemctl restart crio

nvidia-ctk cdi generate --output=/etc/cdi/nvidia.yaml
# ...
# INFO[0078] Generated CDI spec with version 0.5.0

nvidia-ctk cdi list
# INFO[0000] Found 2 CDI devices
# nvidia.com/gpu=0
# nvidia.com/gpu=1
# nvidia.com/gpu=all

# 如果你希望使用所有的gpu，可以使用 nvidia.com/gpu=all
# podman  run -it --device nvidia.com/gpu=all  -p 18180:8080 \
#     -v /data/workspace/tabby:/data:Z \
#     docker.io/tabbyml/tabby serve --model TabbyML/CodeLlama-13B --device cuda

# 我们指定一个gpu
podman run --rm -it --device nvidia.com/gpu=1  \
    -p 18180:8080 \
    -v /data/workspace/tabby:/data:Z \
    docker.io/tabbyml/tabby serve --model TabbyML/CodeLlama-13B --device cuda

安装 vscode 插件 tabby

在vscode里面，下载安装tabby，并配置api地址

使用体验

我们赶快来试试吧。真的还不错呢。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2024.01.codellama.vscode.md

2024.01.codellama.vscode.md

使用 code llama 配合 vscode 来做代码自动补全

使用 continue 来支持 chat

部署 code llama

部署 vscode 插件 continue

使用体验

GPU 消耗

使用 tabby 来支持自动补全

部署 tabby 服务端

安装 vscode 插件 tabby

使用体验

Files

2024.01.codellama.vscode.md

Latest commit

History

2024.01.codellama.vscode.md

File metadata and controls

使用 code llama 配合 vscode 来做代码自动补全

使用 continue 来支持 chat

部署 code llama

部署 vscode 插件 continue

使用体验

GPU 消耗

使用 tabby 来支持自动补全

部署 tabby 服务端

安装 vscode 插件 tabby

使用体验