ローカルLLM:openclawでvllm-mlxを使うはなし

ITAI,LLM

この記事は人間が書いてる。

最近ローカルLLMとopenclawで遊んでるんですよ。なんというか、ちょっと賢いたまごっちみたいな感じ

今つかっているモデルについて

で、作業させようとするとqwen3.6-35b-a3bあたりがちゃんとやってくれる。最初はGemma4の27B(MoE)使ってたんですけど、サボり癖が治らないのでこっちにしたらちゃんと働いてくれる。

gemini4については、タスク完遂能力がかなり低く、適当にお茶を濁す傾向があるのですが、qwenはタイムアウトまでずっと試行を繰り返してくれます。あと、ツールちゃんと使ってくれる

qwen3.6-35b-a3bを使う時の問題点

ただ、長時間ぶん回すと途中からGPUに処理が流れなくなってCPUで処理しだすんですよ。

どうやらollama側の既知のバグらしいので何とかなんねぇかなって思ってたら、vllm-mlxなるものを見つけました。Appleシリコンに最適化してあって、AIによって書かれたクソ記事によると性能がびっくりするほど上がるとかなんとか

というわけで無理やりopenclawに接続しちゃいましょうね~

環境

M5 Macbook air 32GBユニファイドメモリ

ヤッテイキ

git clone https://github.com/waybarrios/vllm-mlx.git
cd ./vllm-mlx

brew install python@3.13

python3.13 -m venv .venv
source .venv/bin/activate
pip3.13 install -e .

vllm-mlx serve mlx-community/Qwen3.6-35b-a3b-optiq-4bit --port 8000 --continuous-batching --api-key てきとうなキー
openclaw configure

あとはウィザード形式で勝手にやってくれる

local
model
vllm
APIキーは自分で設定したやつ入力する。いやちゃんとした手順とかあるかもしれん

結果

最初の会話3回くらいまではollamaよりちょい早くらいで推移するんですけど、すぐpythonエラーでクラッシュすることが発覚

色々設定をかえてみたものの、ダメでした…

現状では、ollamaでqwen3.6:35b-a3b-nvfp4が最適なようです。

で、とりあえずchromeを2つ開くのをやめてopenclawの自動操作用だけにしたらなんか安定しました。

メモリ不足でCPU、GPU混合運用に切り替わるっぽいです。なお、サーマルスロットリングでGPUマックスで使いきれないっぽいです。うへぇ

広告

ITAI,LLM

Posted by 黒生野 からす