ローカルLLM：openclawでvllm-mlxを使うはなし

2026年7月1日ITAI,LLM

この記事は人間が書いてる。

最近ローカルLLMとopenclawで遊んでるんですよ。なんというか、ちょっと賢いたまごっちみたいな感じ

Contents

1. 今つかっているモデルについて
2. qwen3.6-35b-a3bを使う時の問題点
3. 環境
4. ヤッテイキ
5. 結果

今つかっているモデルについて

で、作業させようとするとqwen3.6-35b-a3bあたりがちゃんとやってくれる。最初はGemma4の２７B(MoE)使ってたんですけど、サボり癖が治らないのでこっちにしたらちゃんと働いてくれる。

gemini4については、タスク完遂能力がかなり低く、適当にお茶を濁す傾向があるのですが、qwenはタイムアウトまでずっと試行を繰り返してくれます。あと、ツールちゃんと使ってくれる

qwen3.6-35b-a3bを使う時の問題点

ただ、長時間ぶん回すと途中からGPUに処理が流れなくなってCPUで処理しだすんですよ。

どうやらollama側の既知のバグらしいので何とかなんねぇかなって思ってたら、vllm-mlxなるものを見つけました。Appleシリコンに最適化してあって、AIによって書かれたクソ記事によると性能がびっくりするほど上がるとかなんとか

というわけで無理やりopenclawに接続しちゃいましょうね～

環境

M5　Macbook air 32GBユニファイドメモリ

ヤッテイキ

git clone https://github.com/waybarrios/vllm-mlx.git
cd ./vllm-mlx

brew install python@3.13

python3.13 -m venv .venv
source .venv/bin/activate
pip3.13 install -e .

vllm-mlx serve mlx-community/Qwen3.6-35b-a3b-optiq-4bit --port 8000 --continuous-batching --api-key てきとうなキー