ローカルLLM:openclawでvllm-mlxを使うはなし
この記事は人間が書いてる。
最近ローカルLLMとopenclawで遊んでるんですよ。なんというか、ちょっと賢いたまごっちみたいな感じ
今つかっているモデルについて
で、作業させようとするとqwen3.6-35b-a3bあたりがちゃんとやってくれる。最初はGemma4の27B(MoE)使ってたんですけど、サボり癖が治らないのでこっちにしたらちゃんと働いてくれる。
gemini4については、タスク完遂能力がかなり低く、適当にお茶を濁す傾向があるのですが、qwenはタイムアウトまでずっと試行を繰り返してくれます。あと、ツールちゃんと使ってくれる
qwen3.6-35b-a3bを使う時の問題点
ただ、長時間ぶん回すと途中からGPUに処理が流れなくなってCPUで処理しだすんですよ。
どうやらollama側の既知のバグらしいので何とかなんねぇかなって思ってたら、vllm-mlxなるものを見つけました。Appleシリコンに最適化してあって、AIによって書かれたクソ記事によると性能がびっくりするほど上がるとかなんとか
というわけで無理やりopenclawに接続しちゃいましょうね~
環境
M5 Macbook air 32GBユニファイドメモリ
ヤッテイキ
git clone https://github.com/waybarrios/vllm-mlx.git
cd ./vllm-mlx
brew install python@3.13
python3.13 -m venv .venv
source .venv/bin/activate
pip3.13 install -e .
vllm-mlx serve mlx-community/Qwen3.6-35b-a3b-optiq-4bit --port 8000 --continuous-batching --api-key てきとうなキー
openclaw configure
あとはウィザード形式で勝手にやってくれる
local
model
vllm
APIキーは自分で設定したやつ入力する。いやちゃんとした手順とかあるかもしれん
結果
最初の会話3回くらいまではollamaよりちょい早くらいで推移するんですけど、すぐpythonエラーでクラッシュすることが発覚
色々設定をかえてみたものの、ダメでした…
現状では、ollamaでqwen3.6:35b-a3b-nvfp4が最適なようです。
で、とりあえずchromeを2つ開くのをやめてopenclawの自動操作用だけにしたらなんか安定しました。
メモリ不足でCPU、GPU混合運用に切り替わるっぽいです。なお、サーマルスロットリングでGPUマックスで使いきれないっぽいです。うへぇ
ディスカッション
コメント一覧
まだ、コメントがありません