gpt-ossがリリースされたので、LMStudioで使ってみた結果

前々から出るぞ出るぞと言われていたOpenAIのオープンウェイトリーズニングモデルである、「gpt-oss」が2025年8月5日にリリースされました。

リリースされたモデルはgpt-oss-120bとgpt-oss-20bの2つで、gpt-oss-120bはVRAM 80GBの単一GPUでコア推論ベンチマークで、OpenAI o4-miniとほぼ同等の結果を得られるモデルのよう。

gpt-oss-20bは一般的なベンチマークでOpenAI o3‑miniと同様の性能を発揮し、16GBメモリを搭載したエッジデバイス（サーバのように大規模な環境ではなく、手元のクライアントPC）で実行できるようです。

LM Studioでも早速Staff Pickモデルとして2つのモデルがダウンロードできるようになっていたので、僕のメインマシンと、M4 mac miniの一番下位のモデルの環境でそれぞれ試してみました。

テスト環境
トークン出力の速度比較
gpt-oss-120bをメインマシンで動かしてみた
- gpt-oss-120b テストパターン
- 結果
こぼれ話：Amazon Bedrockでもオレゴン（us-west-2）リージョンならリクエスト可能
エッジ利用ではgpt-oss-20bで十分かも

テスト環境

今回テストした環境は筆者メインマシンと、Thunderboltブリッジでexoのクラスタ組むぞ～って考えて、購入した一番下位モデルの16GBユニファイドメモリを搭載したM4 mac mini。

メインマシンの主なスペックは以下の通りです。

CPU	AMD Ryzen 7 9700X
RAM	DDR5-5600 64GB×2
GPU	AMD Radeon RX 9070
モデルを保存しているNVMe	Intel SSD 670p

トークン出力の速度比較

LLMのベンチマークにそこまで明るいわけではないので、視覚的に分りやすい1秒当たりに出力できるトークン数で比較してみました。

gpt-oss-20b テストパターン

テストパターンは以下の通りです。

パターンA：【メインマシン】コンテキスト長：4096、GPUオフロード：24
パターンB：【メインマシン】コンテキスト長：4096、GPUオフロード：23　※デフォルト値
パターンC：【M4 mac mini】コンテキスト長：4096、GPUオフロード：20
パターンD：【M4 mac mini】コンテキスト長：4096、GPUオフロード：15　※デフォルト値

テストで利用したプロンプト

僕がよくLM Studioをぶん回したときのテストで使っている下記のプロンプトをそれぞれのテストで利用します。

ある都市で新型の感染症が流行し始めています。感染症の基本再生産数（R0）は2.5で、人口は100万人、初期感染者は100人です。ワクチンの接種率が50%の場合、感染拡大を抑えるためには追加でどれだけの人がワクチンを接種する必要がありますか？また、感染拡大を防ぐための他の公衆衛生対策を3つ挙げ、それぞれの効果と課題を論理的に説明してください。

結果

それぞれのパターンでテストプロンプトを実行した結果は以下の通りです。

パターン	1秒あたりに出力できるトークン数（tok/sec）
パターンA	122.34 tok/sec
パターンB	44.98 tok/sec
パターンC	17.52 tok/sec
パターンD	19.45 tok/sec

gpt-oss 20b
Infogram