※当サイトはアフィリエイトプログラムによる収益を得ています。

独立GPU搭載ノートPCで、ローカルLLMを動かすと速くなる?【LM Studio使用】

更新日:
TOP画像

 

ここでは、独立GPUが搭載されたノートパソコンにて、LM StudioでローカルLLMを動かし、独立GPUが非搭載のノートパソコンと比べて、どのくらい速くなるのかをテストしてみました。

 

LM Studioとは?

LM Studioとは、ローカル環境(自分のPC上)で、LLM(大規模言語モデル)やSLM(小規模言語モデル)を実行・操作するためのアプリです。Llama、Gemma、DeepSeekなどのモデルを、切り替えて使用することができます。

 

テストに使ったノートPC

テストに使った独立GPU搭載のノートPCは、次通りで、CPUにはCore Ultra 7 155H、GPUにはGeForce RTX 4060 Laptop、メモリは32GBを搭載しています。

テストに使った独立GPUありのノートPC
  CPU GPU メモリ
DAIV S4 Core Ultra 7 155H GeForce RTX 4060 Laptop 32GB

 

また、比較のために、独立GPUを搭載していない以下のノートPCでも、同じテストを行いました。いずれもメモリは32GBです。

比較用に使った独立GPUなしノートPC
  CPU メモリ
Acer Swift Go Core Ultra 7 155H 32GB
HP OmniBook 7 14-fr Core Ultra 7 255H 32GB
IdeaPad Pro 5 Gen 10 Ryzen AI 7 350 32GB

 

なお、各PCの、CPUおよびGPU性能の指標となるベンチマークスコアを下に掲載しておきます。

CPU性能
Core Ultra 7 255H 1103 [HP OmniBook 7 14-fr]
Ryzen AI 7 350 964 [IdeaPad Pro 5 Gen 10]
Core Ultra 7 155H 884 [DAIV S4]
Core Ultra 7 155H 825 [Acer Swift Go]
CINEBENCH 2024
GPU性能
RTX 4060 Laptop 75010 [DAIV S4]
Core Ultra 7 255H
CPU内蔵GPU
41327 [HP OmniBook 7 14-fr]
Core Ultra 7 155H
CPU内蔵GPU
35888 [Acer Swift Go]
Ryzen AI 7 350
CPU内蔵GPU
35031 [IdeaPad Pro 5 Gen 10]
3DMark Night Raid グラフィックススコア

 

LM Studioの導入とモデルの選択

LM Studioは、「こちらのサイト」からダウンロードできます。

LM Studioのダウンロードサイト

 

最初は、2025年8月5日にリリースされたgpt-oss-20bのモデルのダウンロードが推奨されます。

その後は、好きなモデルをダウンロードすることもできます。各モデルは「12B」や「20B」などのパラメータを持っており、理論上は、このパラメータ数が多ければ多いほど、複雑で高度なタスクがこなせるようになります。また、「Q8」や「Q4」といったように記載される量子化(圧縮みたいなイメージ)が行われており、これによりモデルサイズが小さくなり、より少ないメモリでも動くようになります。

モデルのダウンロード画面
モデル例

 

テスト内容

テストでは、「ノートパソコンにNPUは必要ですか?200字前後で答えてください。」という質問を、いくつかのモデルで実行し、そのときのトークン生成速度と、最初のトークンが出始めるまでの時間を計測しました。

※トークンとは、文章を分割した小さな単位のことで、日本語だと、モデルにもよりますが1トークンがだいたい1.5~2.5文字になります。

 

独立GPU搭載PCはGPUが優先で、次がCPU

試しに、独立GPUを搭載したPCで、「27B(量子化4bit)」モデルをロードしてみます。

今回、GeForce RTX 4060 Laptopのモデルを搭載していますが、VRAMは8GBです。この8GBに収まる分だけ、独立GPUのVRAMに、レイヤーのパラメータがオフロードされていました。

モデルをロードしたときのタスクマネージャー

 

GPU Offloadの設定を見ても、「62」のうち「21」のパラメータが、独立GPUにロードされているのが分かります。なお、ここは自分で設定を変更することが可能です。

GPU Offloadの設定値

 

次に、推論を実行してみると(AIに何か質問をしてみると)、独立GPUにオフロードされた分はGPUで処理していますが、残った部分についてはCPUで処理していました。CPU内蔵のGPUは使われないようです(独立GPUと、内蔵GPUの両方が使えるようにはなっていないようです。なお、独立GPUが無いモデルは、内蔵GPUにオフロードすることが可能です)。また、NPUも使われていません。

LM Studioで推論中のタスクマネージャー

 

各モデルのトークン生成速度

次に、各モデルを動かしたときの速度の計測結果を掲載します。

gpt-oss-20b【Open AI社】

まずは、LM Studioをインストールすると最初にダウンロードを促される「20B」の「gpt-oss-20b」のモデルで、「トークン生成速度」および「最初のトークンまでの時間」を計測しました。

なお、Ryzen AI 7 350搭載PCは、初期設定ではGPUオフロードが「0」となっており、動作時にGPUが使われておらず、最初のトークンが表示されるまでの時間がやや長くなっていました。そのため、Ryzen AI 7 350搭載PCは、GPUオフロードを最大の「24」にしています。

なお、他のノートPCの初期設定は、Core Ultra 7 155搭載PCが「23」、他はいずれも「24」になっており、この初期設定のまま計測しています。「24」の場合は、すべてGPUにオフロードされることになります。

Ryzen AI 7 350搭載PCのGPUオフロードの初期設定

 

結果は以下の通りです。

上のグラフを見ると、Core Ultra 7 155 + RTX4060を搭載したノートPCは、Core Ultra 7 155Hのみ搭載したノートPCより大分速かったです。グラフィック性能の差がそのまま出ているような感じでした。ただ、Ryzen AI 7 350に関しては、最初のトークンが表示されるまでの時間は結構速かったです。

gpt-oss-20b
トークン生成速度
Core Ultra 7 155 + RTX4060 21.20 tok/秒
Core Ultra 7 255 16.21 tok/秒
Ryzen AI 7 350 13.30 tok/秒
Core Ultra 7 155 13.15 tok/秒
最初のトークンまでの時間
Core Ultra 7 155 + RTX4060 0.92 秒
Ryzen AI 7 350 1.12 秒
Core Ultra 7 255 3.64 秒
Core Ultra 7 155 3.79 秒

 

gemma-3-27b【Google社】

次に、「27B」の「gemma-3-27b」のモデルで同じことを試してみます。

このモデル場合、Core Ultra 7 155 + RTX4060搭載PCでのGPU Offload値は、「21」になっていました。

Core Ultra 7 155 + RTX4060搭載PCのGPU Offloadの設定値

 

その他のPCのGPU Offloadの初期値は、Core Ultra 7 155のみ搭載したPCが「44」、Core Ultra 7 255搭載PCが「50」でした。

Ryzen AI 7 350は、初期設定では「0」だったので、ここでは「44」にしています。なお、「50」にしたらモデルが読み込めませんでした。

結果は以下の通りです。

Core Ultra 7 155 + RTX4060が最も速かったですが、すべてGPUにオフロードされていないため、他のCPUとの差は大分縮まりました。ただ、いずれもトークン生成速度が遅く、ややストレスがたまります。「27B」くらいのモデルを動かすなら、もっとVRAMの多い独立GPUを搭載したノートPCか、Ryzen AI Max+ 395にたくさんメモリを搭載したPCのほうがいいかなと思います。

gemma-3-27b
トークン生成速度
Core Ultra 7 155 + RTX4060 3.26 tok/秒
Core Ultra 7 255 3.17 tok/秒
Ryzen AI 7 350 2.72 tok/秒
Core Ultra 7 155 2.55 tok/秒
最初のトークンまでの時間
Ryzen AI 7 350 2.81 秒
Core Ultra 7 155 + RTX4060 3.77 秒
Core Ultra 7 255 4.33 秒
Core Ultra 7 155 5.24 秒

 

 

まとめ

今回、独立GPUを搭載したノートパソコンで、LM Studioを使って、ローカルLLMを動かし、どのくらい速くなるかをテストしました。

LLMのモデルサイズが小さく、すべてGPUにオフロードできる場合については、独立GPUを搭載したPCは、非常に速かったです。

モデルが大きく、すべてGPUにオフロード出来ない場合、残りはCPUで処理していたので、独立GPUを搭載していないPCと比べて、差は大分縮まり、思ったほど速くはありませんでした。また、トークン生成速度が遅く、ストレスを感じます。モデルが大きい場合、もっとVRAMの多い独立GPUを搭載したノートPCか、Ryzen AI Max+ 395にたくさんメモリを搭載したノートPCのほうがいいかなと思います。

 

関連ページ