※当サイトはアフィリエイトプログラムによる収益を得ています。

独立GPU無しのノートPCで、ローカルLLMを動かしてみた【LM Studio使用】

更新日:
TOP画像

 

ここでは、独立GPUが搭載されていない3台のノートパソコンで、ローカルLLMを動かし、どのくらいのスペックであれば快適に動くのかを簡単にテストしました。なお、テストでは、LM Studioを使用しています。

 

LM Studioとは?

LM Studioとは、ローカル環境(自分のPC上)で、LLM(大規模言語モデル)やSLM(小規模言語モデル)を実行・操作するためのアプリです。Llama、Gemma、DeepSeekなどのモデルを、切り替えて使用することができます。

 

テストに使ったノートPC

テストに使ったノートPCは、次の3台です。旧世代のCore i7-1360Pと、最新世代のCore Ultra 7 255HおよびCore Ultra 7 258Vを用いました。Ryzen AIのプロセッサーでもテストしたかったのですが、ちょうどいいPCが手元に無かったので、また今度にでもテストします。

テストに使ったノートPC
  CPU メモリ
デル Inspiron 16 (5630) Core i7-1360P 16GB
HP OmniBook 7 14-fr Core Ultra 7 255H 32GB
ThinkPad X1 Carbon Gen 13 Core Ultra 7 258V 32GB

 

なお、ローカルLLMを動かす場合、GPU性能が大事なので、各CPUのグラフィックス性能を下に掲載しておきます。

3DMark Night Raid(グラフィックススコア)
Core Ultra 7 258V
Intel Arc 140V
46269
Core Ultra 7 255H
Intel Arc 140T
41327
Core i7-1360P
Intel Xe
21897

 

LM Studioの導入

LM Studioは、「こちらのサイト」からダウンロードできます。インストールはウィザード通り行えばOKです。

LM Studioのダウンロードサイト

 

最初は、2025年8月5日にリリースされたgpt-oss-20bのモデルのダウンロードを推奨されます。その後は、好きなモデルをダウンロードすることもできます。

gpt-oss-20bのモデルのダウンロードを薦められる
他のモデルも、検索しダウンロード可能

 

後はダウンロードしたモデルを選択し、そのモデルに対してチャット形式で質問をすることで、結果を返してくれます。

チャット画面

 

テスト内容

テストでは、「ノートパソコンにNPUは必要ですか?200字前後で答えてください。」という質問を、いくつかのモデルで実行し、そのときのCPU/GPU/NPU負荷や、トークン生成速度を計測しました。

※トークンとは、文章を分割した小さな単位のことで、日本語だと、モデルにもよりますが1トークンがだいたい1.5~2.5文字になります。

 

基本的にはGPUで処理

いくつかモデルを動かしてみましたが、GPUに大きな負荷がかかっていました。CPUも使いますが、負荷はそれほど高くありません。また、現在のところ、LM Studioだと、NPUを使うモデルはなさそうでした。

ただ、LM Studioでは使えませんでしたが、DeepSeek  R1 DistilledではNPUで動作するので、そのうちLM Studioでも、NPUで動作するモデルが加わるかもしれません。

LM Studioで推論中のタスクマネージャー

 

余談

LM Studioと同様のアプリとして、Ollamaというのもありますが、Ollamaだと、モデルを使って推論をするときに、GPUが使われず、CPUのみで処理していたので、今回は、LM Studioを使いました。

 

パラメータと量子化形式によって必要なメモリが変わる

パソコンに必要なメモリは、動かすAIのモデルによって異なります。

各モデルは「12B」や「20B」などのパラメータを持っており、理論上は、このパラメータ数が多ければ多いほど、複雑で高度なタスクがこなせるようになります。なお、「B」はビリオン(=10億)の略です。モデル名に、12Bや20Bといった文字が入っているので分かりやすいです。このパラメータが多ければ多いほど、メモリ容量がたくさん必要になります

また、「Q8」や「Q4」といったように記載される量子化(圧縮みたいなイメージ)が行われており、これによっても必要なメモリ容量は変わります。LM Studioの場合、Download Optionsのモデル名の横に、量子化形式が書かれています。例えばQ4だと4bitなので、標準のFP32(32bit)と比べると、かなり小さく量子化されていることになります。このビット数が小さければ小さいほど、必要なメモリ容量は減ります。ただし、その分推論の精度は落ちます。

モデル例

 

どのくらのメモリで、どのくらいのモデルが動くかについては、次の項目を見て下さい。

 

各モデルのトークン生成速度

次に、各モデルを動かしたときの結果を掲載します。

gpt-oss-20b【Open AI社】

まずは、LM Studioをインストールすると最初にダウンロードを促される「gpt-oss-20b」のモデルで、トークン生成速度を計測しました。なお、量子化形式はMXFP4となっていますが、4bit浮動小数点のようです。

このモデルは、20Bとパラメーターが多いので、16GBメモリを搭載したCore i7-1360Pでは動作しませんでした。

その他のPCのトークン生成速度は以下の通りで、GPU性能の差がそのまま出ているような形です。

gpt-oss-20b(MXFP4)
Core Ultra 7 258V
32GBメモリ
18.06 tok/sec
Core Ultra 7 255
32GBメモリ
15.24 tok/sec
Core i7-1360P
16GBメモリ
 実行できず

 

Core Ultra 7 258V搭載PCで、モデルに質問をして、回答ももらっているときの様子は下の通りです。クラウドのChat GPTよりは遅いですが、全然待てる範囲です。 

 

回答内容の精度については、主観では、まずまずだと思います。ただ、やはりクラウドのChat GPTの精度は高いです。

 

gemma-3-12b【Google社】

先ほどのモデルは、16GBメモリを搭載したCore i7-1360Pでは動作しなかったので、次は、「12B」のパラメーター、「4bit」の量子化のgemma-3-12bで試してみました。ただ、こちらもCore i7-1360Pでは動作しませんでした。

他のPCについては動きましたが、トークン生成速度は先ほどより遅かったです。体感でも、少し遅さを感じます。

gemma-3-12b(Q4_K_M)
Core Ultra 7 258V
32GBメモリ
10.86 tok/sec
Core Ultra 7 255
32GBメモリ
8.11 tok/sec
Core i7-1360P
16GBメモリ
 実行できず

 

deepseek-r1-0528-qwen3-8b【DeepSeek社】

次に、もっと小規模な「8B」、「4bit」のdeepseek-r1-0528-qwen3-8bでテストしたところ、16
GBのCore i7-1360Pでも動きました。速度はCore i7-1360Pだとやや遅さを感じます。

deepseek-r1-0528-qwen3-8b(Q4_K_M)
Core Ultra 7 258V
32GBメモリ
15.79 tok/sec
Core Ultra 7 255
32GBメモリ
11.85 tok/sec
Core i7-1360P
16GBメモリ
8.13 tok/sec

 

gemma-3-27b【Google社】

次に27B(4bit)と、今回のテストの中では大きなモデルでテストしましたが、トークン生成速度は遅く、大分待たされ、ストレスを感じます。

gemma-3-27b(Q4_0)
Core Ultra 7 258V
32GBメモリ
3.70 tok/sec
Core Ultra 7 255
32GBメモリ
3.33 tok/sec
Core i7-1360P
16GBメモリ
 実行できず

 

llama-3.3-70b【Meta社】

最後に70B(3bit)のモデルをテストしてみましたが、こちらはモデルが大きすぎて動作しませんでした。

 

まとめ

今回、独立GPUを搭載していない普通のノートパソコンで、LM Studioを使って、ローカルLLM/SLMを動かし、どのくらいのスペックであれば、快適に動くかをテストしました。

推論時は、GPUの負荷が高かったので、内蔵グラフィックスの性能の高いCPUがおすすめです。具体的には、Core Ultra 7 258Vが速かったです。Core Ultra 255Hでも悪くないです。なお、現時点では、NPUで動くモデルはLM Studioにはなさそうだったので、NPUは無くても大丈夫です。ただ、今後、対応するかもしれないので、NPUのあるCPUでもいいと思います。

メモリは、16GBだと動かせるモデルが大分限られてくるので、比較的大きいモデルが動く32GBがいいと思います。32GBあれば、割と動かせるモデルは多いです。64GBにすれば、より大規模なモデルも動きますが、CPU内蔵のグラフィックスでは性能不足な感じはあります。でも、32GBメモリだと、大きなモデルを使っていると空きメモリがほとんどないので、64GBでもいいとは思います。

総合的に考えると、独立GPUを搭載していないノートPCの場合、Core Ultra 7 258V、32GBメモリのノートPCが、現状ではローカルLLMを実行するのに適した構成かと思います。CPUは、Core Ultra 255Hでもいいです。今回試してはいませんが、Ryzen AI 9 HX 370やRyzen 7 8845HSも内蔵グラフィックス性能が高いのでいいと思います。Core Ultra 7 258Vはメモリが統合されているので、これ以上増やせませんが、Core Ultra 255Hなどなら、(スロットメモリなら)64GBのメモリを搭載することもできます。

 

関連ページ