こちらの記事にあるように、SambaNova Cloudは「GPUよりも10倍高速な推論を10分の1の電力で実現」しており、Llama 3シリーズが爆速動作するそうです。そして、今なら無料で使える!これは使ってみるしかありません。
目次
SambaNova CloudのAPI Keyを取得
ユーザー登録
まずはSambaNova Cloudのサイトでユーザー登録をします。
今なら無料で使えます。
API Key取得
Generate New API KeyをクリックしAPI Keyを取得します。

VS CodeにExtensions 「Continue」設定
インストール
ContinueはVS Codeで様々な生成AIモデルを活用できるようにする機能拡張です。
まずは、Continueをインストールします。
モデル追加
Continueのモデル選択画面で「Add Chat model」をクリックする。

Providerを選択し、API keyを入力し「Connect」をクリック。

これで「llama3.1-8b」モデルが利用可能になります。
利用モデルの変更
デフォルトで設定されるのは「llama3.1-8b」なので、これを別のモデルに変更します。
Continue画面右下にあるギアアイコン(Coinfigure Continue)をクリックすると、Configファイルが開きます。
ここに手動でモデルを追加します。
{
"apiKey": "xxxxxxxxxxx",
"title": "Llama3.1 70B Chat",
"model": "Meta-Llama-3.1-70B-Instruct",
"provider": "sambanova"
},
{
"apiKey": "xxxxxxxxxxx",
"title": "Llama3.1 405B Chat",
"model": "Meta-Llama-3.1-405B-Instruct",
"provider": "sambanova"
}
これで、70Bと405Bのモデルも選択可能になります。
レスポンスも早くストレスなく使えます。
関連記事紙文書の写真画像からAIで文字起こし DifyとGeminiでほぼ無料OCR! Sakana AI TinySwallow-1.5B をRaspberry Pi 4B の Ollamaで動かす 生成AIの性能を一般利用者目線で単純に比較!生成AIが出した微妙に間違った回答を、他の生成AIは指摘・修正できるか? ローカルLLM Stable Code 3BをMacbook Airで動かして VSCodeから使ってみる Hagging Faceのモデル(Rakuten AI 7B)をGGUFに変換&4bit量子化してOllamaで動かす。Docker Desktopを使います。 日本語対応のDeepSeek R1をローカルで Ollama や LM Studioで使ってみる