こちらの記事にあるように、SambaNova Cloudは「GPUよりも10倍高速な推論を10分の1の電力で実現」しており、Llama 3シリーズが爆速動作するそうです。そして、今なら無料で使える!これは使ってみるしかありません。
目次
SambaNova CloudのAPI Keyを取得
ユーザー登録
まずはSambaNova Cloudのサイトでユーザー登録をします。
今なら無料で使えます。
API Key取得
Generate New API KeyをクリックしAPI Keyを取得します。

VS CodeにExtensions 「Continue」設定
インストール
ContinueはVS Codeで様々な生成AIモデルを活用できるようにする機能拡張です。
まずは、Continueをインストールします。
モデル追加
Continueのモデル選択画面で「Add Chat model」をクリックする。

Providerを選択し、API keyを入力し「Connect」をクリック。

これで「llama3.1-8b」モデルが利用可能になります。
利用モデルの変更
デフォルトで設定されるのは「llama3.1-8b」なので、これを別のモデルに変更します。
Continue画面右下にあるギアアイコン(Coinfigure Continue)をクリックすると、Configファイルが開きます。
ここに手動でモデルを追加します。
{
"apiKey": "xxxxxxxxxxx",
"title": "Llama3.1 70B Chat",
"model": "Meta-Llama-3.1-70B-Instruct",
"provider": "sambanova"
},
{
"apiKey": "xxxxxxxxxxx",
"title": "Llama3.1 405B Chat",
"model": "Meta-Llama-3.1-405B-Instruct",
"provider": "sambanova"
}
これで、70Bと405Bのモデルも選択可能になります。
レスポンスも早くストレスなく使えます。
関連記事1枚の画像から3D化!ComfyUIにてStable Video 3DをノートPCで動かす Goose を使ったAIエージェントコーディングやPuppeteer MCP Server によるブラウザ操作自動化 紙文書の写真画像からAIで文字起こし DifyとGeminiでほぼ無料OCR! 発信者不明の着信番号を生成AIを使って自動調査しSlackで通知してみる 日本語対応のDeepSeek R1をローカルで Ollama や LM Studioで使ってみる Hagging Faceのモデル(Rakuten AI 7B)をGGUFに変換&4bit量子化してOllamaで動かす。Docker Desktopを使います。