FlashLabsがAI推論ゲートウェイ「OrcaRouter」を更新、SGLangとの統合で性能向上

FlashLabsが新たにAI推論ゲートウェイ「OrcaRouter」を進化

FlashLabs株式会社（東京都千代田区）が、AI推論ゲートウェイ「OrcaRouter」を米国のContinuum AIが開発した高速LLMサービングフレームワーク「SGLang」に統合することを発表しました。この統合により、開発者はわずかな変更で200以上のAIモデルへのアクセスが可能となり、さらにコストを最大40%削減できる機能を手に入れます。

進化するAI活用の背景

2026年までに企業のAI利用は単一モデルから複数モデルの組み合わせへと進化する見込みです。これに応じて、推論速度の向上と増大する利用料の最適化が急務となっています。「SGLang」により、推論速度は従来のフレームワークの最大5倍向上し、多くのAIエンジニアに支持されています。また、「OrcaRouter」は各プロンプトの難易度を判定し、最適なモデルに自動で振り分ける機能を搭載しています。

統合の詳細

今回の統合によって、「SGLang」と「OrcaRouter」は以下の主な機能を提供します。

- 200以上のモデルへの統一アクセス: 単一のエンドポイントからOpenAI、Anthropic、Googleなどの主要モデルに接続。
- 適応型自動ルーティング: プロンプトの難易度を短時間で判定し、最適なモデルへ自動配信。定型処理は安価なオープンモデル、高度な推論はフロンティアモデルへと切り替え。
- Agent Firewall & Guardrails: 個人情報のマスキングやプロンプトインジェクション対策を自動で適用。
- Unified Billing（統合請求）: 複数のプロバイダーに関わらず、請求はOrcaRouterに一本化され、手数料は0%。

使用可能なモデル

SGLangを使うことで利用可能なモデルには、以下が含まれます。

- OrcaRouter Fable 5 Fusion API
- Anthropic Claude Opus 4.8 API
- OpenAI GPT 5.5 API
- Gemini 3.5 FlashAPI
- DeepSeek V4 Pro APIなど多岐にわたる最新のAIモデル。

企業にとってのメリット

1. 開発スピードの向上: SGLangの高速ランタイムを用いることで、APIの仕様を気にすることなく新モデルを迅速に試行・導入できます。
2. コスト削減: OrcaRouterが自動で最も適切なモデルを選択することで、LLMへの支出を最大40%抑えることが可能。
3. 信頼性の確保: プロバイダーの障害時でもストリームを途切れさせずに代替モデルへ切り替え、常に安定したサービスを提供。

今後の展開

FlashLabsは日本企業がOrcaRouterを円滑に導入できるよう、日本語ドキュメントを整備し、導入ガイドも提供予定です。そして、エンタープライズ向けの専用環境やサービスレベルアグリーメント（SLA）を整備し、AI活用をより一層促進します。

代表者のコメント

FlashLabs株式会社の代表取締役、細井洋一氏は次のように述べています。「SGLangはAI実行速度における革新です。OrcaRouterの知的な振り分け機能により、日本企業は高性能AIを効率的かつ安全に利用できます。私たちはインフラの複雑さを解消し、開発者がビジネスの創造に集中できる環境を提供します。」