Amazon Web Services ブログ
オープンウェイトモデル( gpt-oss )の日本語精度は? – AWS パートナー アクロクエストによる徹底検証
Amazon Bedrock は生成 AI のアプリケーションを作るためのプラットフォームサービスであり、様々なモデルプロバイダーの基盤モデルに統一した API でアクセスすることができます。Amazon Bedrock で利用できるモデルは拡張を続けており、2025 年 8 月には OpenAI のオープンウェイトモデル( gpt-oss )が利用可能になりました。このモデルについては各種ベンチマークの数値も出ているのですが、英語を対象にしたものが多く、日本語で使っていくにあたっては不明な点も多いです。今回、機械学習に強みを持つ AWS パートナーとして機械学習コンピテンシーを取得し、Amazon Bedrock 導入支援サービスを提供しているアクロクエストテクノロジー株式会社様に gpt-oss の日本語性能を検証いただきました。以下はアクロクエストテクノロジー様による寄稿です。
オープンウェイトモデル( gpt-oss )の概要
2025 年 8 月 5 日に OpenAI から公開され、 Amazon Bedrock で利用できるようになったオープンウェイトモデル( gpt-oss )である gpt-oss-20b / gpt-oss-120b には次の特徴があります。
| 特徴 | 説明 |
|---|---|
| エージェントワークフロー向けのモデル設計 | 指示追従の強化、ウェブ検索や Python コードの実行をはじめとしたエージェントワークフローで動作するようにモデルが設計されています。 |
| 思考時間の調整 | Reasoning において、思考時間の調整を行うパラメータが定義されており、変更できます。 |
| 思考能力 | 競技プログラミング、一般的な問題、ツール呼び出しにおいて、gpt-oss-120b は OpenAI o4-mini 程度、gpt-oss-20b は OpenAI o3‑mini に匹敵します。 |
| AWS リージョン | 2025年11月17日時点で、東京リージョン(ap-northeast-1)を含む12つのリージョンで利用可能です。 |
本モデルは Amazon Bedrock 経由で利用すると、 AWS のセキュリティ・認証基盤や統合 API を活用しつつ、他ベンダーのモデルと同一環境で比較・切り替えが可能です。 さらに、オープンウェイトモデル( gpt-oss )の国内リージョン対応により、低レイテンシでの推論が実現します。 これにより、システムへの安全かつ迅速な組み込みが容易になります。
日本語能力評価
日本語能力評価のために要約、論理的読解力、RAGの3つの評価が計測できるデータセットを選定しました。データセットは次の表の通りです。
| データセット名 | 問題種類 | 概要 | URL |
|---|---|---|---|
| XL-Sum | 要約 | BBC ニュースをソースとする要約精度確認用データセット | https://huggingface.co/datasets/GEM/xlsum |
| JEMHopQA | 論理的推論 | Wikipedia をソースとしたデータセット、複数のデータに対する知識が必要となる | https://huggingface.co/datasets/sbintuitions/JEMHopQA |
| JSQuAD | 文章理解(RAG) | 抽出型のデータセット | https://github.com/yahoojapan/JGLUE/tree/main
https://huggingface.co/datasets/sbintuitions/JSQuAD |
また、本検証では、オープンウェイトモデル( gpt-oss )の精度を相対的に把握するため、同じく Amazon Bedrock 上で利用可能な、以下のモデルを比較しています。 ※評価中に、Claude Haiku 4.5 もリリースされたので、急ぎ追加して、検証してみました。
- Claude Sonnet 4.5(Anthropic 社が提供する高精度・汎用性の高いモデル)
- Claude Haiku 4.5(Anthropic 社が提供する軽量・高速応答のモデル)
- Claude Haiku 3.5(Anthropic 社が提供する軽量・高速応答のモデル)
- LLaMA 4 Scout 17B(Meta 社の最新世代モデル)
これらのモデルは推論能力、要約精度、抽出型 QA において異なる特性を持っているため、比較をすることで、オープンウェイトモデル( gpt-oss )の各タスクにおける強み・弱みを明らかにし、業務利用時のモデル選定指針を得ることができます。
本ブログ執筆時の Amazon Bedrock における各モデルの単価(単位は USD)は次の通りです。
| モデル | 入力トークン 1000 あたり | 出力トークン 1000 あたり |
|---|---|---|
| gpt-oss-20b | $0.00007 | $0.00030 |
| gpt-oss-120b | $0.00015 | $0.00060 |
| Claude Haiku 3.5 | $0.001 | $0.005 |
| Claude Haiku 4.5 | $0.001 | $0.005 |
| Claude Sonnet 4.5 | $0.003 | $0.015 |
| LLaMA 4 Scout 17B | $0.00017 | $0.00066 |
XL-Sum(要約)
XL-Sum は BBC ニュースをソースとする抽象要約データセットです。 45 言語・合計約 130 万件の長文記事と見出し要約ペアを収録しており、日本語も約1万件含まれています。 記事本文は平均 400 語と情報量が多く、多様なトピック(国際情勢、ビジネス、テクノロジーなど)が均等にカバーされているため、 実務で求められる複雑な要約能力を測定するのに適しています。
実験では、ニュース本文を入力としてモデルに短い抽象要約を生成させ、 XL-Sum の要約と比較して ROUGE ベースの指標を計測します。 XL-Sum には例えば、次のようなデータがあります。
ニュース記事
WHO はワクチンの早期開発について「非現実的」とした WHO のテドロス・アダノム・ゲブレイエスス事務局長は、「あまりに多くの国が間違った方向に向かっている」と、この日の記者会見で述べた。 また、科学的裏づけのある対策を採用していない、あるいは順守していない場所で、感染者が増加しているとした。 <関連記事> 現在、アメリカがパンデミックの中心になっている。同国では感染症対策の専門家とドナルド・トランプ大統領が緊張関係にあるなか、感染者が増えている。 (略)10 歳未満の子どもでは症状は非常に軽く、10 歳以上では若い成人並みの軽症を発症することが多いようだとした。 子どもの伝染力は弱いとみられているが、どの程度なのかはわかっていない。 新型コロナウイルス特集 感染対策 在宅勤務・隔離生活 (英語記事 Nations ‘heading in wrong direction’ with Covid-19)正解
世界保健機関(WHO)は 13 日、各国政府がこれまで以上に断固とした対応をとらない限り、新型コロナウイルスのパンデミック(世界的流行)は「ますます悪化」すると警告した。
本実験では、ROUGE-L と BERTScoreを評価指標を用いて、要約の良さを評価します。 詳細な技術内容は控えますが、ROUGE-L は、要約の「文章の並びや構造」がどれくらい元の文章ものと一致しているかを測る指標です。 また、BERTScore は、文章の「意味の近さ」を測る指標です。
本 XL-Sum の評価では XL-Sum の Validation から 200 データをランダムで抽出しました。 検証した結果を次の表に掲載します。
※表に掲載の評価指標であるROUGE-LとBERTScoreは、どちらも 数値が高い方が精度が高い です。
| モデル名 | 思考時間 | ROUGE-L | BERTScore | 1 問あたりの
入力トークン数 |
1 問あたりの
出力トークン数 |
1 問あたりの
回答生成時間(秒) |
|---|---|---|---|---|---|---|
| gpt-oss-20b | low | 0.171 | 0.718 | 1385.1 | 145.2 | 1.1 |
| gpt-oss-20b | medium | 0.172 | 0.712 | 1385.1 | 394.0 | 2.0 |
| gpt-oss-20b | high | 0.182 | 0.709 | 1385.1 | 5224.3 | 16.9 |
| gpt-oss-120b | low | 0.181 | 0.720 | 1385.1 | 145.9 | 1.9 |
| gpt-oss-120b | medium | 0.180 | 0.719 | 1385.1 | 338.8 | 3.4 |
| gpt-oss-120b | high | 0.171 | 0.714 | 1385.1 | 1546.8 | 11.3 |
| Claude Haiku 3.5 | – | 0.197 | 0.738 | 1550.3 | 112.6 | 2.9 |
| Claude Haiku 4.5 | – | 0.224 | 0.723 | 1550.3 | 159.0 | 2.3 |
| Claude Sonnet 4.5 | – | 0.235 | 0.730 | 1550.3 | 171.2 | 5.1 |
| LLaMA 4 Scout 17B | – | 0.251 | 0.734 | 1052.2 | 103.9 | 1.2 |
XL-Sum での gpt-oss-20b/120b(medium)の回答例を次に示します。 gpt-oss は思考モデルであるため、思考部と答えが分離されます。 <reasoning>タグで囲われた箇所は思考部で、それ以降は思考からたどり着いた答えを示します。 <reasoning>タグで囲まれた思考内部では英語を利用していますが、結論部分は日本語で記述されています。
プロンプト(共通)
ニュース本文を日本語で1-2文に要約してください。\n固有名詞は保持し、事実関係を改変しないでください
{ニュース本文}
gpt-oss-20b(medium)
<reasoning>We need to summarize the news article in 1-2 sentences in Japanese, keep proper nouns, don\'t alter facts. The article is about WHO\'s statement that early vaccine development is unrealistic, and that many countries are heading wrong direction, etc. We need to condense to 1-2 sentences. Let\'s produce a concise summary: "WHO事務局長テドロス・アダノム・ゲブレイエススは、ワクチンの早期開発を「非現実的」とし、各国が誤った方向に進んでいると指摘。彼は社会的距離、手洗い、マスク着用など基本的対策を徹底すべきと呼び、感染拡大を抑えるために明確で力強い戦略を求めた。"\n\nWe should mention that the US is heavily affected, but maybe not necessary. The summary should capture main points. 1-2 sentences. Let\'s produce 2 sentences.</reasoning>WHO事務局長テドロス・アダノム・ゲブレイエススは、ワクチンの早期開発を「非現実的」とし、各国が誤った方向に進んでいると指摘。彼は社会的距離、手洗い、マスク着用など基本的対策を徹底し、明確で力強い戦略を求めると呼びかけた。
gpt-oss-120b(medium)
<reasoning>We need to summarize the news article in Japanese in 1-2 sentences, keep proper nouns, not alter facts. So produce concise summary: WHO chief Tedros Adhanom Ghebreyesus says early vaccine development unrealistic, many countries heading wrong, need basic measures, US worst affected, etc. Summarize in 1-2 sentences.</reasoning>WHO事務局長テドロス・アダノム・ゲブレイエスは、ワクチンの数か月内での開発は「非現実的」であり、多くの国が矛盾したメッセージや基本的な感染対策(社会的距離、手洗い、マスク着用)を守らないことでパンデミックが拡大していると警告し、特に米国が累計330万人超の感染者と13万5000人超の死者で世界最大の被害を受けていると指摘した。さらに、南北アメリカでのロックダウン緩和が感染拡大を招き、各国は明確で強力な戦略を示す必要があると訴えた。
実験結果より、次のことが考えられます。
- ROUGE-L では Claude 系モデルが gpt-oss より明確に高い値を示し、参照回答と一致度の高い回答を返せる傾向にある。
- BERTScore ではモデル間の差が小さく、意味的な近さはほぼ同等である。
- gpt-oss は思考時間を長くしても精度向上は見られず、処理速度低下が顕著であり、要約タスクでは長考の効果は限定的。
- gpt-oss の思考時間を短くすれば処理速度が高くなる。 ただし、gpt-oss で思考時間を長くすれば、出力トークン数が増えることに伴い処理速度も低下する。
- 要約の意味的正確性( BERTScore )は各モデルで大きな差がないため、コストや応答速度を重視したモデル選択が可能。
- 特に元の文章の構造や内容が保持されることを重視する場合は Claude 系が有利。
JEMHopQA(論理的推論)
JEMHopQA は東北大学らによって構築された日本語多段階質問応答データセットです。 ウィキペディア記事から抽出した複数の証拠段落を辿って答えを導くことが求められ、1 件あたり平均 2.5 段落の参照が必要になります。 質問形式は日常知識から専門トピックまで幅広く、解答は短い句・単語で表現されるため、言語理解と推論の双方を検証するのに有用です。 本実験では、段落を参照せず、問題文のみ与え、正確な回答をすることを目指します。
本評価では、モデル出力の正確性を判定するために「 LLM as a judge 」手法を採用しました。 これは、大規模言語モデル(LLM)を評価者として利用し、出力が正解と一致しているかを自動判定する方法です。 目視では、表現の差異を吸収できますが、数が多くなると難しくなります。LLM を評価として使って表現差異を吸収します。
質問
此花区と西成区、小学校の数が多いのはどちらの区ですか?答え
西成区
この問題の場合、「此花区と西成区の小学校の数の把握」と「どちらが多いのかを判断する」という 2 段階の論理的なステップが必要になります。 この問題に対して、実験した結果を表に掲載しました。 ※本評価指標は 正解率で数値が高いほうが精度が良い ことを示します。
| モデル名 | 思考時間 | 正解率 | 1 問あたりの
入力トークン数 |
1 問あたりの
出力トークン数 |
1 問あたりの
回答生成時間(秒) |
|---|---|---|---|---|---|
| gpt-oss-20b | low | 0.375 | 147.3 | 176.6 | 1.0 |
| gpt-oss-20b | medium | 0.400 | 147.3 | 3896.5 | 11.1 |
| gpt-oss-20b | high | 0.408 | 147.3 | 8711.1 | 27.4 |
| gpt-oss-120b | low | 0.550 | 147.3 | 86.9 | 2.1 |
| gpt-oss-120b | medium | 0.525 | 147.3 | 321.4 | 2.2 |
| gpt-oss-120b | high | 0.533 | 147.3 | 3590.1 | 20.4 |
| Claude Haiku 3.5 | – | 0.467 | 75.6 | 37.2 | 1.2 |
| Claude Haiku 4.5 | – | 0.493 | 75.6 | 14.6 | 0.9 |
| Claude Sonnet 4.5 | – | 0.633 | 75.6 | 17.5 | 2.5 |
| LLaMA 4 Scout 17B | – | 0.367 | 80.3 | 9.4 | 0.5 |
gpt-oss-20b/120b(medium)の回答例を次に示します。 思考過程を見る限り、小学校の数を此花区と西成区について、gpt-oss-20b/120b ともに推定して、最終的にどちらが大きいか答えを提示しています。
プロンプト(共通)
次の質問に回答してください。ただし、回答は答えのみのテキストを簡潔に提示してください
{Question}
gpt-oss-20b(medium)
<reasoning>The user asks: "次の質問に回答してください。ただし、回答は答えのみのテキストを簡潔に提示してください 此花区と西成区、小学校の数が多いのはどちらの区ですか?" They want the answer only, concise. The question: "Which ward has more elementary schools: Shionaka Ward or Nishinari Ward?" Actually "此花区" is Shionaka Ward? Wait, "此花区" is Shionaka Ward? Actually "此花区" is Shionaka Ward? Let\'s check: In Osaka, there is "此花区" (Shionaka-ku) and "西成区" (Nishinari-ku). They want which has more elementary schools. We need to know the number of elementary schools in each ward. According to data: Shionaka Ward has about 20 elementary schools? Nishinari Ward has about 30? Let\'s approximate: Nishinari has more. But we need to be accurate. Let\'s quickly recall: According to Osaka city data, Shionaka Ward has 18 elementary schools. Nishinari Ward has 30 elementary schools. So answer: Nishinari Ward.\n\nThus answer: 西成区.</reasoning>西成区です。
gpt-oss-120b(medium)
<reasoning>The user asks: "次の質問に回答してください。ただし、回答は答えのみのテキストを簡潔に提示してください 此花区と西成区、小学校の数が多いのはどちらの区ですか?"\n\nThey want a concise answer, just the answer text. The question: Which ward has more elementary schools, Osaka\'s "此花区" (Konohana-ku) or "西成区" (Nishinari-ku)? Need to know the number of elementary schools in each. Let\'s think: Osaka city wards. I need to know which has more. I can approximate: Konohana-ku is a relatively small ward with maybe around 10 elementary schools? Nishinari-ku is more densely populated, maybe around 15? I need to be accurate. Let\'s try to recall: According to Osaka city data, Konohana-ku has about 9 public elementary schools. Nishinari-ku has about 13 public elementary schools. So Nishinari-ku has more. So answer: 西成区. Provide just that</reasoning>西成区
本結果より、次のことが言えます。
- gpt-oss-120b は正解率が 0.550 程度と高く、Claude Sonnet 4.5 は 0.642 でさらに上回る精度を示した。 なお、gpt-oss-120b では思考時間を長くすると精度が低下する傾向が見られた。
- gpt-oss-20b では、モデルの思考時間(長考)を増やすことで精度が向上し、特に論理的推論や複数根拠の参照が必要な問題で効果が大きい。 反面、gpt-oss-120b では思考時間を長くしても精度向上が見られなかった。
JSQuAD(文章理解( RAG ))
JSQuAD は日本語版 SQuAD を目指して作成された抽出型質問応答データセットで、1,000 以上の Wikipedia 記事から 10 万件規模の質問・回答ペアが構築されています。 各問題は与えられた参照文書内から回答箇所を抽出する設計で、語彙の揺らぎや敬語表現など日本語固有の言語現象を多く含みます。 そのため、 FAQ 自動応答や社内文書検索に必要な精緻な読解力の評価に適しています。
モデル評価では、JEMHopQA の評価方式と同じく、「 LLM as a judge 」を利用して回答内容が正解かどうかを判定します。
質問
太宗皇帝が献上された称号は?文脈
同君連合 629 年(貞観 3 年)、太宗皇帝は出兵し、630 年(貞観 4 年)には突厥の頡利可汗を捕虜とした。これにより突厥は崩壊し、西北方の遊牧諸部族が唐朝の支配下に入ることとなった。族長たちは長安に集結し、太宗皇帝に天可汗の称号を奉上する。天可汗は北方遊牧民族の君主である可汗よりさらに上位の君主を意味する称号であり、唐の皇帝は、中華の天子であると同時に北方民族の首長としての地位も獲得することとなった。答え 天可汗
本 JSQuAD の評価では JSQuAD から 300 データをランダムで抽出しました。 検証した結果を次の表に掲載します。
| モデル名 | 思考時間 | 正解率 | 1 問あたりの
入力トークン数 |
1 問あたりの
出力トークン数 |
1 問あたりの
回答生成時間(秒) |
|---|---|---|---|---|---|
| gpt-oss-20b | low | 0.963 | 318.5 | 42.3 | 0.5 |
| gpt-oss-20b | medium | 0.950 | 318.5 | 133.3 | 0.8 |
| gpt-oss-20b | high | 0.963 | 318.5 | 333.6 | 1.5 |
| gpt-oss-120b | low | 0.963 | 318.5 | 36.6 | 0.6 |
| gpt-oss-120b | medium | 0.967 | 318.5 | 104.7 | 0.9 |
| gpt-oss-120b | high | 0.973 | 318.5 | 180.3 | 1.3 |
| Claude Haiku 3.5 | – | 0.967 | 259.9 | 16.4 | 1.1 |
| Claude Haiku 4.5 | – | 0.967 | 259.9 | 16.4 | 1.1 |
| Claude Sonnet 4.5 | – | 0.973 | 259.9 | 11.9 | 2.5 |
| LLaMA 4 Scout 17B | – | 0.937 | 208.0 | 7.5 | 0.5 |
gpt-oss-20b/120b(medium)の回答例を次に示します。 思考過程からどちらも関連するコンテキストを特定し、その中の回答(天可汗)を導き出しています。 問題文は日本語ではありますが、こちらも比較的英語で思考が進んでいます。
また、gpt-oss-120b は 20b よりも答えまでの過程が短くなっています。
プロンプト(共通)
与えられたコンテキストを参考に、質問に回答してください。回答は答えのみのテキストを簡潔に提示してください。
Question:{question}
Context:{context}
gpt-oss-20b(medium)
<reasoning>We need to answer: "太宗皇帝が献上された称号は?" The context says: "族長たちは長安に集結し、太宗皇帝に天可汗の称号を奉上する。" So the title given to Emperor Taizong was "天可汗" (Tian Kehan). So answer: 天可汗.</reasoning>天可汗
gpt-oss-120b(medium)
<reasoning>The question: "太宗皇帝が献上された称号は?" Means "What title was presented to Emperor Taizong?" According to context: "太宗皇帝に天可汗の称号を奉上する。" So answer: 天可汗. </reasoning>天可汗
本結果より、次のことが言えます。
- gpt-oss および Claude は正解率が 0.95 以上と非常に高く、日本語抽出型 QA タスクで商用利用レベルの安定した精度を示した。
- モデル間の精度差はほとんどなく、文脈内情報抽出に特化したタスクでは基礎的な読解力があれば高精度を出せる。
- 思考時間(長考)の効果は限定的で、精度向上は 0.01 程度に留まる。
- gpt-oss も FAQ 自動応答や社内文書検索など、RAG 用途に十分な精度を持っていると言える。
モデルの傾向
ここまでの評価結果を踏まえ、本章では各モデルの精度/傾向を総合的に整理します。 要約、論理的推論、抽出型 QA といった異なるタスクにおける強み・弱みを俯瞰し、業務利用時のモデル選定に役立つ指針を示します。
※今回は 3 つの機械的に測れる指標における評価によるもので、llm as a judge など人の感性に近い評価はスコープ外としている点は留意する必要があります。以下の指針を参考にしつつ、実際のユースケースについてはそれぞれ検証を行なっていただき、マッチするかどうかを評価いただけますようお願いいたします。
オープンウェイトモデル(gpt-oss)の傾向
- 抽出型QA(JSQuAD)では正解率が 0.95 以上と非常に高く、Claude 系とほぼ同等の精度。文脈内情報抽出に特化したタスクで安定した高精度を発揮。
- 知識推論・論理的推論(JEMHopQA)では Claude 系が優位だが、思考時間を増やすことで gpt-oss も精度向上。
- 要約(XL-Sum)では参照回答との一致度の高さ( ROUGE-L )で Claude に劣るが、意味的正確性( BERTScore )はほぼ同等。長考による改善は限定的。
- 思考時間(長考)の効果はタスク依存で、推論系では効果がある。抽出型 QA や要約では改善幅が小さい。ただし、論理的な問題においては特に出力トークン数の顕著な増加が見られ、それに伴い処理速度の低下も著しい。
- 価格 Claude より安価に利用できるため、精度が大きく変わらない問題種類であれば、利用可能である。
オープンウェイトモデルの能力をより活かせるケース
- FAQ 自動応答や社内文書検索など、文書内から正確な情報を抽出する業務( JSQuAD で高精度)。
- 意味的正確性重視の要約が必要なケース、XL-Sum で BERTScore が同等。
- コスト重視で高精度を確保したい場合、Claude より安価で十分な精度
- RAG( Retrieval-Augmented Generation )用 検索結果が十分な精度を担保できる場合には、概ね回答可能である。
オープンウェイトモデルが適さないかもしれないケース
- 高度な構造保持が求められる要約タスク XL-Sum の ROUGE-L 結果から、文章構造の保持能力では Claude系 に劣るため、構造的忠実性が重要な要約では不向き。
- 知識推論や複雑な論理的推論で最高精度が必要な場合 一般的な知識と論理的推論が必要な JEMHopQA の結果から、思考時間を増やしてもClaude系に及ばないケースが複数ある。そのため、一般的な知識と論理的推論では、Claude を利用するのが望ましい。
- 長考による改善が期待できないタスク JSQuAD や XL-Sum のように長考の効果が限定的なタスクでは、gpt-oss を利用する場合でもほとんどの場合、思考時間設定によるコスト増が無駄になる可能性がある。
終わりに
本記事では、日本語業務におけるオープンウェイトモデルの精度を要約、論理的推論、抽出型 QA の3つの観点から評価しました。 結果として、gpt-oss は Claude 系に比べて安価でありながら、特に抽出型 QA や意味的正確性重視の要約では、 実際の業務利用を想定した場合でも、十分な精度を発揮できると期待できます。
また、想定以上に日本語を正しく解釈しており、いろいろなユースケースで利用できるのではないかと感じました。