NLP2026学会にてポスター発表を実施。
大規模言語モデル(LLM)を用いたAIエージェントのツール呼び出し性能評価に対応したベンチマークデータセット「JMultiWOZ-TC」を構築し、複数のLLMにおけるツール呼び出し性能の比較分析を実施しました。 本研究では、日本語でのツール呼び出し性能評価に対応したベンチマークデータセット「JMultiWOZ-TC」を構築しました。

主著者・研究の実施

大規模言語モデル(LLM)を用いたAIエージェントは、外部ツールを呼び出すことで、より複雑なタスクを遂行することができます。しかし、ツール呼び出しの性能を評価するための日本語のベンチマークデータセットが不足しているという課題がありました。
そこで本研究では、既存の日本語マルチドメイン指向型対話データセット「JMultiWOZ」を元に、「JMultiWOZ-TC」というベンチマークデータセットを構築しました。

① マルチドメインタスク指向型対話のデータセットであるJMultiWOZをAIエージェントのツール呼び出し評価に適した形に再構成したJMultiWOZ-TC(Japanese Multi-Domain Wizard-of-Oz Tool Call)を構築。
② JMultiWOZ-TCを用いて、既存のLLMにおけるツール呼び出しの生成正答率を評価し、ベンチマーク結果を提示。

日本語マルチドメインタスク指向型対話データセットであるJMultiWOZをAIエージェントのツール呼び出し評価に適した形式に再構成したJMultiWOZ-TCを構築しました。
合計4,246対話に含まれるユーザ発話31,303発話に対して、16,510個のツール呼び出しの評価データを構築し、複数のLLMにおけるツール呼び出し性能の比較分析を実施しました。