Ryota Shimizu Profile

NLP2026学会にてポスター発表を実施。
大規模言語モデル（LLM）を用いたAIエージェントのツール呼び出し性能評価に対応したベンチマークデータセット「JMultiWOZ-TC」を構築し、複数のLLMにおけるツール呼び出し性能の比較分析を実施しました。本研究では、日本語でのツール呼び出し性能評価に対応したベンチマークデータセット「JMultiWOZ-TC」を構築しました。

役割

主著者・研究の実施

研究の背景・目的

大規模言語モデル（LLM）を用いたAIエージェントは、外部ツールを呼び出すことで、より複雑なタスクを遂行することができます。しかし、ツール呼び出しの性能を評価するための日本語のベンチマークデータセットが不足しているという課題がありました。
そこで本研究では、既存の日本語マルチドメイン指向型対話データセット「JMultiWOZ」を元に、「JMultiWOZ-TC」というベンチマークデータセットを構築しました。

主な貢献

① マルチドメインタスク指向型対話のデータセットであるJMultiWOZをAIエージェントのツール呼び出し評価に適した形に再構成したJMultiWOZ-TC（Japanese Multi-Domain Wizard-of-Oz Tool Call）を構築。
② JMultiWOZ-TCを用いて、既存のLLMにおけるツール呼び出しの生成正答率を評価し、ベンチマーク結果を提示。

成果・データセット規模

日本語マルチドメインタスク指向型対話データセットであるJMultiWOZをAIエージェントのツール呼び出し評価に適した形式に再構成したJMultiWOZ-TCを構築しました。
合計4,246対話に含まれるユーザ発話31,303発話に対して、16,510個のツール呼び出しの評価データを構築し、複数のLLMにおけるツール呼び出し性能の比較分析を実施しました。

JMultiWOZ-TC: AIエージェントのためのツール呼び出し評価データセットの構築

役割

研究の背景・目的

主な貢献

成果・データセット規模