Claude Skills の先へ：オープンインフラ SkillNet

Claude Skills の登場により、エージェントに渡したい手順や前提条件を SKILL.md のような小さなファイルに書き残す運用が広がってきました。こうしてスキルを書く文化はすでに多くの開発者の日常となっており、個人が、自分の使うエージェント向けにスキルを書ける時代 が到来しています。
一方で、こうして書かれたスキルをチーム開発のなかで共有したり、他人が作ったスキルを自分の開発の枠組みに積極的に取り込んだりしている人は、まだ多くないのではないでしょうか。

多くの場合、スキルは特定のリポジトリのなかに閉じたままであり、他のエージェントや別のプロジェクトに渡ることなく散在しています。また、セキュリティ上の問題もあって「どれが信頼できるスキルか」を判断する仕組みが必要となっていますが、その整備はあまり進んでいません。

書いた本人の手を離れて、スキルを集合的な資産として蓄積していけるのでしょうか。この問いに答えるべく、オープンなインフラとして設計されたのが、本記事で紹介する SkillNet です。

紹介する論文

項目	内容
論文名	SkillNet: Create, Evaluate, and Connect AI Skills
公開年	2026 年
URL	https://arxiv.org/abs/2603.04448

本記事の要約

個人が書いたエージェントスキルを、集団で再利用できる共有資産へと育てるためのオープンインフラ SkillNet を提案した論文。これによりエージェントは、より高い成績で、より少ない手数でタスクを解けるようになる。

ポイント

新しい視点：
Claude Skills のような「個人がスキルを書く」段階から、書かれたスキルを集めて品質を見極め、互いに関係づけて再利用する段階へと、設計の重心を移したインフラを提案している点が特徴です。
提案手法：
スキルを「種類で分ける／互いの関係でつなぐ／用途別にまとめる」という 3 段階で整理し、あわせて各スキルの品質を 安全性・完全性・実行可能性・保守性・コスト の 5 観点から自動採点する仕組みを設けています。さらに、実行ログや GitHub などの素材から自動でスキルを生成・選別するパイプラインも構築しています。
実験結果：
家庭内タスク（ALFWorld）、オンラインショッピング（WebShop）、科学実験（ScienceWorld）という 3 種類のシミュレーション環境で、代表的な LLM（DeepSeek V3.2、Gemini 2.5 Pro、o4 Mini）をバックボーンに据えて評価。標準的なエージェント手法（ReAct）と比べてタスク成績は明らかに向上し、タスク完了までの行動回数も大きく減ることが確認されました。

1. 1. はじめに
2. 2. エージェントスキルと「2 つの欠落」
- 2.1. 2.1. エージェントスキルとは何か
- 2.2. 2.2. 「集めるだけ」では起きる 2 つの欠落
  - 2.2.1. 断片化という課題：素材は無数にあるのに、スキルとしてまとまってこない
  - 2.2.2. 汚染という課題：規模が増えるほど信頼性が崩れる
3. 3. SkillNet：スキルを集める (Create)・測る (Evaluate)・つなぐ (Connect)
4. 4. 実験：SkillNet は本当に有効か
- 4.1. 4.1. 実験設定
  - 4.1.1. 評価環境
  - 4.1.2. ベースライン手法
- 4.2. 4.2. 結果：成績は上がり、手数は減る
5. 5. おわりに
6. 参照 URL

1. はじめに

↑

　大規模言語モデル（LLM: Large Language Model）の進歩とともに、AI エージェントは「単発の質問応答」から「複数のステップを連ねて長期的なタスクをやり切る実行体」へと役割を変えつつあります。
タスクが長く複雑になるほど、その都度プロンプトで指示するのではなく、手順・前提条件・制約をエージェントにあらかじめ渡しておく 仕組みが欠かせません。これを担う代表的なインターフェースが、Anthropic の Claude Skills をはじめとする「スキル」です。
SKILL.md という小さな単位に手順・コマンド・前提条件をまとめておけば、エージェントは必要に応じてそれを発見し、起動し、実行できます。スキルは、エージェントの能力を 「外から付け足せるモジュール」 として扱うための共通フォーマットになりつつあります。

ところが、「個人がスキルを書ける」段階には達しているものの、スキルを外部から取り入れたり他人と共有したりするところまでは進んでいません。というより、自然にはそう発展していかない事情があります。

その事情は、大きく分けて次の 2 つに整理できます。

断片化：実行ログ、GitHub のスニペット、ドキュメント、社内 wiki ── スキルの素材になりうるものは至るところに散らばっているのに、それらを自動的にスキルとして蒸留し、共通フォーマットへそろえる仕組みがほとんど整っていません。素材があっても、スキルとして集まってこないのです。
汚染：スキルが大量に集まると、今度は品質保証の欠落が直接効いてきます。安全でないスキルや未完成のスキル、コストの過大なスキルが、信頼できるスキルと並んでリポジトリに置かれてしまうため、「どれを使うべきか」を判断できないままになってしまいます。

言い換えれば、書くところまでは個人レベルで完結できても、それを 集める (Create)・測る (Evaluate)・つなぐ (Connect) には別のレイヤがどうしても必要となります。SkillNet は、このレイヤを担うオープンなインフラとして設計されました。

まずは SkillNet の具体に入る前に、話の中心である「エージェントスキル」の定義を押さえたうえで、いま挙げた 2 つの障害を改めて掘り下げていきます。

2. エージェントスキルと「2 つの欠落」

↑

2.1. エージェントスキルとは何か

↑

　Claude Skills について、その内容と少し踏み込んだ定式化をしてみます。

スキルとは、エージェントの能力を拡張するための、軽量で再利用可能なモジュールです。実体は中心となる SKILL.md ファイルを含む構造化されたフォルダで、SKILL.md にはメタデータと詳細な指示が書かれます。これに加えて、スキルが必要とするスクリプトやテンプレート、ドキュメントなどを同梱できます。

形式的には、スキル $s$ は次の 3 要素の組として書けます。

$$
s = (m,\ I,\ R)
$$

ここで、

$m$：メタデータ（スキル名・目的の簡潔な記述・利用条件など）
$I$：指示（実行手順を逐次的に示したもの）
$R$：リソース（同梱されるスクリプト・テンプレート・補助ドキュメント。空でもよい）

の 3 要素です。SKILL.md の中に $m$ と $I$ がまとめて書かれ、$R$ は同じフォルダに並ぶ補助ファイルとして置かれる、という対応関係になります。この $(m, I, R)$ という構造により、スキルは「自然言語による指示」と「機械が実行できるロジック」をひとまとまりに保持できます。

スキルは、エージェントとのやり取りのなかで次の 3 段階を経て使われます。

スキルが使われる 3 段階

Step 1. Discovery（発見） 関連スキルの把握

最小限のメタデータ $m$（名前と説明）だけを読み込み、現在のタスクに関連しそうなスキルを把握します。

Step 2. Activation（起動） 指示とリソースの展開

タスクがスキルの説明と合致したと判断されたとき、そのスキルの指示 $I$（SKILL.md の本文）を読み込み、関連リソース $R$ を準備します。

Step 3. Execution（実行） タスクの完了

指示 $I$ に従い、$R$ のコードや参照資料を必要に応じて利用しながら、タスクを完了します。

この段階構造により、エージェントは大量のスキルを一度に読み込むことなく（コンテキストを必要以上に圧迫することなく）、そのときに必要なスキルだけ を呼び出して使えます。

Note：Claude Skills との関係
本論文で言う「スキル」は、Anthropic の Claude Skills と同じアーキテクチャ原理（フォルダ＋SKILL.md＋同梱リソース）に基づいています。ただし本論文で注目するのは、個々のスキルそのものではなく、それらを集めて、評価し、相互に結び付けるための上位レイヤーである SkillNet のほうです。Claude Skills のような既存のフォーマットも、SkillNet が扱う入力形式の一つとして自然に取り込めます。

2.2. 「集めるだけ」では起きる 2 つの欠落

↑

　次に、「1. はじめに」でも述べた 断片化 と汚染という 2 つの課題について見ていきます。

断片化という課題：素材は無数にあるのに、スキルとしてまとまってこない

スキルの素材となりうる情報は、身近なさまざまな場所に散在しています。たとえば、エージェントの実行履歴や GitHub のリポジトリ、PDF や Word といった社内ドキュメント、論文やブログ記事などには、価値ある 手続き的知識 が数多く含まれています。しかし、こうした情報を自動的にスキルの単位（$(m, I, R)$）にまとめあげ、共通フォーマットにそろえる仕組みは、現時点ではほとんど整っていません。

その結果、エージェントは毎回 「車輪の再発明」 を繰り返すことになります。うまく書かれたスキルが他のチームへ自然に伝播することも、過去の実行記録から得られた経験則が蓄積していくこともありません。

汚染という課題：規模が増えるほど信頼性が崩れる

仮に大量のスキルを集められたとしても、今度は 品質保証 という別の問題が立ち上がります。スキルの良し悪しを測る適切な物差しがなければ、リポジトリには次のようなスキルが混在するリスクがあります。

危険な操作（許可なしのファイル削除など）を含むスキル
必要な前提条件・手順を欠いた未完成のスキル
存在しないツールを呼び出すような幻覚を含むスキル
過剰な API 課金や長い遅延を引き起こすスキル

つまり、欲しいのは単に 「スキルを大量に集める」だけ の仕組みではなく、集める前と集めた後にそれぞれ品質を測れる仕組み だということが見えてきます。
この仕組みをインフラとして整理した SkillNet の全体像を、次節から見ていきましょう。

3. SkillNet：スキルを集める (Create)・測る (Evaluate)・つなぐ (Connect)

↑

　SkillNet は、断片化 と汚染という 2 つの欠落を解くべく、次の 4 つのモジュールを組み合わせたインフラとして設計されています（図１）。

1. スキル作成（Skill Creation）：実行軌跡・GitHub リポジトリ・文書・自然言語プロンプトといった多様なソースから、自動的にスキルを生成する。断片化 に対応するモジュール。

2. スキル評価（Skill Evaluation）：安全性・完全性・実行可能性・保守性・コストの 5 軸でスキルの品質を測り、低品質なものを除外する。汚染に対応するモジュール。

3. スキル分析（Skill Analysis）：スキル間の関係を自動的に発見し、類似・依存・合成といったエッジを持つ スキル間ネットワーク を構築する。これによりスキルを単独の道具としてではなく、互いにつながった構造として扱えるようになる。

4. オープンリソース（Open Resources）：以上を土台として、20 万件超のスキルリポジトリ、Web インターフェース、API、Python ツールキット（skillnet-ai）を公開する。他のエージェントや他のプロジェクトから利用できるようにする層。

図１：SkillNet のエンドツーエンドパイプライン

多様な入力（実行軌跡、GitHub、文書、自然言語プロンプト）から自動的にスキルを生成し、多次元評価で選別したのち、スキル間の関係をグラフとして整理する。それらをオープンリソース（Web、API、Python ツールキット）として外部へ提供する。

以下では、まず SkillNet の技術的な核心となる 3 層オントロジー（つなぐ／Connect）と 5 軸評価（測る／Evaluate）を順に掘り下げ、最後にそれらを駆動する作成パイプラインと公開リソース（集める／Create・配る）を見ていきます。

3.1. スキルオントロジー：3 層で「接続」する

↑

　SkillNet がスキルを「単独のツール」ではなく「ネットワーク」として扱うための土台が、スキルオントロジー (Skill Ontology) です。これは上層・中層・下層の 3 層で構成されています（図２）。

図２：SkillNet のスキルオントロジー

上層（スキル分類体系）はスキルを機能ごとに分類し、中層（スキル間ネットワーク）は具体的なスキル実体の間に類似・依存・合成などの関係を張り、下層（スキルパッケージライブラリ）はスキルを用途別のまとまりへ束ねる。

スキルオントロジー：3 層構造

上層:スキル分類体系（Skill Taxonomy） スキルを分類する

スキルを 2 段の階層 で整理する分類層で、スキルを探すときの「索引」にあたります。第 1 段は 10 個の固定カテゴリ、第 2 段は各カテゴリの下に 動的に追加されていく詳細タグ で構成されます。

`Development`：開発	`AIGC`：AI 生成コンテンツ
`Research`：研究	`Science`：科学
`Business`：ビジネス	`Testing`：テスト
`Productivity`：生産性	`Security`：セキュリティ
`Lifestyle`：ライフスタイル	`Other`：その他

詳細タグの例:

frontend（フロントエンド）　←　Development（開発）
llm（LLM）　←　AIGC（AI 生成コンテンツ）
physics（物理）　←　Science（科学）

中層:スキル間ネットワーク（Skill Relation Graph） スキルの関係を張る

抽象的なタグを具体的なスキル実体（例：Matplotlib、Playwright）として実体化し、それらの間に 意味的・機能的な関係 を張る層です。SkillNet が「ネットワーク」を名乗るゆえんであり、グラフ理論の言葉で書けば次のような 有向で型付きの多関係グラフ $G$ になります。

$$
G = (V,\ E),\quad E \subseteq V \times V \times T
$$

ここで $V$ は「スキル集合」、$T$ は「スキル間（エッジ）の関係の集合」です。論文では $T$ として次の 4 種類が定義されています。

エッジ型	意味	例
`similar_to`	2 つのスキルが機能的に等価で、互いに置き換えて使える	`matplotlib` ↔ `seaborn`
`belong_to`	あるスキルが、より大きなスキル（ワークフロー）のサブステップとして含まれる	データ正規化 → データ前処理
`compose_with`	あるスキルの出力を別のスキルが入力として消費する。データフロー型のパイプライン合成	スクレイピングの結果 → 解析
`depend_on`	あるスキルを使う前に、別のスキルで環境構築や API 初期化などの前提準備を済ませる必要がある	API 呼び出し ← API 認証の初期化

表 1：スキル間ネットワークで定義される 4 種類のエッジ

このグラフがあることで、「似たスキルを探す」（similar_to エッジをたどる）・「あるスキルを使うのに何が必要か調べる」（depend_on エッジをさかのぼる）・「複数のスキルを組み合わせて新しいワークフローを作る」（compose_with エッジで連結する）といった操作を、すべてグラフ $G$ 上の探索として機械的に扱えるようになります。

下層:スキルパッケージライブラリ（Skill Package Library） スキルを束ねる

個々のスキルを 「用途別のまとまり」 として束ねる層です。たとえば data-science-visualization というパッケージには、matplotlib・seaborn・pandas といったスキルが packaged_in 関係でまとめて入っています。配布・バージョン管理・インストールといった、実用上の取り扱いを支える層 だといえます。

Note：オントロジーは静的ではなく、自動で育つ
このオントロジーは静的なものではなく、新しいタグの追加と LLM による関係推論を通じて常に拡張されていきます。たとえば新しく seaborn というスキルが追加されると、LLM が「これは可視化ライブラリで、既存の matplotlib と互いに置き換えうる」と推論し、similar_to エッジを自動的に張る、といった具合です。

3.2. 多次元評価フレームワーク：「汚染」を防ぐ 5 軸

↑

　スキルを「つなぐ」ことができても、個々のスキルの品質が崩れていればネットワーク全体が信頼できなくなってしまいます。この汚染の課題に直接答えるのが、SkillNet の 5 軸の多次元評価 です。

5 つの観点

各スキル $s$ について、次の 5 つの観点で軸ごとに $\{Good, Average, Poor\}$ の 3 値を付け、全体としてスキルの品質を表す 品質ベクトル

$$
q(s) \in \{Good,\ Average,\ Poor\}^5
$$

を得ます。以降、この $q(s)$ が SkillNet 内でスキルの品質を表す共通の単位となります。

観点	何を測るか	スコアが下がる例
安全性	危険な操作や敵対的入力への耐性	許可なしのファイル削除、プロンプトインジェクションに弱い
完全性	必要な手順・前提・依存の網羅	重要な前提条件が記述から抜けている
実行可能性	サンドボックス上で実際に動くか	存在しないツールを呼び出そうとする
保守性	モジュール性・後方互換性の確保	他スキルと共有する状態を暗黙に書き換える
コスト	実行オーバーヘッド（時間・計算・課金）	過剰な API 課金や長い遅延を引き起こす

5 軸をどう採点するか

SkillNet が扱うスキルは 20 万件以上にのぼります。これらをすべて人手で確認して採点するのは現実的ではありません。そこで SkillNet では、あらかじめ用意した採点基準（「こういう場合は Good、こういう場合は Average や Poor」という細かいチェックポイント）にもとづき、LLM が自動で採点を行います。なお「実行可能性」については、実際にサンドボックス上でスキルを動かしてみて、正しく動作するかを確認します。

Note：LLM 評価器は信頼できるのか？
SkillNet では LLM による自動採点の信頼性を確かめるため、ランダムに選んだ 200 件のスキルを博士号水準のアノテータ 3 名が人手で採点し、LLM 採点と軸ごとに突き合わせました。その結果、いずれの軸でも人間の判定とほぼ完全に一致することが確認されています。

3.3. スキル作成と関係発見

↑

　SkillNet では、「4 つの入力経路 → 5 段階の厳選プロセス → 関係づけ」という流れに沿って、外部の素材からスキルを自動で取り込みます。

まず入力源として、SkillNet の作成パイプラインは次の 4 種類を扱います。

実行軌跡や会話形式の対話ログ
オープンソースの GitHub リポジトリ
PDF・PowerPoint・Word などの半構造化文書
ユーザが直接与える自然言語プロンプト

このパイプラインは Python ツールキット skillnet-ai を介してユーザ自身も利用でき、抽出処理を担う LLM は好みのモデルに差し替えることもできます。加えて、SkillNet 運営側でも、インターネット上の公開資源・自社開発・コミュニティからの投稿を通じてスキルプールを継続的に拡張しています。

ここから組み立てた $(m, I, R)$ は、重複排除 → 選別 → 分類とタグ付け → 多次元評価 → 最終的な選別・集約 という 5 段階のキュレーションを経てリポジトリに収録されます。評価の段階では前節の 5 軸で品質ベクトル $q(s)$ を算出し、低品質と判断されたスキルはここでふるい落とされます。

収録の判定が済んだあとは別工程として 関係付け が走ります。具体的には、まず各スキルの説明文を意味の近さを表す数値ベクトル（意味埋め込み）に変換し、そのベクトル類似度で関係候補を粗く絞り込みます。そのうえで LLM が「実際にどの種類の関係か」を推論する、というハイブリッドな仕組みです。これにより、新しいスキル $v$ が既存ノード $V$ に対してどの型 $T$ のエッジで結ばれるかが判別され、スキル間ネットワーク $G = (V, E)$ に自動で追加されていきます。こうしてネットワークは時間とともに豊かになります。

3.4. 外部から使う：`skillnet-ai` と公開リソース

↑

　SkillNet では、ここまでの仕組みを外部から呼び出せるよう、次の 4 つの公開リソースが提供されています。

大規模スキルリポジトリ：20 万件以上の候補からふるいにかけて厳選した、約 15 万件のスキルを収録しています。
Web インターフェース：スキルの閲覧・検索・ダウンロードはもちろん、コミュニティからの投稿や共有も行えます。
オープン API：キーワード検索とベクトル検索の両方に対応しています。
Python ツールキット skillnet-ai：CLI・ライブラリのいずれのモードからも、検索・ダウンロード・新規作成・評価・分析をまとめて扱えます。

ライブラリとして使う場合の基本操作は、次のように書けます（論文 Figure 5 より）。

skillnet_example.py

# 初期化
from skillnet_ai import SkillNetClient
client = SkillNetClient(api_key="sk-...")

# スキル検索とダウンロード
skills = client.search("bioinformatics pipeline")
client.download(skills[0].skill_url, target_dir="./my_skills")

# 新規スキル作成
client.create(trajectory_log, output_dir="./my_skills")

# スキル品質の評価
client.evaluate("./my_skills/biopython")

# スキル間関係の分析
client.analyze("./my_skills")

検索・ダウンロード・作成・評価・分析 という一連の操作が、本章で見てきた 接続（オントロジー）・採点（5 軸評価）・取り込み（パイプライン） をそのまま外部に開いたインターフェースになっていることが分かります。
SkillNet は「論文内だけの仕組み」ではなく、外部のエージェントや各種パイプラインから日常的に利用できる 基盤インフラ として提供されている点が大きな特長です。

4. 実験：SkillNet は本当に有効か

↑

　ここまで SkillNet の設計を見てきましたが、肝心なのは エージェントが実際に賢くなるのか という点です。そこで論文では、3 つのシミュレーション環境を対象に定量的な検証が行われています。

4.1. 実験設定

↑

評価環境

実験では、次の 3 つのテキストベースのシミュレーション環境を使います。いずれも観測情報にノイズや欠損が含まれており、エージェントは行動の際に履歴を参考にしながら「いま見えていないものは何か」を推測する必要があります。

ALFWorld：家の中を巡りながら物を動かす、テキストベースの操作環境です。たとえば「リビングのテーブルにある本を寝室の机に運ぶ」といった日常的なタスクが題材になっており、エージェントは複数の部屋を探索して目的の物を見つけ、適切な手順で操作を行います。身体性を伴う行動計画 が要求される点が特徴です。
WebShop：Amazon から取得した実際の商品データをもとにした、仮想のオンラインショッピング環境です。「赤い T シャツ・予算 30 ドル・サイズ M」といった自然言語の指示に対して、検索 → 絞り込み → 比較 → 購入という一連の操作を Web ページ上で実行します。Web 操作と意思決定の組み合わせ が問われるタスクです。
ScienceWorld：小学生レベルの理科実験を題材にした、テキストベースのシミュレータです。「水の沸点を測る」「植物の光合成を観察する」といった課題に対し、エージェントが実験器具を扱い、物質を混合して観察や記録を行います。複数ステップにわたる手続き的な推論 が求められる環境です。

これら 3 環境を対象に、SkillNet がモデル容量によらず効くか を見るため、次の 3 つの代表的な LLM をバックボーンとして切り替えながら評価しています。

DeepSeek V3.2
Gemini 2.5 Pro
o4 Mini（小型モデル）

ベースライン手法

ベースラインとして以下を採用します。いずれも、エージェントに「過去の事例をどう与えるか」が異なります。

ReAct：過去の事例は一切与えないまま、「推論 → 行動 → 観測」を順番に繰り返しながら一手ずつ進めていく基本的な手法です。たとえば WebShop で「赤い T シャツを購入せよ」というタスクが出された場合、「思考 → 検索実行 → 結果確認 → 次の思考…」という流れで段階的に作業を進めていきます。
Few-Shot：典型的な Few-Shot プロンプティングです。お手本となる解き方を 1 本まるごと文脈内事例として与えます。

これに対して SkillNet を組み込んだエージェントでは、ETO（Exploration-based Trajectory Optimization） という既存研究の成果を素材として用います。ETO は エージェントを試行錯誤で訓練し、熟練の解き方を蓄積する手法 であり、今回の 3 環境（ALFWorld・WebShop・ScienceWorld）に対しても高品質なお手本を残しています。

SkillNet 組み込みエージェントは、この ETO のお手本を素材として、各ベンチマーク向けの スキル集合 をあらかじめ合成しておきます。評価時にはエージェントが状況に応じて 必要なスキルだけを動的に選択・起動・実行 します。

Few-Shot が お手本を丸ごと 見せるのに対し、SkillNet は 手続き的にまとめられたスキル単位 で渡す、という点が大きな違いです。

4.2. 結果：成績は上がり、手数は減る

↑

　結果に入る前に、論文で用いられる 2 つの評価指標を整理しておきます。

平均報酬：エージェントがどれだけタスクを達成できたかを表すスコアです（高いほど良い）。いずれの環境も 0〜100 の範囲で扱われますが、「達成」の定義は環境ごとに異なります。
- ALFWorld：「目的の物を正しく運べたか」を 成功率 で評価します。各タスクは 0 か 1 で判定され、複数タスクをもとに集計されます。
- WebShop：購入結果が指示内容にどれだけ合致したかを、種類・色・サイズ・価格などの 属性の一致度 にもとづき 0〜100 点のスコアで評価します。
- ScienceWorld：実験タスクで達成すべき細かな手順（例：「水を入れる」「コンロに置く」「沸点を測る」など）の サブゴール達成度 を合計してスコア化します。
平均ステップ数：タスクを完了するまでにエージェントが踏んだ 行動の回数 の平均です（少ないほど良い）。1 ステップは「思考 → 行動 → 観測」の 1 サイクルにあたります。

図４は、3 環境 × 各手法（ReAct・Few-Shot・SkillNet）の 平均報酬（上段） と 平均ステップ数（下段） を並べて比較したグラフです。

図４：SkillNet と各ベースラインの性能比較

3 つの環境（ALFWorld・WebShop・ScienceWorld）で、各手法の平均報酬（上段）と平均ステップ数（下段）を比較したもの。SkillNet はどの環境でも報酬を引き上げると同時に、ステップ数も減らしている。

ReAct ベースラインと比べると、SkillNet を組み込んだエージェントは タスク成績（平均報酬）が平均で 40% 向上 し、同時に タスク完了までの行動回数が平均で 30% 削減 されています。

ここで重要なのは、報酬の向上に加えて 行動回数も同時に減っている という事実です。これは SkillNet が単に「正解にたどり着く確率」を上げるだけでなく、より短く首尾一貫した行動軌跡 で同じタスクを解けるようにしていることを意味します。SkillNet があらかじめ「この状況ではこのスキル」という構造化された手続き的知識を与えることで、エージェントの試行錯誤が削減される、と解釈できます。

つまり SkillNet は、「スキル」というかたちで知識を切り出して蓄積し、モデル自体とは切り離して何度でも使い回せるようにする仕組みである、ということが、数値の上でもはっきり示されています。