2足歩行ロボットの制御を実現するための機械学習ベーの制御理論

Published: Dec. 2, 2025, 6:47 a.m. UTC / Updated: Dec. 2, 2025, 6:49 a.m. UTC

日本語

Executive Summary

概要

本資料は、2足歩行ロボットの制御を実現するための機械学習ベース階層制御理論について、軌道計画層・姿勢制御層・低レベル層の3層構造を中心に体系的に解説する。剛体力学と人体歩行モデルの知識を前提とし、各層における最適化問題の定式化、機械学習手法の適用、および実装上の検証手法までを包括的に提示する。

主要な構成と内容

3層階層制御アーキテクチャ

本資料の核心は、複雑な2足歩行制御問題を時間スケールと抽象度に応じて3層に分解する階層的アプローチである：

軌道計画層（High-Level, 100-500ms周期）

役割：歩行周期全体の参照軌道生成と歩容パターンの決定
機械学習手法：深層強化学習（PPO, SAC等）による軌道最適化
最適化問題：エネルギー効率、移動速度、安定性余裕を統合した多目的最適化
決定変数：関節角度軌道パラメータ、足配置計画、重心軌道

姿勢制御層（Mid-Level, 10-50ms周期）

役割：動的バランス維持とZMP/Capture Point制御
機械学習手法：モデル予測制御（MPC）とニューラルネットワークの融合
最適化問題：追従誤差最小化と動的安定性制約下での関節トルク最適化
決定変数：補正トルク指令、接触力分配、姿勢補正量

低レベル層（Low-Level, 1-5ms周期）

役割：関節レベルのトルク制御とアクチュエータ駆動
機械学習手法：適応制御とニューラルネットワークによる非線形補償
最適化問題：トルク追従誤差最小化とモデル誤差補償
決定変数：モータ電圧/電流指令値

最適化問題の体系的定式化

各層の最適化問題は以下の統一的枠組みで定式化される：

軌道計画層の最適化問題：

min J_traj = ∫[L_energy(τ) + L_stability(ZMP) + L_tracking(q_ref)] dt
subject to: 運動学的制約、ZMP安定性条件、関節限界

姿勢制御層の最適化問題：

min J_posture = Σ[||q - q_ref||² + λ||τ||² + μ||F_contact||²]
subject to: 動力学方程式、摩擦錐制約、トルク限界

低レベル層の最適化問題：

min J_low = ||τ_actual - τ_desired||² + α||u||²
subject to: モータ電圧/電流制約、速度制限

各層の目的関数には、タスク達成項、制約違反ペナルティ項、エネルギー効率項が含まれ、重み係数により優先度が調整される。

機械学習手法の選択基準と理論的優位性

従来のモデルベース制御と比較した機械学習手法の本質的優位性：

高次元非線形システムへの適応性 ：20-40自由度の人間型ロボットにおいて、解析的制御則の導出が困難な問題を、データ駆動的に解決
モデル誤差への頑健性 ：理想的剛体モデルと実機の差異（摩擦、弾性、バックラッシュ）を学習により吸収
環境適応能力 ：不整地、階段、外乱などの多様な条件への汎化性能を転移学習で実現
計算効率 ：訓練済みニューラルネットワークの推論時間は数ms以下で、リアルタイム制御要求を満たす

具体的な機械学習アルゴリズムの選択基準として、サンプル効率、安定性保証、計算コストのトレードオフが提示される。

層間情報伝播と相互作用メカニズム

3層間の情報フローは双方向性を持つ：

下方向（指令伝達）：
軌道計画層 → 参照軌道 → 姿勢制御層 → トルク指令 → 低レベル層 → モータ駆動

上方向（フィードバック）：
センサ情報 → 低レベル層 → 状態推定 → 姿勢制御層 → 誤差評価 → 軌道計画層 → 軌道修正

時間スケール分離原理により、各層は上位層の出力を「ゆっくり変化するパラメータ」として扱い、準独立な最適化が可能となる。この階層的分解により、全体の計算複雑度がO(n³T)からO(n²T)程度に削減される。

計算実現可能性と収束性保証

実時間制御実現のための重要条件：

計算時間制約：

軌道計画層：< 50-200ms（制御周期の40-50%以内）
姿勢制御層：< 5-20ms（制御周期の50%以内）
低レベル層：< 0.5-2ms（制御周期の50%以内）

収束性保証条件：

強化学習：方策勾配法の単調改善性（TRPO, PPO）
MPCベース制御：リアプノフ安定性条件の満足
適応制御：パラメータ更新則の有界性保証

GPU/TPU活用、モデル圧縮（量子化、枝刈り）、並列計算により、上記制約を満たす実装が可能であることが示される。

検証と性能評価の枠組み

V字モデルに基づく4段階検証プロセス：

コンポーネント試験 ：各層のニューラルネットワーク単体性能評価
層単体試験 ：各層の最適化問題解決能力検証
階層間インターフェース試験 ：層間情報伝達の整合性確認
システム統合試験 ：全体としての歩行性能評価

性能指標として、歩行速度、エネルギー効率（Cost of Transport）、安定性余裕（ZMPマージン）、外乱回復能力、地形適応性が定量的に評価される。

主要な結論

階層分解の有効性 ：3層構造により、複雑な制御問題が管理可能な部分問題に分割され、各層で独立した最適化が可能
機械学習の優位性 ：高次元非線形性、モデル誤差、環境多様性への対応において、従来手法を上回る性能を実現
構造的明確性の重要性 ：層間の役割分担と情報フローの明示化が、システム設計・実装・デバッグの効率化に貢献
実装可能性の確保 ：計算制約と収束性保証を考慮した設計により、リアルタイム制御が実現可能

推奨事項

短期的実装戦略

シミュレーション環境での徹底的検証 ：MuJoCo, PyBullet等の物理シミュレータで各層を個別に訓練・評価
段階的実機移行 ：低リスク環境（平地、低速）から高難度環境（不整地、高速）へ段階的に展開
安全機構の組み込み ：緊急停止、フォールバック制御、異常検知システムの実装

中長期的研究開発方向性

統合最適化の探求 ：3層を統合した end-to-end 学習による性能向上可能性の検討
sim-to-real転移の高度化 ：ドメインランダマイゼーション、実機データによるファインチューニング
説明可能性の向上 ：機械学習制御則の解釈可能性向上による信頼性・保守性の確保
標準化とベンチマーク ：共通評価プラットフォームの構築による研究成果の比較可能性向上

本資料は、構造的明確性を重視することで、2足歩行ロボット制御の全体像を体系的に理解できる基盤を提供する。各層の役割、最適化問題の定式化、機械学習手法の適用、実装上の考慮事項を統合的に把握することで、研究者・技術者は効果的な制御システム設計が可能となる。

問題領域の定義と階層分解の原理

2.1 二足歩行ロボット制御の本質的課題

2.1.1 問題の複雑性と多目的性

二足歩行ロボットの制御は、 高次元・非線形・動的システム における最も挑戦的な制御問題の一つである。この複雑性は以下の要因から生じる:

多自由度系の協調制御 : 人間型ロボットは通常20〜40自由度を持ち、各関節の協調が必要
接触力学の不連続性 : 足と地面の接触・離脱により状態空間が動的に変化
動的安定性の維持 : Zero Moment Point (ZMP)や Capture Point (CP)などの安定性指標の継続的管理
エネルギー効率と動作速度のトレードオフ : 最小エネルギー消費と高速移動の両立
外乱に対する頑健性 : 不整地、外力、予期せぬ障害物への適応

近年の研究により、二足歩行ロボットは製造業、医療・介護、捜索救助など多様な実世界応用が期待されているが、これらの多様なタスクを統一的に扱えるフレームワークの開発は依然として重要な課題であるDeep Reinforcement Learning for Robotic Bipedal Locomotion。

2.1.2 制御問題の階層的性質

二足歩行の制御問題は、 時間スケール と 抽象度 の観点から自然に階層構造を形成する:

時間スケール：   秒〜分単位         0.1〜1秒単位        ミリ秒単位
抽象度：       高レベル戦略      中レベル調整       低レベル実行
              ↓                 ↓                  ↓
           [軌道計画層]  →  [姿勢制御層]  →  [低レベル層]
              ↓                 ↓                  ↓
出力：      参照軌道         補正トルク指令    モータ電流指令

この階層分解により、各層は 異なる目的関数 と 異なる時定数 で独立した最適化問題を解くことが可能となる。

2.1.3 従来手法の限界と機械学習の必要性

従来のモデルベース制御 :

線形化近似に依存し、大きな外乱や予期しない状況への対応が困難
手動でのパラメータチューニングが必要で、多様な環境への適応性が低い
詳細な物理モデルの精度に性能が依存

機械学習アプローチの優位性 :

データ駆動型適応 : 実際の歩行データから最適な制御則を学習
非線形関係の自動獲得 : 複雑な状態-行動マッピングを表現可能
転移学習 : 一度学習した制御則を新しい環境へ適応可能
オンライン最適化 : 実行中に制御性能を継続的に改善

特に深層強化学習（DRL）の進展により、複雑な環境での歩行制御が大きく進歩しており、実世界での適用可能性が高まっているDeep Reinforcement Learning for Robotic Bipedal Locomotion。

2.2 階層制御アーキテクチャの設計原理

2.2.1 三層構造の論理的根拠

二足歩行ロボットの制御を三層に分解する理論的根拠は、 制御理論における時間尺度分離原理 と 計算複雑性の分散 にある。

階層分解の利点

計算負荷の分散
- 各層が独立した周波数で動作可能
- 高次最適化と低次制御を並列処理
モジュール性と保守性
- 各層の独立した改良・交換が可能
- デバッグと検証が容易
理論的保証の構築
- 各層で異なる安定性証明手法を適用可能
- 全体の安定性を階層的に保証
機械学習の効率化
- 各層で適切な状態空間次元で学習
- 報酬設計の単純化

2.2.2 深層強化学習における制御フレームワークの分類

二足歩行ロボットの深層強化学習による制御アプローチは、大きく分けて エンドツーエンド型 と 階層型 の2つのフレームワークに分類されるDeep Reinforcement Learning for Robotic Bipedal Locomotion。

エンドツーエンド型フレームワーク

エンドツーエンド型は、センサ入力から直接行動指令を出力する単一の学習システムとして構成される。このアプローチはさらに以下のように細分化される：

参照ベース学習 : 人間やロボットの既存動作データを模倣
- 残差学習: 基本的な制御器に学習ベースの補正を追加
- ガイド付き学習: 模倣データによって学習を導く
参照フリー学習 : 事前の動作データなしに試行錯誤を通じて直接歩行動作を獲得

階層型フレームワーク

階層型フレームワークは、制御タスクを複数の抽象レベルに分解することで、より効率的な学習と制御を実現する。主要な3つのアプローチが存在する：

深層プランニングハイブリッド方式 : 高レベルの経路計画と低レベルの動作制御を組み合わせる
フィードバック-DRL制御ハイブリッド方式 : 従来の制御理論に基づくフィードバック制御器と深層強化学習による適応的な制御を統合
学習された階層フレームワーク : 複数の学習モジュールを階層的に組み合わせる

2.2.3 三層構造の全体像

┌────────────────────────────────────────────────────────────┐
│                      軌道計画層                             │
│  ┌──────────────────────────────────────────────┐          │
│  │ 入力: 目標速度、目標方向、環境情報              │          │
│  │ 処理: 強化学習による最適歩行軌道生成            │          │
│  │ 出力: 関節角度参照軌道 qᵣₑf(t), 足配置パターン  │          │
│  └──────────────────────────────────────────────┘          │
│                         ↓                                   │
│                  θᵣₑf(t), ṙfoot(t)                         │
│                         ↓                                   │
└────────────────────────────────────────────────────────────┘
                          ↓
┌────────────────────────────────────────────────────────────┐
│                     姿勢制御層                              │
│  ┌──────────────────────────────────────────────┐          │
│  │ 入力: 参照軌道、現在姿勢、IMUデータ              │          │
│  │ 処理: ニューラルネットワークによる姿勢補正       │          │
│  │ 出力: 補正トルク指令 τₐdj(t)                    │          │
│  └──────────────────────────────────────────────┘          │
│                         ↓                                   │
│                     τcmd(t)                                 │
│                         ↓                                   │
└────────────────────────────────────────────────────────────┘
                          ↓
┌────────────────────────────────────────────────────────────┐
│                     低レベル層                              │
│  ┌──────────────────────────────────────────────┐          │
│  │ 入力: トルク指令、関節状態フィードバック         │          │
│  │ 処理: 学習ベースPD制御器または適応制御          │          │
│  │ 出力: モータ電流指令 I(t)                       │          │
│  └──────────────────────────────────────────────┘          │
│                         ↓                                   │
│                  物理ロボット                                │
└────────────────────────────────────────────────────────────┘

2.2.4 各層の役割定義

軌道計画層 (Trajectory Planning Layer)

項目	詳細
更新周波数	1〜10 Hz
主要機能	歩行サイクル全体の最適軌道生成
決定変数	足配置位置、関節軌道パラメータ、歩行速度
制約	運動学的到達可能性、動的バランス、衝突回避
機械学習手法	深層強化学習 (PPO, SAC), 軌道最適化DNN

Penn大学の研究グループは、視覚情報から適切な足の配置位置を計画する高レベル層と、実際の歩行動作を実行する低レベル制御層を組み合わせた視覚ベースの足配置プランナーを開発し、複雑な環境での歩行を実現しているLearning a Vision-Based Footstep Planner for Hierarchical Walking。

出力データ構造 :

軌道計画出力 = {
    qᵣₑf(t) ∈ ℝⁿ     : 関節角度参照軌道 (n: 自由度数)
    q̇ᵣₑf(t) ∈ ℝⁿ    : 関節速度参照軌道
    pfₒₒₜ(t) ∈ ℝ³    : 足先位置軌道
    contact(t) ∈ {0,1}ᵐ : 接触スケジュール (m: 足数)
}

姿勢制御層 (Posture Control Layer)

項目	詳細
更新周波数	100〜500 Hz
主要機能	動的バランス維持と軌道追従誤差補正
決定変数	補正トルク、重心補正量、姿勢角補正
制約	ZMP安定性、角運動量制約、トルク限界
機械学習手法	適応ニューラル制御器、LQR学習

出力データ構造 :

姿勢制御出力 = {
    τₐdj(t) ∈ ℝⁿ      : 関節補正トルク
    ΔCoM(t) ∈ ℝ³      : 重心位置補正
    K(t) ∈ ℝⁿˣⁿ      : 適応ゲイン行列 (学習済み)
}

低レベル層 (Low-Level Control Layer)

項目	詳細
更新周波数	1〜10 kHz
主要機能	高速トルク追従制御、外乱抑制
決定変数	モータ電流、PID/適応制御ゲイン
制約	電流制限、温度制約、電圧制約
機械学習手法	学習ベースPD制御、モデル予測適応制御

出力データ構造 :

低レベル制御出力 = {
    I(t) ∈ ℝⁿ         : モータ電流指令
    Kp(t) ∈ ℝⁿ       : 学習済み比例ゲイン
    Kd(t) ∈ ℝⁿ       : 学習済み微分ゲイン
}

2.3 層間の情報フローと相互作用

2.3.1 順方向情報伝播 (Top-Down Control Flow)

階層制御における 指令の下向き伝播 は、各層が上位層からの参照信号を受け取り、より詳細な制御信号へ変換するプロセスである。

┌─────────────────────────────────────────────────┐
│ 軌道計画層の出力                                 │
│ • 関節軌道 qᵣₑf(t)                              │
│ • 接触スケジュール contact(t)                    │
└─────────────────────────────────────────────────┘
                    ↓
         (参照軌道として伝達)
                    ↓
┌─────────────────────────────────────────────────┐
│ 姿勢制御層での処理                               │
│ e(t) = qᵣₑf(t) - qₐctual(t)  誤差計算          │
│ τₐdj(t) = πθ(s(t))           学習制御則適用    │
└─────────────────────────────────────────────────┘
                    ↓
         (トルク指令として伝達)
                    ↓
┌─────────────────────────────────────────────────┐
│ 低レベル層での処理                               │
│ I(t) = fmotor(τₐdj(t), q(t), q̇(t))            │
└─────────────────────────────────────────────────┘

2.3.2 逆方向フィードバック (Bottom-Up Feedback Flow)

センサ情報とエラー信号 は下位層から上位層へフィードバックされ、学習と適応を促進する。

┌─────────────────────────────────────────────────┐
│ 物理ロボットからのセンサ情報                      │
│ • 関節エンコーダ: q(t), q̇(t)                    │
│ • IMU: 姿勢角φ(t), 角速度ω(t), 加速度a(t)       │
│ • 力センサ: 接触力 F(t)                          │
└─────────────────────────────────────────────────┘
                    ↑
                (高頻度更新)
                    ↑
┌─────────────────────────────────────────────────┐
│ 低レベル層 → 姿勢制御層へのフィードバック          │
│ • トルク追従誤差 eτ(t) = τcmd(t) - τₐctual(t)  │
│ • 実測関節状態 [q(t), q̇(t)]                    │
└─────────────────────────────────────────────────┘
                    ↑
              (中頻度フィルタ済み)
                    ↑
┌─────────────────────────────────────────────────┐
│ 姿勢制御層 → 軌道計画層へのフィードバック          │
│ • 安定性指標 ZMP(t), 転倒リスク R(t)             │
│ • 軌道追従誤差 ‖qᵣₑf(t) - q(t)‖                │
│ • エネルギー消費率 Ė(t)                          │
└─────────────────────────────────────────────────┘

2.3.3 時間スケール分離とサンプリング戦略

各層の 更新周波数の差異 は、計算効率と制御性能のバランスを最適化する:

層	更新周期	サンプリング戦略	遅延許容度
軌道計画層	100〜1000 ms	歩行相ごと	高 (〜100ms)
姿勢制御層	2〜10 ms	固定周期	中 (〜5ms)
低レベル層	0.1〜1 ms	高速割り込み	低 (<1ms)

時間スケール分離の利点 :

上位層は長期的最適化に集中可能
下位層は高速外乱抑制に専念
計算リソースの効率的配分

2.4 制御問題の数学的抽象化

2.4.1 統合システムのダイナミクス

二足歩行ロボット全体は、以下の 非線形微分代数方程式系 (DAE) で記述される:

運動方程式 (剛体力学):

M(q)q̈ + C(q,q̇)q̇ + G(q) = τ + Jᵀ(q)F_ext

where:

q ∈ ℝⁿ: 一般化座標 (関節角度 + 浮遊ベース6自由度)
M(q) ∈ ℝⁿˣⁿ: 慣性行列
C(q,q̇) ∈ ℝⁿˣⁿ: コリオリ・遠心力行列
G(q) ∈ ℝⁿ: 重力項
τ ∈ ℝⁿ: 関節トルク (制御入力)
J(q): ヤコビ行列
F_ext ∈ ℝᵐ: 外力 (接触力含む)

接触制約 (地面との接触時):

φ(q) ≥ 0              (不等式制約: 貫通禁止)
λ ≥ 0, φ(q) ≥ 0, λᵀφ(q) = 0   (相補性条件)

where:

φ(q): 接触距離関数
λ: 接触力の大きさ (ラグランジュ乗数)

2.4.2 階層制御の数学的定式化

各層の制御則を統合した 階層最適化問題 は以下のように表現できる:

軌道計画層の最適化問題 (高レベル)

min       J₁(q_ref(·), u_plan)
q_ref(·), u_plan

subject to:
    q̇_ref(t) = f_kin(q_ref(t), u_plan(t))     (運動学的整合性)
    φ(q_ref(t)) ≥ 0                          (接触制約)
    ZMP(q_ref(t), q̈_ref(t)) ∈ Support       (安定性制約)
    q_min ≤ q_ref(t) ≤ q_max                 (関節限界)

目的関数の構成要素 :

J₁ = ∫₀ᵀ [ w₁‖v(t) - v_desired‖² +           (速度追従)
          w₂‖CoM(t) - CoM_ref(t)‖² +         (重心制御)
          w₃∫τ²(t)dt +                        (エネルギー効率)
          w₄‖ZMP(t) - ZMP_center‖² ] dt      (安定性マージン)

姿勢制御層の最適化問題 (中レベル)

min       J₂(τ_adj(·))
τ_adj(·)

subject to:
    q̈ = M⁻¹(q)[τ_ref + τ_adj - C(q,q̇)q̇ - G(q) + Jᵀλ]
    |τ_ref + τ_adj| ≤ τ_max                   (トルク限界)
    |ZMP(q, q̈)| ≤ ZMP_limit                  (転倒防止)

目的関数 (リアルタイム最適化):

J₂(τ_adj) = ‖q(t) - q_ref(t)‖²_Q +           (追従誤差)
            ‖τ_adj(t)‖²_R +                   (制御エネルギー)
            ‖CoM(t) - CoM_desired(t)‖²_W      (重心補正)

低レベル層の最適化問題 (低レベル)

min       J₃(I(·))
I(·)

subject to:
    τ_actual(t) = k_motor · I(t) - b · q̇(t)   (モータモデル)
    |I(t)| ≤ I_max                            (電流制限)
    |τ_actual(t) - τ_cmd(t)| ≤ ε              (追従精度)

目的関数 :

J₃(I) = ∫₀ᵗ [ ‖τ_actual(s) - τ_cmd(s)‖² + γ‖I(s)‖² ] ds

2.4.3 階層間の整合性条件

各層の最適化問題が相互に矛盾しないための 整合性条件 :

制約の包含関係 :
```
Constraints₃ ⊆ Constraints₂ ⊆ Constraints₁
```
下位層の実現可能領域が上位層の仮定に含まれる必要がある
時間スケール分離条件 :
```
Δt₃ << Δt₂ << Δt₁
```
下位層の動作が十分高速であり、上位層から見て準静的とみなせる
安定性の階層的保証 :
- 各層が独立に安定であれば、全体システムも安定 (特異摂動理論)

2.5 機械学習による階層最適化の枠組み

2.5.1 なぜ機械学習が必要か

従来の最適制御理論では、上記の階層最適化問題を解析的に解くことは困難である。主な理由:

高次元非線形性 :
- 状態空間の次元: dim(x) = 2n (通常 n > 20)
- 非凸な目的関数と制約条件
不確実性 :
- モデル誤差 (慣性パラメータ、摩擦特性)
- 環境の予測不可能性 (不整地、外乱)
リアルタイム性要求 :
- 姿勢制御層は2〜10msで解を計算する必要

機械学習アプローチの役割 :

従来手法	機械学習手法	利点
線形化 + LQR	深層ニューラル制御器	非線形性の直接処理
軌道最適化 (反復計算)	強化学習エージェント	リアルタイム推論
手動パラメータ調整	エンドツーエンド学習	データ駆動自動調整
モデル依存	モデルフリー/モデルベース融合	ロバスト性向上

2.5.2 各層における機械学習手法の選択

軌道計画層 : 深層強化学習

適用理由 :

長期的報酬最大化 (歩行効率、安定性)
探索による新しい歩容の発見
転移学習による多様な環境への適応

主要アルゴリズム :

Proximal Policy Optimization (PPO)
Soft Actor-Critic (SAC)
Model Predictive Path Integral (MPPI)

深層強化学習の適用により、二足歩行ロボットは複雑な地形や予期しない外乱に対しても適応的に歩行を継続できるようになっているDeep Reinforcement Learning for Robotic Bipedal Locomotion。

姿勢制御層 : ニューラル適応制御

適用理由 :

中速の適応が必要
部分的な物理モデルとの融合が有効
安定性証明との両立

主要アルゴリズム :

Neural Lyapunov Control
Learning-based MPC
Residual RL (モデルベース制御の補正)

低レベル層 : 学習ベースPD制御

適用理由 :

高速応答が最優先
比較的低次元の問題
安全性の明示的保証が必要

主要アルゴリズム :

Adaptive PD with learned gains
Disturbance observer (学習ベース)
Neural impedance control

2.5.3 統合学習フレームワーク

各層の学習プロセスは 段階的 または 同時並行 で実行される:

┌──────────────────────────────────────────────────────┐
│          統合学習パイプライン                         │
│                                                      │
│  Phase 1: 低レベル層の事前学習                        │
│    └─→ シミュレータでPD制御ゲインを学習               │
│                                                      │
│  Phase 2: 姿勢制御層の学習                           │
│    └─→ 学習済み低レベル層を使用し、                  │
│         姿勢安定化ポリシーを学習                      │
│                                                      │
│  Phase 3: 軌道計画層の学習                           │
│    └─→ 学習済み下位層を統合し、                      │
│         エンドツーエンドで歩行ポリシーを学習          │
│                                                      │
│  Phase 4: 全層の同時微調整 (Fine-tuning)             │
│    └─→ 実機データで全パラメータを同時最適化          │
└──────────────────────────────────────────────────────┘

学習の相互作用 :

ボトムアップ学習 : 下位層から順に学習し、上位層は下位層を固定して学習
エンドツーエンド学習 : 全層のパラメータを同時に勾配降下法で最適化
階層的強化学習 : 各層が独立したサブゴールを持つ強化学習エージェント

2.6 階層分解の実装上の考慮事項

2.6.1 層間インターフェースの設計

各層における最適化問題の構造化フレームワーク

3.1 階層制御における最適化問題の分解原理

2足歩行ロボットの制御系は、時間スケールと抽象度の異なる3つの階層に分解される。この分解は、複雑な非線形最適制御問題を計算可能な部分問題に分割するための根本原理である。

3.1.1 階層分解の数学的基礎

全体の制御問題は次のような統合最適化問題として表現できる:

\min_{\mathbf{u}(t), \boldsymbol{\tau}(t), \mathbf{q}^{\text{ref}}(t)} J_{\text{total}} = \int_0^T \left[ L_{\text{task}}(\mathbf{q}, \dot{\mathbf{q}}) + L_{\text{stability}}(\mathbf{x}_{\text{CoM}}, \mathbf{p}_{\text{ZMP}}) + L_{\text{effort}}(\boldsymbol{\tau}) \right] dt

subject to:

運動学的制約: $\mathbf{q} \in \mathcal{Q}_{\text{feasible}}$
動力学的制約: $\mathbf{M}(\mathbf{q})\ddot{\mathbf{q}} + \mathbf{C}(\mathbf{q}, \dot{\mathbf{q}})\dot{\mathbf{q}} + \mathbf{g}(\mathbf{q}) = \boldsymbol{\tau} + \mathbf{J}^T \mathbf{F}_{\text{ext}}$
接触制約: $\mathbf{F}_{\text{ext}} \in \mathcal{FC}$ (摩擦錐制約)
トルク制約: $\boldsymbol{\tau}_{\min} \leq \boldsymbol{\tau} \leq \boldsymbol{\tau}_{\max}$

この問題は計算複雑度が $$O(n^3 T)$$ (n: 自由度、T: 時間ホライズン) となり直接解くことは実時間制御では不可能である。

3.1.2 時間スケールに基づく階層分解

階層制御は、異なる時間スケールに応じた3つの最適化問題への分解を行う:

┌─────────────────────────────────────────────────────────────┐
│  Layer 3: 軌道計画層 (Trajectory Planning Layer)            │
│  時間スケール: 1-10秒                                        │
│  更新頻度: 1-10 Hz                                          │
│  ┌──────────────────────────────────────────────┐          │
│  │ 最適化問題 P₃:                                │          │
│  │ min J₃(q_ref(·), ṗ_ref(·))                  │          │
│  │     ∈ 参照軌道空間                            │          │
│  └──────────────────────────────────────────────┘          │
│                        ↓ q_ref(t), ṗ_ref(t)               │
├─────────────────────────────────────────────────────────────┤
│  Layer 2: 姿勢制御層 (Posture Control Layer)                │
│  時間スケール: 0.01-0.1秒                                    │
│  更新頻度: 10-100 Hz                                        │
│  ┌──────────────────────────────────────────────┐          │
│  │ 最適化問題 P₂:                                │          │
│  │ min J₂(q̈, F_ext)                            │          │
│  │     ∈ 加速度・接触力空間                       │          │
│  └──────────────────────────────────────────────┘          │
│                        ↓ q̈_des, F_ext_des                 │
├─────────────────────────────────────────────────────────────┤
│  Layer 1: 低レベル層 (Low-level Control Layer)              │
│  時間スケール: 0.0001-0.001秒                                │
│  更新頻度: 1000-10000 Hz                                    │
│  ┌──────────────────────────────────────────────┐          │
│  │ 最適化問題 P₁:                                │          │
│  │ min J₁(τ, i_motor)                          │          │
│  │     ∈ トルク・電流空間                         │          │
│  └──────────────────────────────────────────────┘          │
│                        ↓ τ_actual                          │
└─────────────────────────────────────────────────────────────┘
                         ↓
              ┌──────────────────┐
              │  物理システム      │
              │  (ロボット本体)   │
              └──────────────────┘
                         ↓ q, q̇ (センサ情報)
              ┌──────────────────┐
              │  状態推定器       │
              └──────────────────┘

階層分解の原理:

時間スケール分離 : 各層の最適化問題は異なる時間窓で解かれる
抽象度の階層化 : 上位層ほど抽象的な目標、下位層ほど具体的な制御信号
片方向情報フロー : 基本的に上位層から下位層への参照信号の流れ
フィードバックループ : センサ情報は全層で共有され、各層で異なる処理

3.1.3 各層の最適化問題の独立性と依存性

各層の最適化問題は、以下の構造を持つ:

層	入力	決定変数	出力	依存性
Layer 3	タスク仕様、環境情報	$\mathbf{q}^{\text{ref}}(t), \mathbf{p}_{\text{foot}}(t)$	参照軌道	独立
Layer 2	$\mathbf{q}^{\text{ref}}, \mathbf{q}, \dot{\mathbf{q}}$	$\ddot{\mathbf{q}}, \mathbf{F}_{\text{ext}}$	目標加速度・接触力	Layer 3に依存
Layer 1	$\ddot{\mathbf{q}}^{\text{des}}, \mathbf{q}, \dot{\mathbf{q}}$	$\boldsymbol{\tau}, \mathbf{i}_{\text{motor}}$	関節トルク	Layer 2に依存

重要な設計原則:

各層の最適化問題は 独立して定式化 され、上位層の解を下位層の制約・目標として受け取る
機械学習による政策は各層で 独立に学習 可能
層間のインターフェースは 明確に定義 された変数セット

近年の研究では、全身協調（whole-body coordination）を実現するための階層的最適化フレームワークがさらに発展している。Hierarchical Optimization-based Control for Whole-body Loco-manipulationでは、脚式ロボットにマニピュレーションアームを統合したシステムにおいて、三層構造の階層制御が提案されている：最上層のオンライン操作プランナー、中間層の姿勢最適化、最下層の線形MPCコントローラである。この研究は、8kgのペイロードを持つ重量物操作において、全身最適化を考慮しない基準的なMPCと比較して、安定性と移動性能の両立に成功している。

3.2 軌道計画層の最適化問題構造

3.2.1 問題の定式化

軌道計画層は、タスクレベルの目標から実現可能な参照軌道を生成する長期的最適化問題を扱う。

最適化問題 P₃:

\min_{\substack{\mathbf{q}^{\text{ref}}(t), \mathbf{p}_{\text{foot}}^L(t), \mathbf{p}_{\text{foot}}^R(t) \\ t \in [0, T_{\text{plan}}]}} J_3 = \int_0^{T_{\text{plan}}} \left[ w_{\text{task}} L_{\text{task}} + w_{\text{smooth}} L_{\text{smooth}} + w_{\text{energy}} L_{\text{energy}} + w_{\text{stability}} L_{\text{stability}} \right] dt

決定変数:

$\mathbf{q}^{\text{ref}}(t) \in \mathbb{R}^n$ : 関節角度参照軌道 (n: 自由度)
$\mathbf{p}_{\text{foot}}^L(t), \mathbf{p}_{\text{foot}}^R(t) \in \mathbb{R}^3$ : 左右足の接地位置軌道
離散化表現: $\mathbf{q}_k^{\text{ref}} = \mathbf{q}^{\text{ref}}(k\Delta t), k=0,1,\ldots,N$

3.2.2 目的関数の構成要素

(1) タスク達成コスト $L_{\text{task}}$

L_{\text{task}} = \|\mathbf{p}_{\text{CoM}}(t) - \mathbf{p}_{\text{CoM}}^{\text{des}}(t)\|^2 + \|\mathbf{v}_{\text{CoM}}(t) - \mathbf{v}_{\text{desired}}\|^2 + \|\boldsymbol{\theta}_{\text{trunk}}(t) - \boldsymbol{\theta}_{\text{upright}}\|^2

$\mathbf{p}_{\text{CoM}}$ : 質量中心位置 (forward kinematics $\mathbf{p}_{\text{CoM}} = f_{\text{CoM}}(\mathbf{q})$ から計算)
$\mathbf{v}_{\text{desired}}$ : 目標歩行速度ベクトル
$\boldsymbol{\theta}_{\text{trunk}}$ : 胴体姿勢角

操作タスクを伴う場合、タスクコストは操作対象物の軌道とエンドエフェクタの目標姿勢を含むように拡張される。重量物操作においては、操作力と操作対象物のタスクベース参照軌道を明示的に計画することで、移動と操作の協調が実現される。

(2) 滑らかさコスト $L_{\text{smooth}}$

L_{\text{smooth}} = \|\ddot{\mathbf{q}}^{\text{ref}}(t)\|^2 + \|\dddot{\mathbf{q}}^{\text{ref}}(t)\|^2

加速度と躍度(jerk)を最小化し、実現可能性と快適性を向上。

(3) エネルギー効率コスト $L_{\text{energy}}$

L_{\text{energy}} = \sum_{i=1}^n \left| \tau_i^{\text{est}}(t) \dot{q}_i^{\text{ref}}(t) \right|

$\tau_i^{\text{est}}$ は逆動力学により推定されるトルク。

(4) 安定性コスト $L_{\text{stability}}$

L_{\text{stability}} = \|\mathbf{p}_{\text{ZMP}}(t) - \mathbf{p}_{\text{support}}^{\text{center}}(t)\|^2

Zero Moment Point (ZMP) の支持多角形中心からの偏差を評価。

3.2.3 制約条件

【運動学的制約】
・関節角度制約:    q_min ≤ q_ref(t) ≤ q_max
・速度制約:       q̇_min ≤ q̇_ref(t) ≤ q̇_max
・自己干渉回避:    d_collision(q_ref(t)) > d_safe

【接触制約】
・足裏接地条件:    p_foot^z(t) ≥ 0 (地面高さ)
・支持脚条件:     接地時 → F_z > 0, 遊脚時 → F_z = 0

【ZMP制約】
・支持多角形内:    p_ZMP(t) ∈ ConvexHull(接地点群)

【周期性制約】(定常歩行時)
・q_ref(T_gait) = q_ref(0) + Δq_forward
・q̇_ref(T_gait) = q̇_ref(0)

3.2.4 最適化問題の計算構造

パラメータ化手法:

軌道を有限次元パラメータで表現し、高次元連続最適化を回避:

スプライン基底展開:

\mathbf{q}^{\text{ref}}(t) = \sum_{j=1}^{M} \mathbf{c}_j B_j(t)

決定変数は係数 $\{\mathbf{c}_j\}_{j=1}^M \in \mathbb{R}^{n \times M}$

フェーズベース表現:
歩行周期 $\phi(t) \in [0, 2\pi]$ を用いた周期関数表現

\mathbf{q}^{\text{ref}}(\phi) = \mathbf{q}_0 + \sum_{k=1}^K \left[ \mathbf{a}_k \cos(k\phi) + \mathbf{b}_k \sin(k\phi) \right]

問題の次元削減:

元の問題: 連続時間最適制御 (無限次元)
パラメータ化後: $\mathbb{R}^{nM}$ または $\mathbb{R}^{2nK}$ の最適化問題
典型的なサイズ: n=30自由度, M=20基底 → 600次元最適化問題

3.3 姿勢制御層の最適化問題構造

3.3.1 問題の定式化

姿勢制御層は、軌道計画層からの参照軌道に追従しつつ、動的バランスを維持する中期的最適化問題を扱う。

最適化問題 P₂:

\min_{\substack{\ddot{\mathbf{q}}(t), \mathbf{F}_{\text{ext}}(t) \\ t \in [t_{\text{now}}, t_{\text{now}}+T_{\text{MPC}}]}} J_2 = \sum_{k=0}^{N_{\text{MPC}}} \left[ w_{\text{track}} L_{\text{track}}(k) + w_{\text{balance}} L_{\text{balance}}(k) + w_{\text{contact}} L_{\text{contact}}(k) \right]

決定変数:

$\ddot{\mathbf{q}}_k \in \mathbb{R}^n$ : 時刻 $$k$$ での関節加速度
$\mathbf{F}_{\text{ext},k} = [\mathbf{F}^L_k, \mathbf{F}^R_k, \boldsymbol{\tau}^L_k, \boldsymbol{\tau}^R_k]^T \in \mathbb{R}^{12}$ : 左右足の接触力・モーメント

典型的な予測ホライズン: $T_{\text{MPC}} = 0.5$ 秒, $N_{\text{MPC}} = 50$ ステップ (100Hz更新)

3.3.2 目的関数の構成要素

(1) 追従誤差コスト $L_{\text{track}}$

L_{\text{track}}(k) = \|\mathbf{q}_k - \mathbf{q}^{\text{ref}}_k\|_{\mathbf{Q}_q}^2 + \|\dot{\mathbf{q}}_k - \dot{\mathbf{q}}^{\text{ref}}_k\|_{\mathbf{Q}_{\dot{q}}}^2

重み行列 $\mathbf{Q}_q, \mathbf{Q}_{\dot{q}}$ は関節ごとに重要度を調整:

胴体姿勢関連: 高重み
末端関節: 低重み

(2) バランス維持コスト $L_{\text{balance}}$

L_{\text{balance}}(k) = \|\mathbf{L}_k - \mathbf{L}^{\text{des}}_k\|^2 + \|\dot{\mathbf{L}}_k\|^2

$\mathbf{L}_k$ : 全身角運動量 (重心周り)
角運動量を参照値近傍に保つことで姿勢安定性確保

角運動量の計算:

\mathbf{L}_k = \sum_{i=1}^{N_{\text{body}}} \left[ m_i (\mathbf{p}_i - \mathbf{p}_{\text{CoM}}) \times \dot{\mathbf{p}}_i + \mathbf{I}_i \boldsymbol{\omega}_i \right]

(3) 接触力コスト $L_{\text{contact}}$

L_{\text{contact}}(k) = \|\mathbf{F}_{\text{ext},k}\|_{\mathbf{R}}^2

不要な接触力を最小化し、エネルギー効率向上。

操作タスクを含む場合、このコストは所望の操作力を考慮して修正される。線形MPCコントローラは、予測ホライズン内で操作プランナーから渡された所望の操作力を制約条件として組み込み、移動しながら物体に精密な力を加えることを可能にする。

3.3.3 制約条件

【動力学的等式制約】
M(q_k)q̈_k + C(q_k, q̇_k)q̇_k + g(q_k) = τ_k + J^T(q_k)F_ext,k

【接触力制約】(各足について)
・垂直力正制約:   F_z ≥ 0
・摩擦錐制約:     √(F_x² + F_y²) ≤ μ F_z
・モーメント制約:  |τ_x|, |τ_y| ≤ τ_max
・ZMP制約:       τ_x/F_z, τ_y/F_z ∈ 足裏範囲

【トルク制約】
τ_min ≤ τ_k ≤ τ_max

【加速度制約】
q̈_min ≤ q̈_k ≤ q̈_max

3.3.4 モデル予測制御(MPC)としての構造

姿勢制御層は典型的なMPCスキームとして実装される:

┌──────────────────────────────────────────────────┐
│  時刻 t での制御サイクル                          │
├──────────────────────────────────────────────────┤
│ 1. 状態推定                                      │
│    q̂_t, q̇̂_t ← センサフュージョン               │
│                                                  │
│ 2. 参照軌道取得                                   │
│    q_ref[t:t+T_MPC] ← 軌道計画層                │
│                                                  │
│ 3. 最適化問題 P₂ を解く                          │
│    {q̈*_k, F*_ext,k}_{k=0}^{N_MPC} ← Solver     │
│                                                  │
│ 4. 最初の制御入力を適用                           │
│    q̈_des,t ← q̈*_0                              │
│    F_des,t ← F*_ext,0                           │
│                                                  │
│ 5. 下位層に送信                                   │
│    q̈_des,t, F_des,t → 低レベル層                │
└──────────────────────────────────────────────────┘
         ↓ (制御周期 Δt = 0.01秒後)
┌──────────────────────────────────────────────────┐
│  時刻 t+Δt での制御サイクル (繰り返し)            │
└──────────────────────────────────────────────────┘

Receding Horizon原理:

予測ホライズン $T_{\text{MPC}}$ で最適化
最初の制御入力のみ実行
次のステップで状態を更新して再最適化
これにより外乱やモデル誤差に対するフィードバック性能確保

3.3.5 Whole-Body Control (WBC) としての定式化

姿勢制御層は全身制御(WBC)としてQP(Quadratic Programming)形式で定式化される:

\begin{aligned} \min_{\ddot{\mathbf{q}}, \mathbf{F}_{\text{ext}}} \quad & \frac{1}{2} \begin{bmatrix} \ddot{\mathbf{q}} \\ \mathbf{F}_{\text{ext}} \end{bmatrix}^T \mathbf{H} \begin{bmatrix} \ddot{\mathbf{q}} \\ \mathbf{F}_{\text{ext}} \end{bmatrix} + \mathbf{f}^T \begin{bmatrix} \ddot{\mathbf{q}} \\ \mathbf{F}_{\text{ext}} \end{bmatrix} \\ \text{s.t.} \quad & \mathbf{M}(\mathbf{q})\ddot{\mathbf{q}} + \mathbf{h}(\mathbf{q}, \dot{\mathbf{q}}) = \mathbf{S}^T \boldsymbol{\tau} + \mathbf{J}_c^T \mathbf{F}_{\text{ext}} \quad \text{(動力学)} \\ & \mathbf{J}_c(\mathbf{q}) \ddot{\mathbf{q}} + \dot{\mathbf{J}}_c \dot{\mathbf{q}} = \mathbf{0} \quad \text{(接触制約)} \\ & \mathbf{A}_{\text{ineq}} \begin{bmatrix} \ddot{\mathbf{q}} \\ \mathbf{F}_{\text{ext}} \end{bmatrix} \leq \mathbf{b}_{\text{ineq}} \quad \text{(不等式制約)} \end{aligned}

ここで:

$\mathbf{H}$ : 重み行列 (対角ブロック: $\text{diag}(\mathbf{Q}_q, \mathbf{R})$ )
$\mathbf{S} \in \mathbb{R}^{n \times n_a}$ : アクチュエーション選択行列 ( $$n_a$$ : 駆動関節数)
$\mathbf{J}_c$ : 接触点のヤコビアン

3.4 低レベル層の最適化問題構造

3.4.1 問題の定式化

低レベル層は、目標加速度を実現するトルク制御と、アクチュエータレベルの高速制御を行う。

最適化問題 P₁:

\min_{\boldsymbol{\tau}(t), \mathbf{i}_{\text{motor}}(t)} J_1 = \int_{t_{\text{now}}}^{t_{\text{now}}+T_{\text{ctrl}}} \left[ w_{\text{track}} \|\ddot{\mathbf{q}}(t) - \ddot{\mathbf{q}}^{\text{des}}(t)\|^2 + w_{\text{effort}} \|\boldsymbol{\tau}(t)\|^2 + w_{\text{current}} \|\mathbf{i}_{\text{motor}}(t)\|^2 \right] dt

決定変数:

$\boldsymbol{\tau}(t) \in \mathbb{R}^{n_a}$ : 関節トルク
$\mathbf{i}_{\text{motor}}(t) \in \mathbb{R}^{n_a}$ : モータ電流

典型的な制御ホライズン: $T_{\text{ctrl}} = 0.001$ 秒 (1kHz更新)

3.4.2 目的関数の構成要素

(1) 加速度追従コスト

姿勢制御層からの目標加速度 $\ddot{\mathbf{q}}^{\text{des}}$ への追従:

L_{\text{track}} = \left\| \mathbf{M}(\mathbf{q})^{-1} \left[ \mathbf{S}^T \boldsymbol{\tau} - \mathbf{h}(\mathbf{q}, \dot{\mathbf{q}}) \right] - \ddot{\mathbf{q}}^{\text{des}} \right\|^2

(2) トルク平滑化コスト

急激なトルク変化を抑制:

L_{\text{effort}} = \|\boldsymbol{\tau}\|^2 + \alpha \|\dot{\boldsymbol{\tau}}\|^2

(3) 電流最小化コスト

モータ発熱とエネルギー消費削減:

L_{\text{current}} = \|\mathbf{i}_{\text{motor}}\|^2

3.4.3 制約条件

【トルク制約】
τ_min ≤ τ(t) ≤ τ_max

【電流制約】
i_min ≤ i_motor(t) ≤ i_max

【トルク変化率制約】
|τ̇(t)| ≤ τ̇_max

【モータダイナミクス制約】
L_motor di_motor/dt + R_motor i_motor = V_motor - K_emf q̇
τ = K_torque i_motor

3.4.4 実装レベルの制御構造

低レベル層は通常、以下の2段階構造を持つ:

┌─────────────────────────────────────────────────────────┐
│  トルク制御レベル (1kHz)                                 │
├─────────────────────────────────────────────────────────┤
│  入力: q̈_des (from Layer 2), q̂, q̇̂                     │
│                                                         │
│  1. 逆動力学によるフィードフォワードトルク               │
│     τ_ff = M(q)q̈_des + h(q, q̇)                        │
│                                                         │
│  2. フィードバックトルク                                 │
│     τ_fb = K_p(q_ref - q̂) + K_d(q̇_ref - q̇̂)          │
│                                                         │
│  3. トルク指令生成                                       │
│     τ_cmd = τ_ff + τ_fb                                │
│                                                         │
│  出力: τ_cmd → 電流制御レベル                            │
└─────────────────────────────────────────────────────────┘
                         ↓
┌─────────────────────────────────────────────────────────┐
│  電流制御レベル (10-100kHz)                              │
├─────────────────────────────────────────────────────────┤
│  入力: τ_cmd                                            │
│



# 決定変数・目的関数・制約条件の体系的定式化

本章では、2足歩行ロボットの3層制御構造における各層の最適化問題を、決定変数、目的関数、制約条件の観点から体系的に定式化する。各層の数学的構造を明示することで、機械学習手法の適用対象を明確化し、階層的制御システムの理論的基盤を提供する。

## 4.1 最適化問題の階層的構造と定式化の原則

### 4.1.1 階層的最適化の基本枠組み

2足歩行ロボットの制御問題は、時間スケールと抽象度レベルによって3つの最適化問題に分解される:

┌─────────────────────────────────────────────────────┐
│ 軌道計画層 (High-Level) │
│ 時間スケール: 1~数秒 │
│ 決定変数: 歩行軌道パラメータ θ_traj │
├─────────────────────────────────────────────────────┤
│ 姿勢制御層 (Mid-Level) │
│ 時間スケール: 10~100 ms │
│ 決定変数: 制御トルク/力 τ_desired │
├─────────────────────────────────────────────────────┤
│ 低レベル層 (Low-Level) │
│ 時間スケール: 1~10 ms │
│ 決定変数: モーター指令値 u_motor │
└─────────────────────────────────────────────────────┘


**階層的定式化の利点:**
- **計算複雑度の削減** : 全体問題を小さな部分問題に分割
- **並列化可能性** : 各層の最適化を独立して実行
- **リアルタイム性** : 時間スケールに応じた適切な応答速度
- **モジュール性** : 各層の機械学習モデルを独立して訓練・更新可能

### 4.1.2 定式化の統一記法

本章では以下の統一記法を採用する:

| 記号 | 意味 | 次元 |
|------|------|------|
| $\mathbf{q} \in \mathbb{R}^n$ | 一般化座標 (関節角度、位置) | n次元 |
| $\dot{\mathbf{q}} \in \mathbb{R}^n$ | 一般化速度 | n次元 |
| $\boldsymbol{\tau} \in \mathbb{R}^m$ | 制御トルク/力 | m次元 |
| $\mathbf{x}_t = [\mathbf{q}_t, \dot{\mathbf{q}}_t]^T$ | 状態ベクトル | 2n次元 |
| $\mathbf{u}_t$ | 制御入力 | 層によって変化 |
| $\mathcal{L}(\cdot)$ | 目的関数 (損失関数) | スカラー |
| $\mathcal{C}(\cdot)$ | 制約条件 | ブール/不等式 |

### 4.1.3 機械学習における最適化問題の変換

従来の制御理論では、各時刻の最適制御入力を直接求めるが、機械学習アプローチでは **方策(policy)のパラメータ** を最適化する:

**従来型:**
$$
\mathbf{u}_t^* = \arg\min_{\mathbf{u}_t} \mathcal{L}(\mathbf{x}_t, \mathbf{u}_t)
$$

**機械学習型:**
$$
\boldsymbol{\theta}^* = \arg\min_{\boldsymbol{\theta}} \mathbb{E}_{\tau \sim \pi_{\boldsymbol{\theta}}} \left[ \sum_{t=0}^{T} \mathcal{L}(\mathbf{x}_t, \mathbf{u}_t) \right]
$$

ここで:
- $\boldsymbol{\theta}$: ニューラルネットワークのパラメータ
- $\pi_{\boldsymbol{\theta}}$: パラメータ化された方策(policy)
- $\tau$: 軌道 $(\mathbf{x}_0, \mathbf{u}_0, \mathbf{x}_1, \mathbf{u}_1, \ldots)$

この変換により、 **時系列最適化問題** が **パラメータ最適化問題** に置き換えられる。

---

## 4.2 軌道計画層の最適化問題定式化

### 4.2.1 決定変数の定義

軌道計画層では、 **歩行全体の軌道パラメータ** を決定変数とする。

**時間離散化された軌道表現:**
$$
\boldsymbol{\Theta}_{\text{traj}} = \{\mathbf{p}_{\text{CoM}}(t), \mathbf{p}_{\text{foot}}^L(t), \mathbf{p}_{\text{foot}}^R(t), \mathbf{q}_{\text{joints}}(t)\}_{t=0}^{T_{\text{plan}}}
$$

ここで:
- $\mathbf{p}_{\text{CoM}}(t) \in \mathbb{R}^3$: 重心(Center of Mass)の位置軌道
- $\mathbf{p}_{\text{foot}}^{L/R}(t) \in \mathbb{R}^3$: 左右足先端の位置軌道
- $\mathbf{q}_{\text{joints}}(t) \in \mathbb{R}^{n_j}$: 関節角度軌道($n_j$は関節数)
- $T_{\text{plan}}$: 計画ホライズン(通常1~5秒)

**パラメトリック表現(機械学習での利用):**

軌道を基底関数の線形結合で表現:
$$
\mathbf{p}_{\text{CoM}}(t) = \sum_{i=1}^{N_b} \alpha_i \phi_i(t)
$$

決定変数: $\boldsymbol{\theta}_{\text{traj}} = \{\alpha_1, \ldots, \alpha_{N_b}, \text{gait parameters}\}$

**Gait parameters (歩容パラメータ):**
- $v_{\text{desired}}$: 目標歩行速度
- $T_{\text{step}}$: ステップ時間
- $L_{\text{step}}$: ステップ長
- $W_{\text{step}}$: ステップ幅
- $h_{\text{lift}}$: 足上げ高さ

### 4.2.2 目的関数の構成要素

軌道計画層の目的関数は、 **複数の評価項目の重み付き和** として定式化される:

$$
\mathcal{L}_{\text{traj}}(\boldsymbol{\theta}_{\text{traj}}) = w_1 \mathcal{L}_{\text{tracking}} + w_2 \mathcal{L}_{\text{stability}} + w_3 \mathcal{L}_{\text{energy}} + w_4 \mathcal{L}_{\text{smooth}} + w_5 \mathcal{L}_{\text{collision}}
$$

#### (1) 軌道追従誤差項 $\mathcal{L}_{\text{tracking}}$

目標速度・方向への追従性能:
$$
\mathcal{L}_{\text{tracking}} = \int_0^{T_{\text{plan}}} \left\| \mathbf{v}_{\text{CoM}}(t) - \mathbf{v}_{\text{desired}} \right\|^2 dt
$$

#### (2) 安定性評価項 $\mathcal{L}_{\text{stability}}$

Zero Moment Point (ZMP)の安定余裕:
$$
\mathcal{L}_{\text{stability}} = \int_0^{T_{\text{plan}}} d(\mathbf{p}_{\text{ZMP}}(t), \text{Support Polygon})^2 dt
$$

ここで、$d(\cdot, \cdot)$は点と多角形間の距離関数(負の場合は内部)。

**ZMPの計算:**
$$
\mathbf{p}_{\text{ZMP}} = \mathbf{p}_{\text{CoM}} - \frac{z_{\text{CoM}}}{g + \ddot{z}_{\text{CoM}}} \begin{bmatrix} \ddot{x}_{\text{CoM}} \\ \ddot{y}_{\text{CoM}} \end{bmatrix}
$$

#### (3) エネルギー効率項 $\mathcal{L}_{\text{energy}}$

機械的エネルギーの消費抑制:
$$
\mathcal{L}_{\text{energy}} = \int_0^{T_{\text{plan}}} \left( \boldsymbol{\tau}^T(t) \dot{\mathbf{q}}(t) \right)^+ dt
$$

ここで、$(x)^+ = \max(0, x)$は正部分(発生エネルギーのみを積算)。

#### (4) 軌道滑らかさ項 $\mathcal{L}_{\text{smooth}}$

加加速度(jerk)の最小化:
$$
\mathcal{L}_{\text{smooth}} = \int_0^{T_{\text{plan}}} \left\| \dddot{\mathbf{q}}(t) \right\|^2 dt
$$

#### (5) 衝突回避項 $\mathcal{L}_{\text{collision}}$

自己衝突と環境障害物との距離:
$$
\mathcal{L}_{\text{collision}} = \sum_{(i,j) \in \mathcal{P}} \max\left(0, d_{\text{safe}} - d_{ij}(t)\right)^2
$$

ここで、$\mathcal{P}$は衝突可能性のある体節ペアの集合、$d_{ij}$は体節間距離。

### 4.2.3 制約条件

軌道計画層では以下の制約条件が課される:

#### (a) 動力学的実現可能性制約

運動方程式の満足:
$$
\mathbf{M}(\mathbf{q})\ddot{\mathbf{q}} + \mathbf{C}(\mathbf{q}, \dot{\mathbf{q}})\dot{\mathbf{q}} + \mathbf{g}(\mathbf{q}) = \boldsymbol{\tau} + \mathbf{J}^T(\mathbf{q})\mathbf{f}_{\text{ext}}
$$

#### (b) 摩擦錐制約 (Friction Cone Constraint)

足底接地力が摩擦錐内に収まる:
$$
\sqrt{f_{x}^2 + f_{y}^2} \leq \mu f_z, \quad f_z \geq 0
$$

ここで、$\mu$は摩擦係数、$(f_x, f_y, f_z)$は接地力成分。

#### (c) 関節限界制約

$$
\mathbf{q}_{\min} \leq \mathbf{q}(t) \leq \mathbf{q}_{\max}, \quad \forall t \in [0, T_{\text{plan}}]
$$
$$
\dot{\mathbf{q}}_{\min} \leq \dot{\mathbf{q}}(t) \leq \dot{\mathbf{q}}_{\max}, \quad \forall t \in [0, T_{\text{plan}}]
$$

#### (d) トルク限界制約

$$
\boldsymbol{\tau}_{\min} \leq \boldsymbol{\tau}(t) \leq \boldsymbol{\tau}_{\max}, \quad \forall t \in [0, T_{\text{plan}}]
$$

#### (e) 接触スケジュール制約

足の接地・離地のタイミング条件:
$$
\text{if } t \in [t_{\text{lift}}, t_{\text{land}}] \Rightarrow \mathbf{f}_{\text{foot}}(t) = \mathbf{0}
$$
$$
\text{if } t \notin [t_{\text{lift}}, t_{\text{land}}] \Rightarrow z_{\text{foot}}(t) = z_{\text{ground}}
$$

### 4.2.4 機械学習による軌道生成の定式化

**強化学習アプローチ:**

状態空間:
$$
\mathbf{s}_t^{\text{traj}} = \begin{bmatrix} 
\mathbf{p}_{\text{CoM}}, \mathbf{v}_{\text{CoM}}, \mathbf{\omega}_{\text{body}} \\
\mathbf{p}_{\text{foot}}^L, \mathbf{p}_{\text{foot}}^R \\
\mathbf{v}_{\text{cmd}}, \text{contact flags}
\end{bmatrix}
$$

行動空間:
$$
\mathbf{a}_t^{\text{traj}} = \begin{bmatrix}
\Delta \mathbf{p}_{\text{foot,target}} \\
\Delta T_{\text{step}} \\
\mathbf{q}_{\text{joints,target}}
\end{bmatrix}
$$

報酬関数(目的関数の符号反転):
$$
r_t = -\mathcal{L}_{\text{traj}}(\mathbf{s}_t, \mathbf{a}_t) = -\left(w_1 e_{\text{track}} + w_2 e_{\text{stab}} + w_3 e_{\text{energy}} + w_4 e_{\text{smooth}} + w_5 e_{\text{collision}}\right)
$$

**最適化目標:**
$$
\max_{\boldsymbol{\theta}_{\pi}} \mathbb{E}_{\tau \sim \pi_{\boldsymbol{\theta}_{\pi}}} \left[ \sum_{t=0}^{T} \gamma^t r_t \right] \quad \text{subject to } \mathcal{C}_{\text{traj}}(\mathbf{s}_t, \mathbf{a}_t) = \text{True}
$$

ここで、$\gamma \in [0,1)$は割引率。

---

## 4.3 姿勢制御層の最適化問題定式化

### 4.3.1 決定変数の定義

姿勢制御層では、 **短期間(数十ms~数百ms)の制御トルク/力** を決定変数とする。

**制御入力の構造:**
$$
\mathbf{u}_t^{\text{posture}} = \begin{bmatrix}
\boldsymbol{\tau}_{\text{joints}} \\
\mathbf{f}_{\text{contact}}
\end{bmatrix}
$$

ここで:
- $\boldsymbol{\tau}_{\text{joints}} \in \mathbb{R}^{n_j}$: 関節トルク指令値
- $\mathbf{f}_{\text{contact}} \in \mathbb{R}^{3n_c}$: 接触力(接触点数$n_c$)

**Model Predictive Control (MPC)形式での決定変数:**

予測ホライズン$N_{\text{mpc}}$に対して:
$$
\boldsymbol{\Theta}_{\text{posture}} = \{\mathbf{u}_t, \mathbf{u}_{t+1}, \ldots, \mathbf{u}_{t+N_{\text{mpc}}-1}\}
$$

### 4.3.2 目的関数の構成要素

姿勢制御層の目的関数は、 **軌道追従と安定化のトレードオフ** を表現:

$$
\mathcal{L}_{\text{posture}}(\boldsymbol{\Theta}_{\text{posture}}) = \sum_{k=0}^{N_{\text{mpc}}-1} \left( \mathcal{L}_{\text{tracking}}^k + \mathcal{L}_{\text{balance}}^k + \mathcal{L}_{\text{effort}}^k \right) + \mathcal{L}_{\text{terminal}}
$$

#### (1) 姿勢追従誤差項 $\mathcal{L}_{\text{tracking}}^k$

上位層(軌道計画層)からの参照軌道への追従:
$$
\mathcal{L}_{\text{tracking}}^k = \left\| \mathbf{q}_{t+k} - \mathbf{q}_{\text{ref}}(t+k) \right\|_{\mathbf{Q}}^2 + \left\| \dot{\mathbf{q}}_{t+k} - \dot{\mathbf{q}}_{\text{ref}}(t+k) \right\|_{\mathbf{Q}_v}^2
$$

ここで、$\mathbf{Q}, \mathbf{Q}_v$は重み行列(対角行列で関節ごとの重要度を調整)。

#### (2) バランス維持項 $\mathcal{L}_{\text{balance}}^k$

重心・角運動量の変化抑制:
$$
\mathcal{L}_{\text{balance}}^k = w_{\text{CoM}} \left\| \mathbf{p}_{\text{CoM}}(t+k) - \mathbf{p}_{\text{CoM,ref}}(t+k) \right\|^2 + w_L \left\| \mathbf{L}(t+k) - \mathbf{L}_{\text{ref}}(t+k) \right\|^2
$$

ここで:
- $\mathbf{L}$: 角運動量
- $\mathbf{L}_{\text{ref}}$: 参照角運動量(通常ゼロまたは軌道計画層から指定)

**角運動量の計算:**
$$
\mathbf{L} = \mathbf{I}_{\text{CoM}} \boldsymbol{\omega} + \sum_{i=1}^{n_{\text{links}}} \mathbf{r}_i \times m_i \mathbf{v}_i
$$

#### (3) 制御努力項 $\mathcal{L}_{\text{effort}}^k$

制御入力の大きさとスムーズさ:
$$
\mathcal{L}_{\text{effort}}^k = \left\| \mathbf{u}_{t+k} \right\|_{\mathbf{R}}^2 + w_{\Delta u} \left\| \mathbf{u}_{t+k} - \mathbf{u}_{t+k-1} \right\|^2
$$

ここで、$\mathbf{R}$は制御重み行列。

#### (4) 終端コスト $\mathcal{L}_{\text{terminal}}$

予測ホライズン終端での状態ペナルティ:
$$
\mathcal{L}_{\text{terminal}} = \left\| \mathbf{x}_{t+N_{\text{mpc}}} - \mathbf{x}_{\text{ref}}(t+N_{\text{mpc}}) \right\|_{\mathbf{Q}_f}^2
$$

### 4.3.3 制約条件

#### (a) 状態遷移制約(動力学モデル)

$$
\mathbf{x}_{t+k+1} = \mathbf{f}_{\text{dyn}}(\mathbf{x}_{t+k}, \mathbf{u}_{t+k}), \quad k = 0, 1, \ldots, N_{\text{mpc}}-1
$$

離散化された運動方程式:
$$
\mathbf{M}(\mathbf{q}_{t+k})\ddot{\mathbf{q}}_{t+k} + \mathbf{C}(\mathbf{q}_{t+k}, \dot{\mathbf{q}}_{t+k})\dot{\mathbf{q}}_{t+k} + \mathbf{g}(\mathbf{q}_{t+k}) = \boldsymbol{\tau}_{t+k} + \mathbf{J}^T(\mathbf{q}_{t+k})\mathbf{f}_{t+k}
$$

#### (b) ZMP制約

安定性を保証するため、ZMPがサポート多角形内に収まる:
$$
\mathbf{p}_{\text{ZMP}}(t+k) \in \text{ConvexHull}(\{\mathbf{p}_{\text{contact},i}\}), \quad k = 0, \ldots, N_{\text{mpc}}-1
$$

数値的には、線形不等式で表現:
$$
\mathbf{A}_{\text{support}} \mathbf{p}_{\text{ZMP}}(t+k) \leq \mathbf{b}_{\text{support}}
$$

#### (c) 接触力制約

摩擦錐と最大接触力:
$$
\begin{cases}
\sqrt{(f_{x,i})^2 + (f_{y,i})^2} \leq \mu f_{z,i} \\
0 \leq f_{z,i} \leq f_{\max}
\end{cases}, \quad \forall i \in \text{contact points}
$$

#### (d) 相補性条件

接触・非接触の相補性:
$$
f_{z,i}(t+k) \cdot d_i(t+k) = 0, \quad f_{z,i}(t+k) \geq 0, \quad d_i(t+k) \geq 0
$$

ここで、$d_i$は足底と地面の距離。

### 4.3.4 機械学習による姿勢制御の定式化

**深層強化学習(DRL)アプローチ:**

状態空間(観測):
$$
\mathbf{s}_t^{\text{posture}} = \begin{bmatrix}
\mathbf{q}_t - \mathbf{q}_{\text{ref}} \\
\dot{\mathbf{q}}_t - \dot{\mathbf{q}}_{\text{ref}} \\
\mathbf{p}_{\text{CoM}} - \mathbf{p}_{\text{CoM,ref}} \\
\mathbf{R}_{\text{body}} \\
\mathbf{f}_{\text{contact,measured}} \\
\text{phase}
\end{bmatrix}
$$

ここで、$\mathbf{R}_{\text{body}}$は胴体姿勢(回転行列またはクォータニオン)、$\text{phase}$は歩行位相。

行動空間:
$$
\mathbf{a}_t^{\text{posture}} = \boldsymbol{\tau}_{\text{residual}} + \boldsymbol{\tau}_{\text{PD}}
$$

**PD制御とのハイブリッド:**
$$
\boldsymbol{\tau}_{\text{PD}} = \mathbf{K}_p (\mathbf{q}_{\text{ref}} - \mathbf{q}) + \mathbf{K}_d (\dot{\mathbf{q}}_{\text{ref}} - \dot{\mathbf{q}})
$$
$$
\boldsymbol{\tau}_{\text{total}} = \boldsymbol{\tau}_{\text{PD}} + \pi_{\boldsymbol{\theta}}(\mathbf{s}_t)
$$

報酬関数:
$$
r_t^{\text{posture}} = w_1 \exp\left(-\|\mathbf{q}_t - \mathbf{q}_{\text{ref}}\|^2\right) + w_2 r_{\text{balance}} + w_3 r_{\text{forward}} - w_4 \|\boldsymbol{\tau}_{\text{residual}}\|^2
$$

**制約のソフト化:**

制約違反にペナルティを付与:
$$
r_{\text{penalty}} = -\lambda_1 \max(0, -f_{z,i}) - \lambda_2 \max(0, \|\mathbf{f}_{xy}\| - \mu f_z) - \lambda_3 \mathbb{1}_{\text{fall}}
$$

ここで、$\mathbb{1}_{\text{fall}}$は転倒指標(胴体姿勢が閾値を超えた場合1)。

**最適化目標:**
$$
\max_{\boldsymbol{\theta}_{\pi}} J(\boldsymbol{\theta}_{\pi}) = \mathbb{E}_{\tau \sim \pi_{\boldsymbol{\theta}_{\pi}}} \left[ \sum_{t=0}^{T} \gamma^t (r_t^{\text{posture}} + r_{\text{penalty}}) \right]
$$

---

## 4.4 低レベル層の最適化問題定式化

### 4.4.1 決定変数の定義

低レベル層では、 **モーター指令値** を決定変数とする。

**モーター制御入力:**
$$
\mathbf{u}_t^{\text{motor}} = \begin{bmatrix}
i_{\text{motor},1} \\
\vdots \\
i_{\text{motor},n_j}
\end{bmatrix} \quad \text{または} \quad \begin{bmatrix}
V_{\text{motor},1} \\
\vdots \\
V_{\text{motor},n_j}
\end{bmatrix}
$$

ここで、$i_{\text{motor}}$は電流指令、$V_{\text{motor}}$は電圧指令。

**モーター動力学との関係:**
$$
\tau_j = K_t \cdot i_{\text{motor},j} - B_j \dot{q}_j - \tau_{\text{friction},j}
$$

ここで:
- $K_t$: トルク定数
- $B_j$: 粘性摩擦係数
- $\tau_{\text{friction},j}$: クーロン摩擦トルク

### 4.4.2 目的関数の構成要素

低レベル層の目的関数は、 **トルク追従と熱効率** のバランス:

$$
\mathcal{L}_{\text{motor}}(\mathbf{u}_t^{\text{motor}}) = \mathcal{L}_{\text{torque\_tracking}} + \mathcal{L}_{\text{thermal}} + \mathcal{L}_{\text{wear}}
$$

#### (1) トルク追従項 $\mathcal{L}_{\text{torque\_tracking}}$

上位層(姿勢制御層)からの指令トルク追従:
$$
\mathcal{L}_{\text{torque\_tracking}} = \sum_{j=1}^{n_j} \left( \tau_j(\mathbf{u}_t) - \tau_{j,\text{desired}} \right)^2
$$

#### (2) 熱損失項 $\mathcal{L}_{\text{thermal}}$

モーター発熱の抑制:
$$
\mathcal{L}_{\text{thermal}} = \sum_{j=1}^{n_j} R_j \cdot i_{\text{motor},j}^2
$$

ここで、$R_j$はモーター抵抗。

#### (3) 機械的摩耗項 $\mathcal{L}_{\text{wear}}$

減速機への負荷軽減:
$$
\mathcal{L}_{\text{wear}} = \sum_{j=1}^{n_j} w_j \left| \tau_j \cdot \dot{q}_j \right|
$$

### 4.4.3 制約条件

#### (a) モーター電流制約

$$
i_{\min,j} \leq i_{\text{motor},j}(t) \leq i_{\max,j}, \quad j = 1, \ldots, n_j
$$

#### (b) 電圧制約

$$
V_{\min} \leq V_{\text{motor},j}(t) \leq V_{\max}, \quad j = 1, \ldots, n_j
$$

#### (c) 熱的制約

モーター温度が許容範囲内:
$$
T_j(t) \leq T_{\max,j}
$$

温度動力学:
$$
C_j \frac{dT_j}{dt} = R_j i_{\text{motor},j}^2 - h_j (T_j - T_{\text{ambient}})
$$

ここで、$C_j$は熱容量、$h_j$は熱伝達係数。

#### (d) 



# 機械学習手法の選択基準と理論的正当性

## 5.1 階層制御における機械学習導入の必然性

### 5.1.1 従来制御手法の限界と課題

2足歩行ロボットの制御において、従来のモデルベース制御には以下の本質的な限界が存在する:

**モデル化誤差の累積問題**
- 剛体リンクの弾性変形、関節の遊び、摩擦特性の非線形性
- 地面接触モデルの不確実性(特に遷移フェーズ)
- アクチュエータのダイナミクスとバックラッシュ
- これらの誤差が3層構造を通じて伝播・増幅される

**高次元状態空間の処理困難性**
- 10自由度以上のロボットでは状態空間が $\mathbb{R}^{20+}$ に及ぶ
- 非線形性により局所線形化手法の適用範囲が制限される
- リアルタイム制約下での高次元最適化の計算負荷

**環境適応性の欠如**
- 不整地、階段、斜面などの多様な地形への対応困難
- 外乱に対するロバスト性の設計が経験則依存
- パラメータチューニングの試行錯誤的性質

[従来制御の限界マップ]

モデル化誤差 ──┐
├──> 予測精度低下 ──┐
センサノイズ ──┘ │
├──> 制御性能劣化
計算時間制約 ──┐ │
├──> 最適性損失 ────┘
状態空間爆発 ──┘

環境多様性 ────> 汎化能力不足 ──> 再設計コスト増大


### 5.1.2 機械学習による問題解決のメカニズム

機械学習手法は以下の3つの本質的特性により、上記の限界を克服する:

**1. データ駆動による暗黙的モデル獲得**

明示的な物理モデル $\mathbf{f}(\mathbf{x}, \mathbf{u})$ の代わりに、観測データ $\mathcal{D} = \{(\mathbf{x}_i, \mathbf{u}_i, \mathbf{x}'_i)\}$ から遷移関数を学習:

$$
\mathbf{x}_{t+1} \approx \hat{\mathbf{f}}_\theta(\mathbf{x}_t, \mathbf{u}_t)
$$

ここで $\hat{\mathbf{f}}_\theta$ はパラメータ $\theta$ を持つニューラルネットワークであり、実データから以下を暗黙的に捉える:
- 非線形摩擦特性
- 弾性変形効果
- 接触力学の複雑な遷移

**2. 高次元状態空間の効率的圧縮**

表現学習により、高次元観測空間 $\mathcal{X} \subset \mathbb{R}^n$ から低次元潜在空間 $\mathcal{Z} \subset \mathbb{R}^m$ ($ m \ll n $) への射影:

$$
\mathbf{z} = \phi_{\theta_e}(\mathbf{x}), \quad \mathbf{x} \approx \psi_{\theta_d}(\mathbf{z})
$$

これにより:
- 制御則の設計が低次元空間 $\mathcal{Z}$ で可能
- 計算複雑度が $O(n^3)$ から $O(m^3)$ に削減
- 本質的な自由度の抽出による解釈性向上

**3. 経験からの継続的学習**

強化学習フレームワークにより、試行錯誤を通じた性能改善:

$$
\pi^{*} = \arg\max_{\pi} \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{T} \gamma^t r(\mathbf{x}_t, \mathbf{u}_t) \right]
$$

- 報酬設計により多目的最適化を暗黙的に実現
- シミュレーションでの事前学習とsim-to-real転移
- オンライン学習による環境適応

## 5.2 階層別機械学習手法の選択マトリクス

### 5.2.1 深層強化学習フレームワークの体系的分類

2024年の最新研究によると、深層強化学習による二足歩行ロボットの移動制御フレームワークは、 **エンド・トゥ・エンドフレームワーク** と **階層的フレームワーク** の2つに大別される[Deep Reinforcement Learning for Robotic Bipedal Locomotion: A Brief Survey](https://arxiv.org/html/2404.17070v6)。この分類は制御アーキテクチャの設計思想の違いを反映している。

**エンド・トゥ・エンドフレームワーク:**

学習アプローチに基づいてさらに細分化される:

1. **参照ベース学習（Reference-based learning）** : 既存の運動データや軌道を活用
   - 残差学習（Residual learning）: 既存制御器の性能改善
   - ガイド付き学習（Guided learning）: エキスパート軌道からの模倣

2. **参照フリー学習（Reference-free learning）** : 事前の運動データなしに試行錯誤から直接最適な制御方策を獲得

**階層的フレームワーク:**

複数の制御層を統合する3つの主要構造[Deep Reinforcement Learning for Robotic Bipedal Locomotion: A Brief Survey](https://arxiv.org/html/2404.17070v5):

1. **深層プランニング・ハイブリッドスキーム** : 高レベル計画と低レベル制御の分離
2. **フィードバックDRL制御ハイブリッドスキーム** : 学習ベースと従来制御の並列実行
3. **学習型階層フレームワーク** : 各層が学習可能な統合システム

[DRL制御フレームワークの分類体系]


### 5.2.2 手法選択の決定木

各階層の特性に応じた機械学習手法の選択基準を体系化する:

[階層別ML手法選択フローチャート]


### 5.2.3 各層への手法マッピング表

| 階層 | 主要課題 | 推奨ML手法 | 理論的根拠 | 代替手法 |
|------|---------|-----------|-----------|---------|
| **軌道計画層** | 長期軌道生成 | **深層強化学習** (PPO/SAC) | 連続制御空間での安定学習 | Trajectory Optimization + Supervised Learning |
| | 歩容パターン選択 | **進化戦略** (CMA-ES) | 離散-連続混合空間の探索 | Graph-based Search |
| | ゴール条件付き計画 | **Goal-Conditioned RL** | 多様なタスクへの汎化 | RRT* + Learned Heuristic |
| **姿勢制御層** | ZMP安定化 | **モデル予測制御+NN** | 物理制約の明示的保証 | Pure RL (TD3) |
| | 外乱補償 | **適応制御+オンライン学習** | 未知パラメータの推定 | Robust MPC |
| | 接触力制御 | **Residual RL** | 既存制御器の改善 | Impedance Control |
| | 視覚運動統合 | **Hybrid RL** | 移動と操作の同時制御 | Separate Vision & Control |
| **低レベル層** | トルク指令生成 | **フィードフォワードNN** | 低遅延の推論速度 | Classical PID |
| | センサ融合 | **拡張カルマンフィルタ+DNN** | 非線形観測モデルの学習 | Particle Filter |
| | 摩擦補償 | **LSTM回帰** | 履歴依存性のモデル化 | LuGre Model |

### 5.2.4 手法選択の評価基準

各手法の選択には以下の6次元評価軸を用いる:

$$
\text{Score}(\text{method}) = \sum_{i=1}^{6} w_i \cdot s_i
$$

**評価軸:**
1. **サンプル効率** ($s_1$): 学習に必要なデータ量
2. **計算効率** ($s_2$): 推論時の計算時間
3. **安定性保証** ($s_3$): 理論的収束保証の有無
4. **汎化性能** ($s_4$): 未知環境への適応能力
5. **解釈性** ($s_5$): 学習済みモデルの理解可能性
6. **実装容易性** ($s_6$): エンジニアリング複雑度

重み $w_i$ は各層の優先度により調整:
- 軌道計画層: $(0.2, 0.1, 0.2, 0.3, 0.1, 0.1)$ (汎化性重視)
- 姿勢制御層: $(0.15, 0.25, 0.3, 0.15, 0.1, 0.05)$ (安定性+速度)
- 低レベル層: $(0.1, 0.4, 0.2, 0.1, 0.1, 0.1)$ (速度重視)

## 5.3 軌道計画層における強化学習の理論的基盤

### 5.3.1 Markov決定過程としての定式化

軌道計画問題を以下のMDPとして定義する:

$$
\mathcal{M}_{\text{traj}} = \langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle
$$

**状態空間** $\mathcal{S}$:
$$
\mathbf{s}_t = \begin{bmatrix}
\mathbf{p}_{\text{CoM}}(t) \\
\dot{\mathbf{p}}_{\text{CoM}}(t) \\
\mathbf{q}_{\text{joint}}(t) \\
\dot{\mathbf{q}}_{\text{joint}}(t) \\
\mathbf{p}_{\text{goal}} \\
\mathbf{c}_{\text{terrain}}
\end{bmatrix} \in \mathbb{R}^{n_s}
$$

ここで:
- $\mathbf{p}_{\text{CoM}} \in \mathbb{R}^3$: 重心位置
- $\mathbf{q}_{\text{joint}} \in \mathbb{R}^{n_j}$: 関節角度ベクトル
- $\mathbf{p}_{\text{goal}} \in \mathbb{R}^3$: 目標位置
- $\mathbf{c}_{\text{terrain}} \in \mathbb{R}^{n_c}$: 地形特徴ベクトル

**行動空間** $\mathcal{A}$:

高レベル行動パラメータ(連続):
$$
\mathbf{a}_t = \begin{bmatrix}
\Delta x_{\text{step}} \\
\Delta y_{\text{step}} \\
\theta_{\text{step}} \\
t_{\text{swing}} \\
h_{\text{lift}}
\end{bmatrix} \in \mathbb{R}^5
$$

- $(\Delta x, \Delta y)$: ステップ長・幅
- $\theta$: ステップ方向
- $t_{\text{swing}}$: 遊脚期時間
- $h_{\text{lift}}$: 足上げ高さ

**報酬関数** $R(\mathbf{s}_t, \mathbf{a}_t)$:

多目的報酬の加重和:
$$
R(\mathbf{s}_t, \mathbf{a}_t) = \sum_{i=1}^{6} \lambda_i R_i(\mathbf{s}_t, \mathbf{a}_t)
$$

| 項 | 定義 | 重み $\lambda_i$ | 意図 |
|----|------|-----------------|------|
| $R_1$ | $-\|\mathbf{p}_{\text{CoM}} - \mathbf{p}_{\text{goal}}\|$ | 1.0 | ゴール到達 |
| $R_2$ | $-\|\dot{\mathbf{p}}_{\text{CoM}} - \mathbf{v}_{\text{ref}}\|^2$ | 0.5 | 速度追従 |
| $R_3$ | $-\sum_{i} \tau_i^2$ | 0.1 | エネルギー効率 |
| $R_4$ | $\mathbb{I}(\text{ZMP} \in \text{Support})$ | 2.0 | 安定性維持 |
| $R_5$ | $-\|\ddot{\mathbf{p}}_{\text{CoM}}\|$ | 0.3 | 滑らかさ |
| $R_6$ | $-\max(0, -d_{\text{collision}})$ | 5.0 | 衝突回避 |

### 5.3.2 Proximal Policy Optimization (PPO) の適用

**政策パラメータ化:**

確率的政策を対角ガウス分布で表現:
$$
\pi_\theta(\mathbf{a}|\mathbf{s}) = \mathcal{N}(\mathbf{a}; \mu_\theta(\mathbf{s}), \Sigma_\theta(\mathbf{s}))
$$

ニューラルネットワーク構造:

入力層 (n_s次元)
↓
[共有特徴抽出層]
FC(256) → ReLU → LayerNorm
FC(256) → ReLU → LayerNorm
↓
分岐 ┬─ [Actor Head] ─→ μ_θ(s) ∈ R^5
│ FC(128) → tanh → FC(5)
│
├─ [Actor Head] ─→ log(σ_θ(s)) ∈ R^5
│ FC(128) → FC(5) → softplus
│
└─ [Critic Head] ─→ V_φ(s) ∈ R
FC(128) → ReLU → FC(1)


**目的関数:**

クリップされたサロゲート目的関数:
$$
L^{\text{CLIP}}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) \hat{A}_t, \, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]
$$

ここで:
- $r_t(\theta) = \frac{\pi_\theta(\mathbf{a}_t|\mathbf{s}_t)}{\pi_{\theta_{\text{old}}}(\mathbf{a}_t|\mathbf{s}_t)}$: 重要度比
- $\hat{A}_t$: Generalized Advantage Estimation
- $\epsilon = 0.2$: クリッピングパラメータ

PPOは、オンポリシー手法として安定性が高く、二足歩行制御における連続制御空間での学習において広く採用されている。最新研究では、PPOによる参照フリー学習が複雑な地形環境でも高い汎化性能を示すことが報告されている[Deep Reinforcement Learning for Robotic Bipedal Locomotion: A Brief Survey](https://arxiv.org/html/2404.17070v6)。

**Advantage推定:**

GAE-λを使用:
$$
\hat{A}_t = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}
$$
$$
\delta_t = r_t + \gamma V_\phi(\mathbf{s}_{t+1}) - V_\phi(\mathbf{s}_t)
$$

パラメータ設定: $\gamma = 0.99$, $\lambda = 0.95$

### 5.3.3 サンプル効率向上のための工夫

**1. Hindsight Experience Replay (HER)**

失敗した軌跡から学習するため、達成したゴールを仮想的な目標として再ラベル付け:

$$
\mathbf{s}'_t = \begin{bmatrix}
\mathbf{s}_t \\
\mathbf{g}_{\text{achieved}}
\end{bmatrix}, \quad r'_t = R(\mathbf{s}_t, \mathbf{a}_t, \mathbf{g}_{\text{achieved}})
$$

アルゴリズム:
```python
for episode in experience_buffer:
    for t in range(T):
        # 元の遷移を保存
        store(s_t, a_t, r_t, s_{t+1}, g_original)
        
        # HER: 未来の状態をゴールとして再利用
        for k in sample_future_states(t+1, T):
            g_new = achieved_goal(s_k)
            r_new = compute_reward(s_t, a_t, g_new)
            store(s_t, a_t, r_new, s_{t+1}, g_new)

2. Curriculum Learning

難易度を段階的に上昇させる学習スケジュール:

Phase	Terrain	Goal Distance	Max Step Height	学習ステップ数
1	平地	1-2m	0cm	1M
2	平地	2-5m	0cm	2M
3	小障害物	2-5m	3cm	3M
4	階段(低)	3-7m	5cm	5M
5	不整地	5-10m	10cm	8M

難易度関数:
$$
d(\text{env}) = w_1 \cdot |\mathbf{p}{\text{goal}}| + w_2 \cdot h{\text{max}} + w_3 \cdot \sigma_{\text{terrain}}
$$

成功率が閾値 $\eta = 0.8$ を超えたら次フェーズへ移行。

3. Domain Randomization

Sim-to-Real転移のため、シミュレーション環境のパラメータをランダム化:

$$
\xi \sim \mathcal{U}(\xi_{\min}, \xi_{\max})
$$

ランダム化対象:

質量分布: $m_i \sim \mathcal{U}(0.8m_{\text{nominal}}, 1.2m_{\text{nominal}})$
摩擦係数: $\mu \sim \mathcal{U}(0.4, 1.2)$
地面剛性: $k_{\text{ground}} \sim \mathcal{U}(10^5, 10^7)$ [N/m]
アクチュエータ遅延: $\tau_{\text{delay}} \sim \mathcal{U}(0, 5)$ [ms]
センサノイズ: $\sigma_{\text{noise}} \sim \mathcal{U}(0.01, 0.05)$

5.4 姿勢制御層におけるハイブリッドアプローチ

5.4.1 モデル予測制御とニューラルネットワークの統合

姿勢制御層では、MPCの制約保証能力とNNの計算効率を組み合わせる:

MPCの定式化:

予測ホライズン $N$ ステップにわたる最適化:
$$
\min_{\mathbf{U}{0:N-1}} \sum{k=0}^{N-1} \left[ |\mathbf{x}k - \mathbf{x}{\text{ref},k}|^2_Q + |\mathbf{u}_k|^2_R \right] + |\mathbf{x}N - \mathbf{x}{\text{ref},N}|^2_P
$$

制約条件:
$$
\begin{aligned}
\mathbf{x}_{k+1} &= f(\mathbf{x}_k, \mathbf{u}_k) \
\mathbf{x}_k &\in \mathcal{X} \
\mathbf{u}_k &\in \mathcal{U} \
\text{ZMP}k &\in \text{SupportPolygon}k \
|\ddot{\mathbf{p}}{\text{CoM},k}| &\leq a{\max}
\end{aligned}
$$

ニューラルネットワークによる高速近似:

MPCの最適解 $\mathbf{u}^*_{\text{MPC}}$ を教師信号として、NNをオフライン学習:

$$
\min_\theta \mathbb{E}{(\mathbf{x}, \mathbf{u}^) \sim \mathcal{D}} \left[ |\mathbf{u}^{\text{MPC}}(\mathbf{x}) - \pi_\theta(\mathbf{x})|^2 \right]
$$

データセット生成:

for terrain_type in [flat, stairs, slope, rough]:
    for initial_state in sample_state_space():
        x_ref = generate_reference_trajectory()
        u_optimal = solve_MPC(initial_state, x_ref)
        D.append((initial_state, x_ref, u_optimal))

オンライン実行時の統合:

[ハイブリッド制御フロー]

状態観測 x_t
    ↓
┌─────────────────┐
│ NN政策推論      │  → u_NN (1ms)
│ u = π_θ(x)      │
└─────────────────┘
    ↓
安全性チェック
    ├─ OK → u_NN を採用
    │
    └─ NG → MPC再計算 (10ms)
            ↓
            u_MPC を採用
            ↓
            (x, u_MPC) をファインチューニングバッファに追加

計算時間統計:

NN推論: 平均 0.8ms (99%タイル: 1.2ms)
MPC最適化: 平均 8.5ms (99%タイル: 15ms)
安全性チェック: 0.1ms

安全性判定基準:

以下のいずれかが成立する場合、MPCフォールバックを実行:

ZMP条件違反:
$$
\text{dist}(\text{ZMP}(\mathbf{u}{\text{NN}}), \text{SupportPolygon}) < -\delta{\text{safety}}
$$
加速度制約違反:
$$
|\ddot{\mathbf{p}}{\text{CoM}}(\mathbf{u}{\text{NN}})| > 0.9 a_{\max}
$$
不確実性が高い領域:
$$
\text{Var}{\theta}[\pi\theta(\mathbf{x})] > \sigma_{\text{threshold}}
$$

5.4.2 Residual Reinforcement Learning

既存のPD制御器の性能を強化学習で改善する残差学習アプローチは、最新の研究動向において重要な位置を占めているDeep Reinforcement Learning for Robotic Bipedal Locomotion: A Brief Survey。この手法は参照ベース学習の一形態として、既存の制御器を基盤としながら学習による改善を図る。

制御構造:

$$
\mathbf{u}{\text{total}} = \mathbf{u}{\text{PD}}(\mathbf{x}, \mathbf{x}{\text{ref}}) + \pi{\theta}(\mathbf{x}, \mathbf{x}_{\text{ref}})
$$

ここで:

$\mathbf{u}{\text{PD}} = K_p (\mathbf{q}{\text{ref}} - \mathbf{q}) + K_d (\dot{\mathbf{q}}_{\text{ref}} - \dot{\mathbf{q}})$: ベース制御器
$\pi_{\theta}$: 残差政策(小さな補正トルク)

残差政策の制約:

補正項の大きさを制限し、安定性を保証:
$$
\pi_{\theta}(\mathbf{x}, \mathbf{x}{\text{ref}}) = \alpha \cdot \tanh(\mathbf{NN}\theta(\mathbf{x}, \mathbf{x}_{\text{ref}}))
$$

ここで $\alpha = 0.2 \cdot \tau_{\max}$ (最大トルクの20%)

報酬関数:

追従性能とエネルギー効率のバランス:
$$
R = -|\mathbf{q} - \mathbf{q}{\text{ref}}|^2_W - \beta |\pi{\theta}|^2
$$

重み:

$W = \text{diag}(10, 10, 5, 5, 2, 2, 1, 1, 1, 1)$: 関節重要度
$\beta = 0.01$: エネルギーペナルティ

学習アルゴリズム:

Twin Delayed DDPG (TD3) を使用:

Actor更新:
$$
\nabla_\theta J(\theta) = \mathbb{E}{\mathbf{s} \sim \mathcal{D}} \left[ \nabla\

層間の情報伝播と相互作用の論理構造

本章では、軌道計画層、姿勢制御層、低レベル層の間で発生する情報伝播の詳細と、各層がどのように相互作用することでロボット全体の歩行制御を実現するかを体系的に説明する。層間の情報フローを理解することは、システム全体の設計、デバッグ、性能向上の鍵となる。

6.1 階層的制御システムにおける情報伝播の基本原理

6.1.1 情報伝播の方向性とタイムスケール

階層的制御システムでは、情報の流れは主に 上位層から下位層への指令伝達 と 下位層から上位層へのフィードバック の2つの方向で構成される。

下方向の情報フロー(指令伝達)

軌道計画層 → 姿勢制御層 → 低レベル層

各層のタイムスケールの特性:

層	更新周期	典型的な時間スケール	主な出力
軌道計画層	低頻度	100-500ms	目標軌道 $\xi_{\text{ref}}(t)$
姿勢制御層	中頻度	10-50ms	関節トルク指令 $\tau_{\text{des}}$
低レベル層	高頻度	1-5ms	モータ電圧/電流 $u$

タイムスケール分離の原理 : 各層の更新周期の差により、上位層の出力は下位層にとって「ゆっくり変化するパラメータ」として扱える。これにより各層の最適化問題を準独立に扱うことが可能となる。近年の研究では、計画層が数秒から数十秒先を見据えた戦略的判断を行い、MPC層が0.5〜2秒程度の予測ホライズンで動的安定性を確保し、WBC層がミリ秒単位で瞬時のトルク指令を生成するという役割分離が標準的なアプローチとなっている。

数学的には、時間スケール $\epsilon$ を用いた特異摂動理論により:

$$
\begin{aligned}
\dot{x}{\text{slow}} &= f{\text{slow}}(x_{\text{slow}}, x_{\text{fast}}) \quad \text{(軌道計画層)} \
\epsilon \dot{x}{\text{fast}} &= f{\text{fast}}(x_{\text{slow}}, x_{\text{fast}}) \quad \text{(姿勢制御層・低レベル層)}
\end{aligned}
$$

ここで $\epsilon \ll 1$ であり、$x_{\text{slow}}$ は軌道計画変数、$x_{\text{fast}}$ は姿勢・アクチュエータ状態を表す。

上方向の情報フロー(フィードバック)

低レベル層 → 姿勢制御層 → 軌道計画層

フィードバック情報の種類:

状態フィードバック : センサ情報(関節角度 $q$、角速度 $\dot{q}$、IMU、足圧センサ等)
性能フィードバック : 追従誤差、エネルギー消費、安定性マージン
外乱推定 : 地面反力の推定、予期しない外力の検出

最新の階層的制御アーキテクチャでは、関節角度や角速度といった内部状態に加えて、足底圧力センサーからの接地情報、慣性測定装置（IMU）による姿勢推定データなどが統合的に処理される。これらの情報は状態推定器を通じて統合され、モデルの予測誤差を補正するために使用される。

6.1.2 情報抽象化の階層構造

各層で扱う情報の抽象度レベルが異なることが重要である:

[抽象度高] 軌道計画層: 重心軌道、足着地位置
     ↓
[抽象度中] 姿勢制御層: 関節角度、全身姿勢
     ↓
[抽象度低] 低レベル層: モータ電流、PWM信号

情報の次元圧縮と拡張 :

下方向: 抽象的な指令を具体的な制御信号に変換(次元拡張)
上方向: 詳細なセンサ情報を要約された状態量に変換(次元圧縮)

この次元圧縮は機械学習における オートエンコーダ構造 と対応する:

$$
\begin{aligned}
\text{Encoder}: \quad & z = \phi_{\text{enc}}(s; \theta_{\text{enc}}) \quad \text{(低次元表現)} \
\text{Decoder}: \quad & \hat{s} = \phi_{\text{dec}}(z; \theta_{\text{dec}}) \quad \text{(高次元復元)}
\end{aligned}
$$

6.2 軌道計画層から姿勢制御層への情報伝播

6.2.1 軌道計画層の出力インターフェース

軌道計画層は以下の情報を姿勢制御層へ伝達する:

主要出力 :

重心軌道 $\mathbf{r}{\text{CoM}}(t) \in \mathbb{R}^3$ およびその微分 $\dot{\mathbf{r}}{\text{CoM}}(t)$, $\ddot{\mathbf{r}}_{\text{CoM}}(t)$
足先軌道 $\mathbf{p}_{\text{foot}}^{(i)}(t) \in \mathbb{R}^3, , i \in {\text{left}, \text{right}}$
接触スケジュール $c(t) \in {0,1}^2$ (各足の接地/遊脚状態)
胴体姿勢参照 $\mathbf{R}_{\text{base}}(t) \in SO(3)$ または Euler角 $(\phi, \theta, \psi)(t)$

これらは時系列データとして離散化され、時刻 $t_k$ における参照値として提供される:

$$
\Xi_{\text{ref}} = {(\mathbf{r}{\text{CoM}}(t_k), \mathbf{p}{\text{foot}}^{(L)}(t_k), \mathbf{p}{\text{foot}}^{(R)}(t_k), c(t_k))}{k=0}^{N}
$$

6.2.2 姿勢制御層での受容と変換

姿勢制御層はこれらの参照軌道を受け取り、 逆運動学(IK) と 全身ダイナミクスモデル を用いて関節空間の目標値に変換する。

逆運動学による変換

タスク空間の目標 $\mathbf{x}{\text{des}} = [\mathbf{r}{\text{CoM}}, \mathbf{p}{\text{foot}}^{(L)}, \mathbf{p}{\text{foot}}^{(R)}, \mathbf{R}{\text{base}}]$ から関節角度 $\mathbf{q}{\text{des}}$ を求める:

$$
\mathbf{q}{\text{des}} = \text{IK}(\mathbf{x}{\text{des}})
$$

多くの場合、逆運動学は冗長自由度を持つため、 二次計画法(QP) を用いて最適化する:

$$
\begin{aligned}
\mathbf{q}{\text{des}} = \arg\min{\mathbf{q}} \quad & |\mathbf{J}(\mathbf{q})\mathbf{q} - \mathbf{x}{\text{des}}|^2 + \lambda |\mathbf{q} - \mathbf{q}{\text{nominal}}|^2 \
\text{subject to} \quad & \mathbf{q}{\min} \leq \mathbf{q} \leq \mathbf{q}{\max}
\end{aligned}
$$

ここで:

$\mathbf{J}(\mathbf{q})$: ヤコビアン行列
$\mathbf{q}_{\text{nominal}}$: ニュートラルポーズ(特異姿勢回避)
$\lambda$: 正則化パラメータ

機械学習による逆運動学

従来の解析的IKの代わりに、 ニューラルネットワークベースのIK を使用することができる:

$$
\mathbf{q}{\text{des}} = \text{NN}{\text{IK}}(\mathbf{x}{\text{des}}; \theta{\text{IK}})
$$

訓練データセット $\mathcal{D}_{\text{IK}} = {(\mathbf{x}^{(i)}, \mathbf{q}^{{(i)})}_{i=1}}{M}$ を用いて、以下の損失関数を最小化:

$$
\mathcal{L}{\text{IK}} = \sum{i=1}^{M} |\mathbf{q}^{(i)} - \text{NN}{\text{IK}}(\mathbf{x}^{(i)}; \theta{\text{IK}})|^2 + \mathcal{L}{\text{reg}}(\theta{\text{IK}})
$$

利点 :

高速な推論(フィードフォワード計算のみ)
複雑な制約を暗黙的に学習可能
特異姿勢近傍での安定性向上

6.2.3 軌道追従誤差のフィードバック

姿勢制御層は実際のロボット状態 $\mathbf{x}{\text{actual}}$ と目標軌道 $\mathbf{x}{\text{des}}$ の差を計算し、誤差情報を軌道計画層にフィードバックする:

$$
\mathbf{e}{\text{tracking}}(t) = \mathbf{x}{\text{actual}}(t) - \mathbf{x}_{\text{des}}(t)
$$

このフィードバックは以下の目的で使用される:

軌道の再計画トリガー : $|\mathbf{e}{\text{tracking}}| > \epsilon{\text{threshold}}$ の場合、軌道計画層が新しい軌道を生成
学習信号 : 軌道計画層の強化学習における報酬信号の一部として利用

$$
r_{\text{tracking}} = -|\mathbf{e}{\text{tracking}}|{\mathbf{Q}}^2 = -\mathbf{e}{\text{tracking}}^T \mathbf{Q} \mathbf{e}{\text{tracking}}
$$

ここで $\mathbf{Q}$ は重み行列で、追従精度の重要度を要素ごとに調整する。

6.3 姿勢制御層から低レベル層への情報伝播

6.3.1 姿勢制御層の出力インターフェース

姿勢制御層は以下の制御指令を低レベル層へ出力する:

主要出力 :

目標関節トルク $\boldsymbol{\tau}_{\text{des}} \in \mathbb{R}^n$ (nは関節自由度数)
目標関節角度・角速度 $\mathbf{q}{\text{des}}, \dot{\mathbf{q}}{\text{des}}$ (インピーダンス制御時)
インピーダンスパラメータ $\mathbf{K}_p, \mathbf{K}_d$ (剛性・減衰係数)
接触力制約 $\mathbf{f}{\text{contact}}^{\min}, \mathbf{f}{\text{contact}}^{\max}$

これらはベクトル形式でまとめられる:

$$
\mathbf{u}{\text{mid}} = [\boldsymbol{\tau}{\text{des}}; \mathbf{K}_p; \mathbf{K}d; \mathbf{f}{\text{contact}}^{\text{limits}}]
$$

6.3.2 トルク指令からモータ指令への変換

低レベル層は目標トルク $\boldsymbol{\tau}{\text{des}}$ を受け取り、各アクチュエータの物理特性を考慮してモータ指令(電流 $\mathbf{i}{\text{motor}}$ または電圧 $\mathbf{v}_{\text{motor}}$)に変換する。

モータダイナミクスモデル

一般的なDCモータの場合:

$$
\begin{aligned}
\tau_j &= K_t i_j \quad \text{(トルク定数)} \
L_j \frac{di_j}{dt} &= v_j - R_j i_j - K_e \dot{q}_j \quad \text{(電気回路方程式)}
\end{aligned}
$$

ここで:

$K_t$: トルク定数
$K_e$: 逆起電力定数
$L_j, R_j$: モータのインダクタンス、抵抗

フィードフォワード + フィードバック制御

低レベル層は以下の制御則を実装:

$$
i_j^{\text{cmd}} = \underbrace{\frac{\tau_j^{\text{des}}}{K_t}}_{\text{FF項}} + \underbrace{K_p^{{\text{low}}(\tau_j}{\text{des}} - \hat{\tau}_j) + K_i^{\text{low}}\int (\tau_j^{\text{des}} - \hat{\tau}j)dt}{\text{FB項}}
$$

ここで $\hat{\tau}_j$ は実際のトルク推定値(電流センサやトルクセンサから取得)。

機械学習による適応的モータ制御

モータの非線形特性(摩擦、バックラッシュ、温度依存性等)を補償するために、 ニューラルネットワークベースの補償器 を導入:

$$
i_j^{\text{cmd}} = \frac{\tau_j^{\text{des}}}{K_t} + \text{NN}{\text{comp}}(\tau_j^{\text{des}}, \dot{q}j, T{\text{motor}}; \theta{\text{comp}})
$$

訓練は実機データから収集した $\mathcal{D}_{\text{motor}} = {(\tau_j^{\text{cmd}}, \dot{q}j, T{\text{motor}}, \tau_j^{\text{actual}})}$ を用いて:

$$
\mathcal{L}_{\text{motor}} = \sum |\tau_j^{\text{actual}} - \tau_j^{{\text{cmd}}|}2
$$

6.3.3 センサ情報の上方向伝播

低レベル層は高頻度で取得したセンサ情報を姿勢制御層へフィードバックする:

センサ情報の種類 :

エンコーダ : 関節角度 $\mathbf{q}{\text{actual}}$, 角速度 $\dot{\mathbf{q}}{\text{actual}}$
電流センサ : モータ電流 $\mathbf{i}_{\text{actual}}$ → トルク推定 $\hat{\boldsymbol{\tau}}$
力覚センサ : 足裏の接触力 $\mathbf{f}_{\text{contact}}$
IMU : 胴体の姿勢 $\mathbf{R}{\text{base}}$, 角速度 $\boldsymbol{\omega}{\text{base}}$, 加速度 $\mathbf{a}_{\text{base}}$

これらのローデータは高周波ノイズを含むため、 カルマンフィルタ や 相補フィルタ で処理される:

$$
\hat{\mathbf{x}}{k} = \mathbf{A}\hat{\mathbf{x}}{k-1} + \mathbf{K}_k(\mathbf{z}k - \mathbf{C}\mathbf{A}\hat{\mathbf{x}}{k-1})
$$

ここで:

$\hat{\mathbf{x}}_k$: 推定状態(角度、速度等)
$\mathbf{z}_k$: センサ観測値
$\mathbf{K}_k$: カルマンゲイン

学習ベースのセンサフュージョン

複数センサの融合を ニューラルネットワーク で実現:

$$
\hat{\mathbf{x}} = \text{NN}{\text{fusion}}([\mathbf{q}{\text{enc}}, \mathbf{i}{\text{motor}}, \mathbf{f}{\text{contact}}, \text{IMU}]; \theta_{\text{fusion}})
$$

Long Short-Term Memory (LSTM) を用いて時系列の文脈を考慮:

$$
\mathbf{h}t = \text{LSTM}(\mathbf{z}t, \mathbf{h}{t-1}; \theta{\text{LSTM}})
$$

$$
\hat{\mathbf{x}}_t = \text{MLP}(\mathbf{h}t; \theta{\text{MLP}})
$$

これにより、センサ故障時の ロバスト性向上 や、遅延センサ情報の 予測補間 が可能となる。

6.4 姿勢制御層から軌道計画層への情報伝播

6.4.1 状態推定情報のフィードバック

姿勢制御層は、低レベル層から受け取った詳細なセンサ情報を統合・要約し、軌道計画層へフィードバックする。

フィードバックされる主要情報 :

全身状態ベクトル $\mathbf{s}{\text{full}} = [\mathbf{q}, \dot{\mathbf{q}}, \mathbf{R}{\text{base}}, \boldsymbol{\omega}_{\text{base}}]$
重心位置・速度 $[\mathbf{r}{\text{CoM}}, \dot{\mathbf{r}}{\text{CoM}}]$
Zero Moment Point (ZMP) $\mathbf{p}_{\text{ZMP}}$
接触状態 $\mathbf{c}_{\text{actual}} \in {0,1}^2$

ZMPの計算

ZMPは動的安定性の指標として重要で、以下で計算される:

$$
\mathbf{p}_{\text{ZMP}} = \frac{\sum_i (m_i \mathbf{r}_i \times (\mathbf{g} + \ddot{\mathbf{r}}i)){xy}}{\sum_i m_i (\mathbf{g} + \ddot{\mathbf{r}}_i)_z}
$$

ここで:

$m_i$: リンク$i$の質量
$\mathbf{r}_i$: リンク$i$の位置
$\mathbf{g}$: 重力加速度

姿勢制御層で計算されたZMPは、軌道計画層の 安定性評価 に使用される。

6.4.2 性能指標と報酬信号の伝達

強化学習ベースの軌道計画層では、姿勢制御層から 報酬信号 が伝達される必要がある。

報酬信号の構成要素:

$$
r_t = \underbrace{r_{\text{tracking}}}{\text{軌道追従}} + \underbrace{r{\text{stability}}}{\text{安定性}} + \underbrace{r{\text{efficiency}}}{\text{効率性}} + \underbrace{r{\text{smoothness}}}_{\text{滑らかさ}}
$$

各項の定義:

軌道追従報酬 :
$$
r_{\text{tracking}} = -|\mathbf{r}{\text{CoM}}^{\text{actual}} - \mathbf{r}{\text{CoM}}^{{\text{ref}}|}2 - |\mathbf{p}{\text{foot}}^{\text{actual}} - \mathbf{p}{\text{foot}}^{{\text{ref}}|}2
$$
安定性報酬 :
$$
r_{\text{stability}} = -|\mathbf{p}{\text{ZMP}} - \mathbf{p}{\text{support_center}}|^2 - \alpha |\boldsymbol{\omega}_{\text{base}}|^2
$$
効率性報酬 :
$$
r_{\text{efficiency}} = -\boldsymbol{\tau}^T \mathbf{W}_{\tau} \boldsymbol{\tau} - \beta |\dot{\boldsymbol{\tau}}|^2
$$
滑らかさ報酬 :
$$
r_{\text{smoothness}} = -|\ddot{\mathbf{q}}|^2 - \gamma |\dddot{\mathbf{q}}|^2
$$

これらの報酬は姿勢制御層での実測値から計算され、軌道計画層の方策 $\pi_{\theta}$ の更新に使用される。

6.4.3 外乱推定と適応的再計画のトリガー

姿勢制御層は、予期しない外乱や環境変化を検出し、軌道計画層に 再計画トリガー を送信する。

外乱オブザーバ

外乱トルク $\boldsymbol{\tau}_{\text{dist}}$ を推定:

$$
\boldsymbol{\tau}{\text{dist}} = \boldsymbol{\tau}{\text{actual}} - \mathbf{M}(\mathbf{q})\ddot{\mathbf{q}} - \mathbf{C}(\mathbf{q}, \dot{\mathbf{q}})\dot{\mathbf{q}} - \mathbf{g}(\mathbf{q})
$$

ここで右辺第2項以降はモデルベースの予測トルクであり、実測トルク $\boldsymbol{\tau}_{\text{actual}}$ との差が外乱となる。

再計画トリガー条件

以下のいずれかが満たされた場合、軌道計画層に再計画を要求:

追従誤差超過 : $|\mathbf{e}{\text{tracking}}| > \epsilon{\text{track}}$
ZMP逸脱 : $\mathbf{p}_{\text{ZMP}} \notin \text{Support Polygon}$
外乱検出 : $|\boldsymbol{\tau}{\text{dist}}| > \tau{\text{threshold}}$
接触状態不一致 : $\mathbf{c}{\text{actual}} \neq \mathbf{c}{\text{planned}}$

再計画要求メッセージの構造:

ReplanRequest {
  trigger_type: DISTURBANCE | ZMP_VIOLATION | TRACKING_ERROR
  current_state: s_t
  disturbance_estimate: τ_dist
  remaining_trajectory: ξ_ref[t:T]
}

6.5 低レベル層から姿勢制御層への情報伝播

6.5.1 高頻度センサデータのストリーミング

低レベル層は1-5msの高頻度でセンサデータを取得し、姿勢制御層へストリーミングする。データレートが高いため、 効率的な通信プロトコル が必要となる。

センサデータパケット構造

SensorPacket {
  timestamp: t_k
  joint_positions: q[1:n]
  joint_velocities: q_dot[1:n]
  motor_currents: i[1:n]
  imu_data: [R_base, ω_base, a_base]
  force_sensors: [f_left, f_right]
  status_flags: {contact_detected, over_current, ...}
}

データダウンサンプリングと集約

姿勢制御層の更新周期(10-50ms)に合わせてデータを ダウンサンプリング :

$$
\mathbf{z}{k}^{\text{down}} = \frac{1}{M}\sum{j=0}^{M-1} \mathbf{z}_{kM+j}^{\text{raw}}
$$

ここで $M$ はダウンサンプリング比(例: 5ms周期のデータを25ms周期に変換する場合 $M=5$)。

6.5.2 実トルク推定とモデル誤差のフィードバック

低レベル層で測定されたモータ電流から実際の関節トルクを推定:

$$
\hat{\tau}j = K_t i_j - \tau{\text{friction}}(\dot{q}j) - \tau{\text{gravity}}(q)
$$

摩擦モデル:

$$
\tau_{\text{friction}}(\dot{q}j) = \tau{\text{coulomb}} \cdot \text{sign}(\dot{q}j) + b{\text{viscous}} \dot{q}_j
$$

モデル誤差 の計算:

$$
\Delta \tau_j = \hat{\tau}_j^{\text{measured}} - \tau_j^{\text{model}}
$$

この誤差情報は姿勢制御層で以下に使用される:

適応制御 : モデルパラメータのオンライン更新
学習データ : ニューラルネットワークベースの動力学モデル補正
異常検知 : $|\Delta \boldsymbol{\tau}| > \Delta\tau_{\text{threshold}}$ で故障検出

学習ベースのモデル誤差補正

動力学モデル誤差を学習で補正:

$$
\boldsymbol{\tau} = \underbrace{\mathbf{M}(\mathbf{q})\ddot{\mathbf{q}} + \mathbf{C}(\mathbf{q}, \dot{\mathbf{q}})\dot{\mathbf{q}} + \mathbf{g}(\mathbf{q})}{\text{物理モデル}} + \underbrace{\text{NN}{\text{residual}}(\mathbf{q}, \dot{\mathbf{q}}, \ddot{\mathbf{q}}; \theta_{\text{res}})}_{\text{学習補正項}}
$$

訓練は実機から収集したデータセット $\mathcal{D}{\text{dyn}} = {(\mathbf{q}, \dot{\mathbf{q}}, \ddot{\mathbf{q}}, \boldsymbol{\tau}{\text{measured}})}$ を用いて実行。

6.6 層間インターフェースの形式的定義

6.6.1 抽象的なインターフェース仕様

各層間の情報交換を 形式的に定義 することで、システム設計とデバッグが容易になる。

インターフェース1: 軌道計画層 → 姿勢制御層

入力型定義 :

$$
\mathcal

従来制御理論との比較による方法論的差異

7.1 方法論的パラダイムの根本的相違

7.1.1 制御設計の哲学的差異

二足歩行ロボットの制御における従来制御理論と機械学習手法は、 問題へのアプローチにおける根本的なパラダイムの違い を持つ。

従来制御理論のパラダイム

┌─────────────────────────────────────────┐
│  モデルベース制御アプローチ              │
├─────────────────────────────────────────┤
│                                         │
│  1. 物理モデル構築                       │
│     ↓                                   │
│  2. 線形化/近似                          │
│     ↓                                   │
│  3. 制御則設計（解析的）                 │
│     ↓                                   │
│  4. 安定性証明                           │
│     ↓                                   │
│  5. ゲイン調整                           │
│                                         │
│  特徴：演繹的、理論保証、明示的モデル     │
└─────────────────────────────────────────┘

機械学習手法のパラダイム

┌─────────────────────────────────────────┐
│  データ駆動型制御アプローチ              │
├─────────────────────────────────────────┤
│                                         │
│  1. 報酬関数定義                         │
│     ↓                                   │
│  2. 試行錯誤/シミュレーション            │
│     ↓                                   │
│  3. ポリシー最適化（学習的）             │
│     ↓                                   │
│  4. 性能評価                             │
│     ↓                                   │
│  5. 再学習/適応                          │
│                                         │
│  特徴：帰納的、経験的最適化、暗黙的表現   │
└─────────────────────────────────────────┘

7.1.2 知識の表現形式の違い

比較軸	従来制御理論	機械学習手法
知識の形式	明示的な数式・ゲイン	ニューラルネットワークの重み
設計者の役割	制御則の直接設計	報酬関数の設計
適応性	固定的（再設計必要）	継続的学習可能
解釈可能性	高い（各パラメータに意味）	低い（ブラックボックス的）
理論保証	安定性定理で保証	確率的保証のみ

7.2 軌道計画層における方法論的差異

7.2.1 従来手法：モデル予測制御（MPC）

基本構造

従来の軌道計画では、 明示的な動力学モデルに基づく最適化 が行われる：

$$
\begin{align}
\min_{\mathbf{u}{0:N-1}} \quad & \sum{k=0}^{N-1} \left[ |\mathbf{x}_k - \mathbf{x}_k^{{\text{ref}}|_Q}2 + |\mathbf{u}_k|_R^2 \right] + |\mathbf{x}_N - \mathbf{x}N^{{\text{ref}}|_P}2 \
\text{s.t.} \quad & \mathbf{x}{k+1} = f(\mathbf{x}_k, \mathbf{u}_k) \quad \text{（明示的動力学モデル）} \
& \mathbf{g}(\mathbf{x}_k, \mathbf{u}_k) \leq 0 \quad \text{（制約条件）}
\end{align}
$$

特徴：

モデル $f$ は物理法則から導出された明示的関数
各ステップで最適化問題を解く（リアルタイム最適化）
計算コスト：$O(N^3 \cdot n_x^3)$（状態数、ホライゾン長に依存）

制約条件の明示的扱い

従来MPC：
┌──────────────────────────────────────┐
│ 制約条件（不等式制約）                │
├──────────────────────────────────────┤
│ • ZMP条件： ZMP ∈ Support Polygon     │
│ • 関節角制限： θ_min ≤ θ ≤ θ_max     │
│ • トルク制限： |τ| ≤ τ_max           │
│ • 摩擦錐制約： |F_t| ≤ μ·F_n         │
└──────────────────────────────────────┘
        ↓
  二次計画問題(QP)として定式化
  凸最適化ソルバー（OSQP, qpOASESなど）で求解

7.2.2 機械学習手法：深層強化学習による軌道生成

基本構造

機械学習手法では、 ポリシーネットワークが直接軌道を出力 ：

$$
\begin{align}
\pi_\theta(\mathbf{a}_t | \mathbf{s}_t) &: \text{確率的ポリシー（ニューラルネットワーク）} \
\mathbf{s}_t &= [\mathbf{q}t, \dot{\mathbf{q}}t, \mathbf{p}{\text{goal}}, \text{terrain info}] \
\mathbf{a}t &= [\mathbf{p}{\text{foot}}^{\text{target}}, \dot{\mathbf{p}}{\text{CoM}}^{\text{target}}]
\end{align}
$$

目的関数（累積報酬）：

$$
J(\theta) = \mathbb{E}{\tau \sim \pi\theta} \left[ \sum_{t=0}^T \gamma^t r_t \right]
$$

報酬関数の構造例：

$$
r_t = \underbrace{-|\mathbf{v}{\text{CoM}} - \mathbf{v}{\text{ref}}|^2}{\text{速度追従}}
\underbrace{-\alpha |\mathbf{a}t|^2}{\text{エネルギー効率}}
\underbrace{+ \beta \cdot \mathbb{1}{\text{stable}}}{\text{安定性ボーナス}}
\underbrace{- \gamma \cdot \text{fall_penalty}}{\text{転倒ペナルティ}}
$$

特徴：

モデル $f$ は学習過程で暗黙的に獲得
制約条件は報酬関数のペナルティ項として組み込み
計算コスト：推論時 $O(L \cdot W^2)$（ネットワーク構造に依存、通常極めて高速）

制約条件の扱いの違い

機械学習手法：
┌──────────────────────────────────────┐
│ 制約条件（ソフト制約としての報酬設計）│
├──────────────────────────────────────┤
│ • ZMP条件： r -= λ₁·dist(ZMP, SP)²   │
│ • 関節角制限： r -= λ₂·max(0,θ-θ_max)²│
│ • エネルギー： r -= λ₃·‖τ‖²          │
│ • 衝突回避： r -= λ₄·collision_cost  │
└──────────────────────────────────────┘
        ↓
  強化学習（PPO, SAC等）で最適化
  学習中に制約充足を自動獲得

7.2.3 比較図解

┌─────────────────────────────────────────────────────────────┐
│             軌道計画層：方法論的差異の構造                    │
└─────────────────────────────────────────────────────────────┘

従来手法（MPC）:
  現在状態 → [動力学モデル] → 予測ホライゾン → [QP solver] → 最適制御入力
     x_t         f(x,u)         x_{t+1:t+N}      制約充足     u_t
     ↑                                                         ↓
     └─────────────────────────────────────────────────────────┘
                        リアルタイムで繰り返し

機械学習手法（DRL）:
  現在状態 → [ニューラルネット π_θ] → 行動（軌道指令）
     s_t         学習済みポリシー           a_t
     
  学習フェーズ：
  Environment → State → Policy → Action → Reward → Parameter Update
      ↑                                                    ↓
      └────────────────────────────────────────────────────┘
                  数百万ステップの試行錯誤

7.2.4 定量的性能比較

評価指標	従来MPC	機械学習（DRL）
計算時間（1ステップ）	10-50 ms	0.1-1 ms
適応性（新環境）	再調整必要	高い汎化性能
安定性保証	理論的保証あり	経験的のみ
学習コスト	なし	数日～数週間
パラメータ調整	ゲイン10-20個	ハイパーパラメータ数十個

7.2.5 標準化ベンチマークによる実証比較

2024年に実施されたUnitree Go1ロボットを用いたMuJoCoシミュレーションでの標準化ベンチマークでは、MPCとRLの性能が三つの主要観点から体系的に評価されました：

外乱耐性の比較

小中規模外乱（< 50N）：

RL制御器 : 学習された方策により効果的に摂動を吸収し、優れた応答性を示す
MPC : 明示的なモデルに基づく予測により安定した応答を維持

大規模外乱（> 50N）：

MPC : 事前定義された動力学モデルと制約により、構造的安定性を確保
RL : 学習データの範囲を超える外乱に対して性能低下の可能性

最大許容外乱 [N]
  ↑
100│         ████████ MPC（理論的制約による安定性）
   │         
 50│    ████████ RL（学習範囲内で高性能）
   │    
  0├──────────────────────────────────→
    小規模  中規模  大規模  極限

エネルギー効率の特性

ベンチマーク研究では、両手法のエネルギー消費パターンに顕著な差異が観察されました：

RL制御器 : 報酬関数にエネルギー項を組み込むことで、動作全体を通じた効率的な軌道生成が可能
MPC : 各時間ステップでの最適化により計算コストが高く、エネルギー効率はコスト関数設計に強く依存

地形適応性の評価

平坦地形：

両手法とも高い性能を達成、MPCは予測可能性により安定性で優位

不整地・階段：

RL : Domain Randomizationによる学習により、多様な地形に対する汎化性能を獲得
MPC : 地形の正確なモデル化が必要、未知の地形では再調整コストが発生

7.3 姿勢制御層における方法論的差異

7.3.1 従来手法：線形化とフィードバック制御

線形化に基づくアプローチ

従来の姿勢制御は、 動力学の線形化と古典制御理論 に依存：

$$
\begin{align}
\ddot{\mathbf{x}} &= f(\mathbf{x}, \mathbf{u}) \quad \text{（非線形動力学）} \
&\approx \mathbf{A}\mathbf{x} + \mathbf{B}\mathbf{u} \quad \text{（平衡点周りで線形化）}
\end{align}
$$

線形二次レギュレータ（LQR）による制御則設計：

$$
\begin{align}
\min_{\mathbf{u}} \quad & \int_0^\infty (\mathbf{x}^T \mathbf{Q} \mathbf{x} + \mathbf{u}^T \mathbf{R} \mathbf{u}) dt \
\Rightarrow \mathbf{u} &= -\mathbf{K}\mathbf{x} \quad \text{（閉形式解）}
\end{align}
$$

ゲイン行列 $\mathbf{K}$ の導出：

$$
\mathbf{K} = \mathbf{R}^{{-1}\mathbf{B}}T\mathbf{P}
$$

ここで $\mathbf{P}$ はリカッチ方程式の解：

$$
\mathbf{A}^T\mathbf{P} + \mathbf{P}\mathbf{A} - \mathbf{P}\mathbf{B}\mathbf{R}^{{-1}\mathbf{B}}T\mathbf{P} + \mathbf{Q} = 0
$$

構造図

┌────────────────────────────────────────────┐
│      従来姿勢制御（LQR/PD制御）            │
├────────────────────────────────────────────┤
│                                            │
│  基準軌道 x_ref ──(+)── PD Controller ──→ τ│
│                   (-)                      │
│                    ↑                       │
│                    └── 状態フィードバック x │
│                                            │
│  制御則： τ = K_p(x_ref - x) - K_d·ẋ       │
│                                            │
│  ゲイン調整：                               │
│  • K_p, K_d は手動チューニング             │
│  • または極配置法、LQRで最適設計           │
└────────────────────────────────────────────┘

利点と限界

利点：

安定性保証（リアプノフ理論）
明確な物理的解釈
実時間計算が極めて軽量

限界：

線形化の仮定（大きな外乱に弱い）
非線形性・不確かさへの対応困難
複雑な接触状態の扱いが困難

7.3.2 機械学習手法：ニューラルネットワーク制御器

非線形関数近似器としてのNN

機械学習手法では、 ニューラルネットワークが非線形制御則を直接学習 ：

$$
\boldsymbol{\tau}t = \pi\theta(\mathbf{s}t) = \text{NN}\theta(\mathbf{s}_t)
$$

状態ベクトルの構成：

$$
\mathbf{s}t = \begin{bmatrix}
\mathbf{q}t & \dot{\mathbf{q}}t & \mathbf{q}{\text{ref},t} & \dot{\mathbf{q}}{\text{ref},t} & \mathbf{r}{\text{contact}} & \mathbf{f}_{\text{GRF}}
\end{bmatrix}^T
$$

ここで：

$\mathbf{q}_t$: 関節角度
$\mathbf{r}_{\text{contact}}$: 接触状態（バイナリベクトル）
$\mathbf{f}_{\text{GRF}}$: 地面反力推定値

ネットワーク構造例

┌───────────────────────────────────────────────────────┐
│   機械学習姿勢制御器（Actor-Critic Architecture）      │
├───────────────────────────────────────────────────────┤
│                                                       │
│  State s_t (dim: 50-100)                              │
│       ↓                                               │
│  [Shared Encoder: 256 units × 3 layers]               │
│       ↓                          ↓                    │
│  [Actor Head]               [Critic Head]             │
│   128 → 64 → n_joints        128 → 64 → 1             │
│       ↓                          ↓                    │
│   τ_t (トルク出力)           V(s_t) (状態価値)         │
│                                                       │
│  活性化関数： ReLU / ELU                               │
│  出力層： tanh (トルク範囲制限)                        │
└───────────────────────────────────────────────────────┘

学習による適応と汎化

従来制御との最大の差異： 環境変化への適応能力

┌─────────────────────────────────────────────────────┐
│          適応学習プロセス                            │
├─────────────────────────────────────────────────────┤
│                                                     │
│  初期学習：平坦地形                                  │
│     ↓                                               │
│  Transfer Learning：段差・階段                      │
│     ↓                                               │
│  Domain Randomization：質量・摩擦係数変動           │
│     ↓                                               │
│  Online Adaptation：実機での微調整                  │
│                                                     │
│  結果：単一制御器で多様な条件に対応                  │
└─────────────────────────────────────────────────────┘

7.3.3 外乱対応の比較

外乱印加時の応答例

シナリオ	従来制御（LQR+PD）	機械学習制御
予期された外乱	優れた応答（モデル化済み）	同等の応答
予期しない外乱	性能低下・不安定化	ロバストな応答
継続的外乱	ゲイン再調整必要	自動適応
複合外乱	線形仮定崩壊	非線形対応可能

視覚的比較：

外乱応答の時系列比較（横方向推力 50N を t=2s に印加）

姿勢角度偏差 [deg]
  ↑
 5│         従来制御（破線）
  │           ╱╲
  │          ╱  ╲___
 0├─────────────────────────────────→ 時刻 [s]
  │    ～～～～～～～～    機械学習制御（実線）
-5│
  0    1    2    3    4    5

従来制御： 大きなオーバーシュート、振動
機械学習： 滑らかな回復、最小偏差

7.4 低レベル層における方法論的差異

7.4.1 従来手法：カスケード制御とトルク制御

階層的制御構造

従来の低レベル制御は、 明確な階層構造 を持つ：

┌──────────────────────────────────────────────────────┐
│        従来カスケード制御アーキテクチャ               │
├──────────────────────────────────────────────────────┤
│                                                      │
│  位置指令 q_ref ─→ [位置制御器] ─→ 速度指令 q̇_ref   │
│                      (外側ループ)                    │
│                                                      │
│  速度指令 q̇_ref ─→ [速度制御器] ─→ トルク指令 τ_ref │
│                      (中間ループ)                    │
│                                                      │
│  トルク指令 τ_ref ─→ [トルク制御] ─→ 電流指令 i     │
│                      (内側ループ)                    │
│                                                      │
│  各ループ： PID制御（独立設計）                       │
│  ループ周波数： 位置(100Hz) > 速度(1kHz) > 電流(10kHz)│
└──────────────────────────────────────────────────────┘

各ループの制御則

位置制御ループ：

$$
\dot{q}{\text{ref}} = K_p^{\text{pos}}(q{\text{ref}} - q) + K_d^{\text{pos}}(\dot{q}_{\text{ref}} - \dot{q})
$$

速度制御ループ：

$$
\tau_{\text{ref}} = K_p^{\text{vel}}(\dot{q}{\text{ref}} - \dot{q}) + K_i^{\text{vel}}\int (\dot{q}{\text{ref}} - \dot{q}) dt
$$

トルク制御ループ：

$$
i = K_t^{-1}\tau_{\text{ref}} + K_{\text{comp}}(\tau_{\text{ref}} - \hat{\tau})
$$

7.4.2 機械学習手法：エンドツーエンド制御

単一ネットワークによる統合制御

機械学習手法では、 全ループを単一ネットワークで統合 ：

$$
\mathbf{u}{\text{motor}} = \pi\theta^{\text{low}}(\mathbf{s}_{\text{low}})
$$

入力状態：

$$
\mathbf{s}{\text{low}} = [\mathbf{q}, \dot{\mathbf{q}}, \ddot{\mathbf{q}}, \mathbf{q}{\text{des}}, \boldsymbol{\tau}{\text{measured}}, \mathbf{i}{\text{motor}}]
$$

構造比較

┌──────────────────────────────────────────────────────┐
│      機械学習エンドツーエンド制御                     │
├──────────────────────────────────────────────────────┤
│                                                      │
│  統合状態 s_low ──→ [Deep NN] ──→ モータ指令 u      │
│  (全センサ情報)      π_θ^low      (PWM/電流)        │
│                                                      │
│  特徴：                                               │
│  • カスケード構造なし（単一出力）                     │
│  • 遅延・ノイズを暗黙的に補償                         │
│  • 複数関節の協調を自動学習                          │
│                                                      │
│  学習方法：模倣学習 + 強化学習                        │
│  専門家データ：従来PID制御の軌跡                      │
└──────────────────────────────────────────────────────┘

7.4.3 遅延補償とノイズ対応

従来手法の問題

センサ遅延・ノイズの影響：

理想：  q_actual ──→ [制御器] ──→ τ
           ↑
実際：  q_measured (遅延δt、ノイズσ)
           ↓
       不安定化・振動の原因

対策： カルマンフィルタ、状態推定器の追加
      → 計算コスト増、パラメータ調整複雑化

機械学習の暗黙的補償

機械学習制御器は学習過程で自動的にノイズ・遅延に対応：

$$
\pi_\theta(\mathbf{s}{\text{noisy}}) \approx \pi^*(\mathbf{s}{\text{true}})
$$

学習時のデータ拡張：

# 擬似コード：ノイズ・遅延のシミュレーション
def augment_state(s_true):
    # センサノイズ
    s_noisy = s_true + N(0, σ_sensor)
    
    # 通信遅延（過去の状態を使用）
    s_delayed = state_buffer[t - delay_steps]
    
    # ドロップアウト（センサ故障）
    s_dropout = randomly_mask(s_noisy, p=0.1)
    
    return s_dropout

# 学習データ全体に適用
# → 制御器は自動的にロバスト性獲得

7.4.4 モータ特性への適応

要素	従来手法	機械学習手法
モータモデル	明示的な電気機械モデル	暗黙的に学習
摩擦補償	クーロン+粘性摩擦モデル	データから自動補償
バックラッシュ	個別の補償器追加	統合的に学習
劣化・摩耗	再キャリブレーション必要	オンライン適応可能

7.5 計算効率と実時間性の比較

7.5.1 計算コストの定量分析

従来制御の計算構造

┌─────────────────────────────────────────────────────┐
│       従来制御の計算フロー（1制御サイクル）          │
├─────────────────────────────────────────────────────┤
│                                                     │
│ 1. 状態推定（カルマンフィルタ）   : 2-3 ms          │
│ 2. 軌道計画（MPC最適化）          : 10-50 ms        │
│ 3. 姿勢制御（行列演算）           : 0.5-1 ms        │
│ 4. トルク分配（QP）               : 1-2 ms          │
│ 5. 低レベル制御（PID）            : 0.1 ms          │
│                                  ─────────          │
│ 合計：                            13.6-56.1 ms      │
│                                                     │
│ ボトルネック： MPC最適化（QP solver）                │
└─────────────────────────────────────────────────────┘

機械学習手法の計算構造

┌─────────────────────────────────────────────────────┐
│     機械学習制御の計算フロー（1制御サイクル）        │
├─────────────────────────────────────────────────────┤
│                                                     │
│ 1. 状態エンコード                 : 0.1 ms          │
│ 2. NN推論（軌道計画層）           : 0.5-1 ms        │
│ 3. NN推論（姿勢制御



# 計算実現可能性と収束性の保証条件

## 8.1 計算実現可能性の概要と制御系への要求

2足歩行ロボットの制御系において、機械学習ベースの最適化手法を実装する際、理論的な正当性だけでなく **計算実現可能性** が極めて重要となる。各制御層は異なる時間スケールで動作し、リアルタイム性の要求が異なるため、層ごとに計算制約を明確化する必要がある。

### 8.1.1 リアルタイム制御における時間制約

各層の制御周期と計算時間要求を以下に整理する:

| 制御層 | 制御周期 | 計算時間制約 | 主要計算内容 |
|--------|----------|--------------|--------------|
| **軌道計画層** | 100-500 ms | < 50-200 ms | 軌道最適化、NN推論 |
| **姿勢制御層** | 10-50 ms | < 5-20 ms | ZMP計算、トルク最適化 |
| **低レベル層** | 1-5 ms | < 0.5-2 ms | PD制御、力制御 |

[時間スケール図]

軌道計画層: |████████████████|..................|████████████████|
0ms 200ms 400ms 600ms

姿勢制御層: |███|███|███|███|███|███|███|███|███|███|███|███|
0 20 40 60 80 100 120 140 160 180 200 220 (ms)

低レベル層: |█|█|█|█|█|█|█|█|█|█|█|█|█|█|█|█|█|█|█|█|█|█|█|█|
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 (ms)

        ← 短時間 | 計算密度 | 長時間 →


### 8.1.2 計算複雑度の層別分析

各層における主要計算の計算量を評価する:

**軌道計画層:**
- ニューラルネットワーク推論:  $O(L \cdot n_{max}^2)$  
  -  $$L$$ : 層数、 $n_{max}$ : 最大ニューロン数
- 軌道最適化 (MPC):  $O(N_h \cdot n_q^3)$ 
  -  $$N_h$$ : ホライズン長、 $$n_q$$ : 状態次元

**姿勢制御層:**
- QP最適化:  $O(n_c^3 + n_u \cdot n_c^2)$ 
  -  $$n_c$$ : 制約数、 $$n_u$$ : 制御入力次元
- ZMP計算:  $$O(n_j)$$ 
  -  $$n_j$$ : 関節数

**低レベル層:**
- PD制御:  $$O(n_j)$$ 
- 強化学習方策推論:  $O(n_j \cdot n_h)$ 
  -  $$n_h$$ : 隠れ層サイズ

## 8.2 軌道計画層の計算実現可能性

### 8.2.1 オンライン最適化の計算削減手法

軌道計画層では、以下の戦略により計算量を削減する:

#### (1) Warm-Start戦略

前回の最適解を初期値として利用することで、収束を加速:


 $\mathbf{x}_0^{(k)} = \text{shift}(\mathbf{x}^{*(k-1)}) + \Delta \mathbf{x}_{\text{predict}}$ 


-  $\mathbf{x}^{*(k-1)}$ : 前回の最適軌道
-  $\text{shift}$ : 時間軸方向のシフト操作
-  $\Delta \mathbf{x}_{\text{predict}}$ : 予測補正項

**収束速度の改善:**
- Warm-Startなし: 平均15-25反復
- Warm-Startあり: 平均3-7反復
- **計算時間削減率: 約70-80%**

#### (2) Model Predictive Control (MPC) のホライズン短縮

計算量は $$O(N_h^3)$$ でホライズン長 $$N_h$$ に依存するため、適応的調整を行う:


 $N_h^{(k)} = \begin{cases} N_{\text{long}} & \text{if } \text{状況が安定} \\ N_{\text{short}} & \text{if } \text{計算時間超過リスク} \\ N_{\text{adaptive}} & \text{else} \end{cases}$ 


典型的な設定:
-  $N_{\text{long}} = 20$  ステップ (2秒先まで)
-  $N_{\text{short}} = 10$  ステップ (1秒先まで)

#### (3) Neural Network による軌道の事前推定

学習済みNNで粗い軌道を高速生成し、最適化の初期値とする:

[計算フロー図]

入力状態 → [NN推論] → 粗軌道 → [微調整最適化] → 最終軌道
s_t (5-10ms) x̃(t) (20-40ms) x*(t)

従来手法: [ゼロ初期化] → [完全最適化] → 最終軌道
(100-200ms) x*(t)

計算時間比較:
NN+最適化: ████░░░░░░ (30-50ms)
従来手法: ██████████ (100-200ms)


### 8.2.2 ニューラルネットワークの軽量化

**プルーニング (Pruning):**
重要度の低い重み $w_{ij}$ を削除:


 $w_{ij}^{\text{pruned}} = \begin{cases} w_{ij} & \text{if } |w_{ij}| > \theta_{\text{prune}} \\ 0 & \text{otherwise} \end{cases}$ 


- スパース率70-80%で精度損失<5%を実現可能
- 推論時間を50-60%削減

**量子化 (Quantization):**
浮動小数点数を整数表現に変換:


 $w_{ij}^{\text{quant}} = \text{round}\left(\frac{w_{ij}}{s}\right) \cdot s$ 


-  $$s$$ : スケール因子
- 16bit量子化で推論速度2-3倍向上

### 8.2.3 並列計算による高速化

**GPUアクセラレーション:**
軌道計画の複数候補を並列評価:

```python
# 擬似コード
candidates = generate_trajectory_candidates(N_candidates=100)
costs = parallel_evaluate_on_GPU(candidates)  # 並列評価
best_trajectory = candidates[argmin(costs)]

CPU逐次処理: 150-200 ms
GPU並列処理: 20-40 ms
高速化率: 約5-7倍

8.3 姿勢制御層の計算実現可能性

8.3.1 QP最適化ソルバーの選択

姿勢制御層のQP問題:

\begin{align} \min_{\boldsymbol{\tau}, \mathbf{f}} \quad & \frac{1}{2}\|\mathbf{M}\ddot{\mathbf{q}}_{\text{ref}} - \mathbf{h} - \mathbf{S}^T\boldsymbol{\tau} - \mathbf{J}_c^T\mathbf{f}\|^2 + \lambda \|\boldsymbol{\tau}\|^2 \\ \text{s.t.} \quad & \boldsymbol{\tau}_{\min} \leq \boldsymbol{\tau} \leq \boldsymbol{\tau}_{\max} \\ & \mathbf{f} \in \mathcal{FC} \end{align}

脚式ロボットの実時間制御では、100〜1000Hzの制御周期でQP問題を繰り返し解く必要があり、ソルバーの速度、メモリ消費量、数値ロバスト性が重要な性能指標となる。

8.3.1.1 主要ソルバーのアルゴリズム分類

最先端のQPソルバーは、数理的基盤により以下のカテゴリに分類される:

能動集合法 (Active-Set Methods):

qpOASES : 各反復で能動制約集合を更新しながら等式制約付き部分問題を解く
Warm-start機能に優れ、連続する類似問題の高速求解に適する
制約が疎な場合や中規模問題で効率的

オペレータ分割法 (Operator-Splitting Methods):

OSQP : Alternating Direction Method of Multipliers (ADMM) ベース
最適性条件を演算子の不動点問題として扱い、近接演算子の反復適用により解を求める
大規模疎行列問題に強く、反復数が予測可能

近接法 (Proximal Methods):

ProxQP : 増強ラグランジアンに基づく近接点法を用いた汎用ソルバー
密行列・疎行列の両方に対応し、高精度と高速性を両立
数値安定性に優れ、悪条件問題でもロバスト

内点法 (Interior-Point Methods):

Gurobi : 制約条件を対数バリア関数として目的関数に組み込む
高精度解を安定して得られるが、反復ごとの計算コストが高い

8.3.1.2 ロボティクス応用における性能比較

リアルタイムQPソルバーの性能ベンチマーク:

ソルバー	アルゴリズム	平均計算時間	最悪計算時間	制約数上限	Warm-start効率
qpOASES	能動集合法	2-5 ms	12 ms	~200	★★★★★
OSQP	ADMM	3-8 ms	15 ms	~300	★★★★☆
ProxQP	近接法	1-3 ms	8 ms	~150	★★★★☆
Gurobi	内点法	1-4 ms	10 ms	~500	★★★☆☆

選択基準:

リアルタイム性 : 制御周期20msに対して、最悪時計算時間<10ms
安定性 : 解の不存在時のフォールバック機能
ウォームスタート : 後退地平線制御では連続するQP問題が類似しているため、前回解を初期値とするウォームスタート機能が高速収束に不可欠
ライセンス : 商用・研究用途の制約

8.3.1.3 組み込みプラットフォームでの実装考慮事項

リソース制約のある組み込みプラットフォーム上では、限られたメモリ、電力、計算精度の中で性能を発揮しなければならない。以下の最適化が有効:

固定小数点演算 : 浮動小数点演算の2-3倍高速化
疎行列構造の活用 : メモリ使用量を50-70%削減
事前因数分解 : 繰り返し現れる行列演算の計算量削減

8.3.2 制約の階層的緩和

計算時間超過時の対策として、制約を優先度に応じて段階的に緩和:

優先度レベル:

必須制約 (Hard Constraints):
- 関節角度限界: $\mathbf{q}_{\min} \leq \mathbf{q} \leq \mathbf{q}_{\max}$
- 摩擦円錐: $\mathbf{f} \in \mathcal{FC}$
重要制約 (Soft Constraints with High Weight):
- トルク限界: $\boldsymbol{\tau}_{\min} \leq \boldsymbol{\tau} \leq \boldsymbol{\tau}_{\max}$
- ZMP制約: $\mathbf{p}_{\text{ZMP}} \in \mathcal{S}$
最適化制約 (Soft Constraints):
- エネルギー最小化
- 滑らかさ

緩和戦略:

\mathcal{L}_{\text{relax}} = \mathcal{L}_{\text{orig}} + \sum_{i} \alpha_i \xi_i^2

$\xi_i$ : スラック変数
$\alpha_i$ : ペナルティ係数 (優先度に応じて調整)

[制約緩和のフローチャート]

計算時間 < 閾値? ──Yes→ [全制約を使用]
    │                        ↓
    No                   [QP求解]
    ↓                        ↓
[Level 3 制約を緩和]     最適解出力
    ↓
計算時間 < 閾値? ──Yes→ [QP求解] → 準最適解出力
    │
    No
    ↓
[Level 2 制約を緩和]
    ↓
[QP求解] → 安全解出力

8.3.3 予測モデルの簡略化

完全な動力学モデルの代わりに、計算効率の良い近似モデルを使用:

線形化モデル:

\mathbf{M}(\mathbf{q}_0)\ddot{\mathbf{q}} + \mathbf{h}(\mathbf{q}_0, \dot{\mathbf{q}}_0) \approx \mathbf{S}^T\boldsymbol{\tau} + \mathbf{J}_c^T\mathbf{f}

$\mathbf{q}_0, \dot{\mathbf{q}}_0$ : 現在の状態での線形化
計算量削減: 約60%

重心動力学による近似:

m\ddot{\mathbf{p}}_{\text{CoM}} = \sum_i \mathbf{f}_i + m\mathbf{g}

全身動力学 → 重心のみの3自由度モデル
計算量削減: 約85%
精度低下: 約10-15% (許容範囲)

8.4 低レベル層の計算実現可能性

8.4.1 PD制御とフィードフォワードの計算量

低レベル層の制御則:

\tau_i = K_{p,i}(q_{i,\text{ref}} - q_i) + K_{d,i}(\dot{q}_{i,\text{ref}} - \dot{q}_i) + \tau_{i,\text{ff}}

計算量分析:

各関節独立に計算: $$O(1)$$ per joint
全関節: $$O(n_j)$$ where $n_j \approx 12-30$
典型的な計算時間: 0.1-0.3 ms

8.4.2 強化学習方策の高速推論

低レベル層で強化学習方策を使用する場合の最適化:

ネットワーク構造の軽量化:

入力層 (状態) → 隠れ層1 → 隠れ層2 → 出力層 (制御)
  [24次元]     [64次元]   [32次元]    [12次元]
  
計算量: 24×64 + 64×32 + 32×12 = 1,536 + 2,048 + 384 = 3,968 演算
推論時間: 約0.2-0.5 ms (CPU), 約0.05-0.1 ms (専用ハードウェア)

専用ハードウェアアクセラレータ:

FPGA実装 : 推論時間 < 0.1 ms
ASIC (神経回路チップ) : 推論時間 < 0.05 ms
マイコン最適化 : 固定小数点演算で2-3倍高速化

8.4.3 リアルタイムOS (RTOS) の活用

タスク優先度管理による確定的応答時間の保証:

[タスクスケジューリング]

優先度: 高 ↑
         │  [低レベル制御]  (1-5 ms周期, 最高優先度)
         │  ├─ 関節制御ループ
         │  └─ センサ読取り
         │
         │  [姿勢制御]      (10-50 ms周期, 中優先度)
         │  ├─ QP求解
         │  └─ ZMP計算
         │
         │  [軌道計画]      (100-500 ms周期, 低優先度)
         │  ├─ 軌道最適化
         │  └─ NN推論
         ↓
優先度: 低

RTOSのデッドライン保証:

各タスクに最悪実行時間 (WCET: Worst-Case Execution Time) を設定
スケジューラが周期とデッドラインを厳密に管理
タスク間通信はリングバッファで非ブロッキング化

8.5 機械学習アルゴリズムの収束性保証

8.5.1 強化学習の収束条件

(1) Proximal Policy Optimization (PPO) の理論的保証

PPOの目的関数:

L^{\text{CLIP}}(\theta) = \mathbb{E}_t\left[\min\left(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right]

where $r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$

単調改善保証:

PPOは以下の条件下で方策の単調改善を保証:

J(\theta') \geq J(\theta) - C \cdot \mathbb{E}_{s\sim d^\pi}\left[\text{KL}[\pi_{\theta}||\pi_{\theta'}]\right]

$$C$$ : 定数
KL項のclipにより過度な更新を防止
収束性 : 有界な状態空間、コンパクトな行動空間で収束保証

実践的なハイパーパラメータ設定:

Clip範囲: $\epsilon = 0.1 \sim 0.2$
学習率: $\alpha = 3 \times 10^{-4}$
ミニバッチサイズ: 64-256
エポック数: 10-20

(2) Trust Region Policy Optimization (TRPO) の収束保証

TRPOの制約付き最適化:

\begin{align} \max_{\theta} \quad & \mathbb{E}_{s,a\sim\pi_{\theta_{\text{old}}}}\left[\frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)}A^{\pi_{\theta_{\text{old}}}}(s,a)\right] \\ \text{s.t.} \quad & \mathbb{E}_{s\sim\pi_{\theta_{\text{old}}}}\left[\text{KL}[\pi_{\theta_{\text{old}}}(\cdot|s)||\pi_{\theta}(\cdot|s)]\right] \leq \delta \end{align}

理論的保証:

各更新ステップで方策改善を保証
KL制約により破滅的な方策変化を防止
収束レート : $O(1/\sqrt{T})$ where $$T$$ is iteration number

計算上の課題:

共役勾配法によるHessian逆行列計算が必要
計算量: $O(n_\theta^2)$ where $n_\theta$ is parameter number
実時間学習には重いため、オフライン訓練が主流

8.5.2 模倣学習 (Imitation Learning) の収束性

Behavioral Cloning (BC) の誤差伝播

BCの損失関数:

\mathcal{L}_{\text{BC}}(\theta) = \mathbb{E}_{(s,a)\sim\mathcal{D}}\left[\|a - \pi_\theta(s)\|^2\right]

分布シフトによる性能劣化:

訓練データ分布 $\rho^{\text{expert}}$ と実行時分布 $\rho^{\pi_\theta}$ の乖離により、誤差が累積:

J(\pi^*) - J(\pi_\theta) \leq O(T^2 \epsilon)

$$T$$ : 時間ホライズン
$\epsilon$ : 単一ステップの誤差
誤差が2乗で増大 → 長期的タスクでは不安定

対策: DAgger (Dataset Aggregation)

専門家の介入により分布シフトを軽減:

現在の方策 $\pi_\theta$ でデータ収集
専門家が正しい行動ラベルを付与
データセット $\mathcal{D}$ に追加
$\pi_\theta$ を再訓練

収束保証:

J(\pi^*) - J(\pi_{\text{DAgger}}) \leq O(T\epsilon)

誤差が線形増大に抑制
理論的に $$O(1/N)$$ の収束レート

8.5.3 深層ニューラルネットワークの訓練収束性

(1) 損失関数のランドスケープ

ニューラルネットワークの訓練における非凸最適化:

\mathcal{L}(\mathbf{W}) = \frac{1}{N}\sum_{i=1}^N \ell(f(\mathbf{x}_i; \mathbf{W}), \mathbf{y}_i) + \lambda R(\mathbf{W})

局所最適解とサドルポイント:

高次元空間では局所最適よりもサドルポイントが支配的
Hessian行列の負の固有値が脱出方向を示す

収束保証が困難な理由:

損失関数が非凸
大域的最適解の保証がない
初期値依存性が強い

(2) 確率的勾配降下法 (SGD) の収束性

標準的なSGDの更新則:

\mathbf{W}_{t+1} = \mathbf{W}_t - \eta_t \nabla_{\mathbf{W}}\mathcal{L}(\mathbf{W}_t)

Polyak-Łojasiewicz (PL) 条件下での収束:

損失関数が以下を満たす場合:

\|\nabla\mathcal{L}(\mathbf{W})\|^2 \geq 2\mu(\mathcal{L}(\mathbf{W}) - \mathcal{L}^*)

線形収束レート が保証される:

\mathbb{E}[\mathcal{L}(\mathbf{W}_t)] - \mathcal{L}^* \leq (1-\mu\eta)^t(\mathcal{L}(\mathbf{W}_0) - \mathcal{L}^*)

(3) Adam最適化器の実践的収束性

Adamの更新則:

\begin{align} \mathbf{m}_t &= \beta_1 \mathbf{m}_{t-1} + (1-\beta_1)\mathbf{g}_t \\ \mathbf{v}_t &= \beta_2 \mathbf{v}_{t-1} + (1-\beta_2)\mathbf{g}_t^2 \\ \hat{\mathbf{m}}_t &= \frac{\mathbf{m}_t}{1-\beta_1^t}, \quad \hat{\mathbf{v}}_t = \frac{\mathbf{v}_t}{1-\beta_2^t} \\ \mathbf{W}_{t+1} &= \mathbf{W}_t - \eta \frac{\hat{\mathbf{m}}_t}{\sqrt{\hat{\mathbf{v}}_t} + \epsilon} \end{align}

実践的ハイパーパラメータ:

$\beta_1 = 0.9$ (1次モーメント減衰)
$\beta_2 = 0.999$ (2次モーメント減衰)
$\eta = 0.001$ (学習率)
$\epsilon = 10^{-8}$ (数値安定化)

収束性の実践的観察:

多くの実問題で良好な収束
理論的保証は限定的 (特定の仮定下のみ)
学習率スケジューリングで改善

[学習曲線の典型例]

Loss
  │
  │ ╲
  │  ╲___
  │      ╲____
  │           ╲______
  │                  ╲__________ (収束)
  └────────────────────────────→ Iteration
  0                              N
  
  Phase 1: 急速な減少 (0-20% iterations)
  Phase 2: 緩やかな減少 (20-80%)
  Phase 3: プラトー (80-100%)

8.6 数値安定性と誤差伝播

8.6.1 浮動小数点演算の誤差

(1) 丸め誤差の累積

連続した演算における誤差の蓄積:

\text{fl}(a + b) = (a + b)(1 + \epsilon), \quad |\epsilon| \leq u

$$u$$ : 機械イプシロン (単精度: $u \approx 10^{-7}$ , 倍精度: $u \approx 10^{-16}$ )

長期積分における誤差成長:

動力学シミュレーションで $$N$$ ステップ積分:

\text{誤差} \approx O(N \cdot u \cdot \|\mathbf{x}\|)

1000ステップで誤差が $10^{-4}$ オーダーに増大 (単精度)
対策 : 倍精度演算の使用、積分誤差の補正

(2) 行列演算の条

実装上の検証と性能評価の枠組み

本章では、前章までに構築した3層階層制御システムを実装し、その性能を検証するための体系的な枠組みを提示する。機械学習ベースの制御システムは、従来の解析的手法と異なり、学習過程の不確実性や汎化性能の評価が必要となる。ここでは、 シミュレーション環境での検証、 実機実装の段階的戦略、 性能指標の定量的評価、そして 安全性と信頼性の保証 について詳述する。

9.1 検証フレームワークの全体構造

9.1.1 V字モデルに基づく検証プロセス

2足歩行ロボットの制御システム検証は、システムエンジニアリングにおけるV字モデルを適用し、各開発段階に対応する検証活動を定義する。

【V字モデルの検証構造】

システム要求定義 ←――――→ システム検証・統合試験
        ↓                      ↑
   階層設計仕様 ←――――→ 階層間インターフェース試験
        ↓                      ↑
  各層詳細設計 ←――――→ 各層単体試験
        ↓                      ↑
    実装・学習 ―――――→ コンポーネント試験

検証の4段階構造:

コンポーネント試験 : 各層の機械学習モデル単体の検証
層単体試験 : 各層の最適化問題解決能力の評価
階層間インターフェース試験 : 層間の情報伝達と整合性確認
システム統合試験 : 全体としての歩行性能評価

9.1.2 検証環境の階層構造

┌─────────────────────────────────────────┐
│     レベル4: 実機実装・実環境試験         │
│    ・実ロボットでの歩行実験               │
│    ・外乱・不整地での性能評価             │
└─────────────────────────────────────────┘
                    ↑
┌─────────────────────────────────────────┐
│  レベル3: Hardware-in-the-Loop (HIL)     │
│    ・実制御基板 + 物理シミュレータ        │
│    ・リアルタイム性能検証                 │
└─────────────────────────────────────────┘
                    ↑
┌─────────────────────────────────────────┐
│  レベル2: 高精度物理シミュレーション      │
│    ・接触力・摩擦を含む剛体シミュレータ   │
│    ・MuJoCo, PyBullet, Isaac Gym等        │
└─────────────────────────────────────────┘
                    ↑
┌─────────────────────────────────────────┐
│  レベル1: 簡略化モデルシミュレーション    │
│    ・線形化モデルでの初期検証             │
│    ・計算効率重視の学習環境               │
└─────────────────────────────────────────┘

段階的移行戦略 : 下位レベルで基本性能を確認後、上位レベルへ段階的に移行し、各段階でのギャップを定量化する。

9.2 シミュレーション環境における検証

9.2.1 物理シミュレータの選定と設定

シミュレータの要求仕様:

要求項目	詳細	推奨ツール
接触力計算精度	LCP/凸最適化ソルバー	MuJoCo, Drake
計算効率	GPU並列化対応	Isaac Gym, Brax
統合性	機械学習フレームワーク連携	PyBullet+PyTorch
可視化	リアルタイムレンダリング	MuJoCo+Blender

近年の実践例として、Humanoid-GymはNvidia Isaac Gymをベースとした強化学習フレームワークであり、二足歩行ロボットの移動スキル訓練において、Isaac GymからMuJoCoへのsim-to-sim（シミュレーション間転移）機能を統合している。これにより、訓練した政策を異なる物理シミュレーション環境で検証し、政策のロバスト性と汎化性能を確認できる。RobotEra社のXBot-S（身長1.2m）とXBot-L（身長1.65m）において、ゼロショットsim-to-real転移が成功しており、シミュレーションで訓練した制御政策を実機での追加学習なしに直接適用できることが実証されている。

物理パラメータの設定:

# 物理シミュレーション設定例（疑似コード）
sim_params = {
    'timestep': 0.001,              # 1ms刻み（1kHz制御）
    'gravity': [0, 0, -9.81],       # 重力加速度
    'contact_params': {
        'friction_coef': 0.8,        # 床面摩擦係数
        'restitution': 0.0,          # 反発係数（非弾性衝突）
        'contact_stiffness': 1e5,    # 接触剛性
        'contact_damping': 1e3       # 接触減衰
    },
    'solver': {
        'type': 'PGS',               # Projected Gauss-Seidel
        'iterations': 20,             # ソルバー反復回数
        'tolerance': 1e-6            # 収束判定閾値
    }
}

9.2.2 ドメインランダマイゼーション

機械学習による制御器のSim-to-Realギャップを削減するため、学習時にシミュレーションパラメータをランダム化する。ヒューマノイドロボットは四足歩行ロボットと比較して構造が複雑であり、sim-to-realギャップがより大きいという課題があるが、適切なドメインランダマイゼーション設計によってこの問題を軽減できる。

ランダム化対象パラメータ:

ロボット物理パラメータ
- リンク質量: $m_i \sim \mathcal{U}(0.9m_{i,nominal}, 1.1m_{i,nominal})$
- リンク長: $l_i \sim \mathcal{U}(0.98l_{i,nominal}, 1.02l_{i,nominal})$
- 重心位置: $\mathbf{r}_{COM,i} \sim \mathcal{N}(\mathbf{r}_{COM,i,nominal}, 0.01)$
- 慣性テンソル: $\mathbf{I}_i$ にノイズ付加
環境パラメータ
- 床面摩擦係数: $\mu \sim \mathcal{U}(0.5, 1.2)$
- 床面剛性: $k_{floor} \sim \mathcal{U}(10^4, 10^6)$
- 外乱力: 周期的・ランダム外乱印加
アクチュエータ特性
- トルク限界: $\tau_{max,i} \sim \mathcal{U}(0.8\tau_{max,nominal}, \tau_{max,nominal})$
- 応答遅延: $\tau_{delay} \sim \mathcal{U}(0, 5 \text{ms})$
- ノイズ: $\tau_{actual} = \tau_{cmd} + \mathcal{N}(0, 0.05\tau_{cmd})$
センサーノイズとバイアス
- IMU角速度ノイズ: $\omega_{measured} = \omega_{true} + \mathcal{N}(0, \sigma_{\omega})$
- 関節エンコーダ誤差: $q_{measured} = q_{true} + \mathcal{N}(0, \sigma_q)$
- 通信遅延: ランダムな遅延の注入

ランダム化スケジュール:

訓練初期（Episode 0-10k）:
  → 狭いランダム化範囲で基本歩行を学習

訓練中期（Episode 10k-50k）:
  → ランダム化範囲を段階的に拡大

訓練後期（Episode 50k-）:
  → 最大範囲でロバスト性を強化

9.2.3 報酬関数設計と評価シナリオ

ヒューマノイド特有の報酬設計:

二足歩行ロボット用の報酬関数は、バランス維持、エネルギー効率、歩行の安定性などの要素を適切に組み込む必要がある。以下は典型的な報酬関数の構成である：

R_{total} = w_1 R_{velocity} + w_2 R_{stability} + w_3 R_{energy} + w_4 R_{smoothness} - w_5 P_{termination}

各項の定義：

$R_{velocity}$ : 目標速度追従報酬
$R_{stability}$ : 姿勢安定性報酬（体幹傾斜角ペナルティ）
$R_{energy}$ : エネルギー効率報酬（トルク2乗和の負値）
$R_{smoothness}$ : 動作滑らかさ報酬（加速度変化の負値）
$P_{termination}$ : 転倒時の大きなペナルティ

標準評価シナリオセット:

シナリオID	名称	評価内容	成功基準
S1	平地定常歩行	目標速度での安定歩行	20秒以上転倒なし
S2	速度変化応答	速度指令変化への追従	2秒以内に新速度達成
S3	方向転換	旋回動作の安定性	90度旋回を3秒で完了
S4	外乱耐性	側方衝撃への回復	50N・sの衝撃に耐える
S5	不整地歩行	ランダム凹凸地形	高さ±3cmの凹凸を走破
S6	階段昇降	段差乗り越え	15cm段差を昇降
S7	低摩擦面	滑りやすい床面	μ=0.3で歩行可能
S8	バッテリー低下	トルク制限下での動作	80%トルクで歩行維持

各シナリオの定量化:

# シナリオS4（外乱耐性）の実装例
def scenario_disturbance_rejection(robot, controller):
    # 初期条件
    robot.reset_to_stable_walking()
    
    # 定常歩行を3秒実施
    for t in range(3000):  # 3秒 @ 1kHz
        action = controller.compute_action(robot.get_state())
        robot.step(action)
    
    # t=3.0sで側方衝撃印加
    impulse = np.array([50, 0, 0])  # 50N・s in x-direction
    robot.apply_impulse_to_torso(impulse)
    
    # 回復過程を5秒観測
    for t in range(5000):
        action = controller.compute_action(robot.get_state())
        robot.step(action)
        
        if robot.has_fallen():
            return {"success": False, "recovery_time": None}
    
    return {"success": True, "recovery_time": robot.time_to_stable()}

9.2.4 Sim-to-Sim検証の重要性

複数のシミュレータ間での検証（sim-to-sim転移）は、実機転移の前段階として重要である。Isaac GymとMuJoCoは異なる物理エンジンと数値解法を使用しているため、両環境で政策が機能することは、実環境でも機能する可能性が高いことを示唆する。

Sim-to-Sim検証プロトコル:

def sim_to_sim_validation(policy, source_sim='isaac_gym', target_sim='mujoco'):
    """
    異なるシミュレータ間での政策検証
    """
    # ソースシミュレータでの性能評価
    source_results = evaluate_policy(policy, simulator=source_sim, n_episodes=100)
    
    # ターゲットシミュレータでの性能評価（追加学習なし）
    target_results = evaluate_policy(policy, simulator=target_sim, n_episodes=100)
    
    # 性能劣化の定量化
    performance_gap = {
        'success_rate_gap': source_results['success_rate'] - target_results['success_rate'],
        'velocity_tracking_gap': source_results['velocity_error'] - target_results['velocity_error'],
        'stability_gap': source_results['fall_count'] - target_results['fall_count']
    }
    
    return performance_gap, target_results['success_rate'] > 0.8  # 80%成功率を閾値とする

9.3 各層の単体検証手法

9.3.1 軌道計画層の検証

検証項目と手法:

軌道の実現可能性検証

生成された足軌道が運動学的制約を満たすか確認
ZMP軌道が支持多角形内にあるか検証

def verify_trajectory_feasibility(trajectory, robot_model):
    violations = []
    
    for t, state in enumerate(trajectory):
        # 関節角度制約チェック
        if not robot_model.check_joint_limits(state.q):
            violations.append(('joint_limit', t))
        
        # ZMP制約チェック
        zmp = robot_model.compute_zmp(state)
        if not is_inside_support_polygon(zmp, state.contact_points):
            violations.append(('zmp', t))
        
        # 速度・加速度制約チェック
        if not robot_model.check_velocity_limits(state.dq):
            violations.append(('velocity', t))
    
    return len(violations) == 0, violations

目標速度追従性能
- 指令速度と実現速度の誤差評価
- 過渡応答時間の測定
評価指標:

e_{vel} = \frac{1}{T}\int_0^T \|\mathbf{v}_{cmd}(t) - \mathbf{v}_{actual}(t)\| dt

軌道の滑らかさ
- 加速度のジャークを評価

J_{smooth} = \int_0^T \|\dddot{\mathbf{p}}_{foot}(t)\|^2 dt

可視化ダッシュボード:

┌───────────────────────────────────────────────────┐
│ 軌道計画層検証ダッシュボード                       │
├───────────────────────────────────────────────────┤
│ [足軌道3D表示]         [ZMP軌跡と支持多角形]      │
│   ↑z                       ○ ZMP                  │
│   │ /━━━               ┌───┐                      │
│   │/                    │   │ 支持多角形          │
│   └────→ y              └───┘                      │
│                                                    │
│ [関節角度時系列]       [速度追従性能]              │
│  θ(deg)                 v (m/s)                   │
│   │ ～～～                │ ─── 指令              │
│   │                       │ ··· 実現              │
│   └────→ t(s)            └────→ t(s)              │
│                                                    │
│ 実現可能性: ✓ PASS    速度誤差: 0.03 m/s         │
│ 滑らかさ指標: 2.3      応答時間: 0.8 s           │
└───────────────────────────────────────────────────┘

9.3.2 姿勢制御層の検証

検証項目:

バランス維持性能

外乱印加時の姿勢復元時間測定
姿勢誤差の時間積分評価

def test_balance_performance(controller, disturbances):
    results = []
    
    for disturb in disturbances:
        robot.reset_to_nominal_pose()
        robot.apply_disturbance(disturb)
        
        recovery_time = 0
        pose_error_integral = 0
        
        for t in range(5000):  # 5秒観測
            state = robot.get_state()
            control_input = controller.compute_torso_adjustment(state)
            robot.apply_control(control_input)
            
            pose_error = compute_pose_error(state)
            pose_error_integral += pose_error * 0.001
            
            if pose_error < threshold and recovery_time == 0:
                recovery_time = t * 0.001
        
        results.append({
            'disturbance': disturb,
            'recovery_time': recovery_time,
            'pose_error_integral': pose_error_integral
        })
    
    return results

接地力制御精度
- 目標接地力分配と実接地力の誤差

e_{GRF} = \frac{1}{N}\sum_{i=1}^N \|\mathbf{f}_{i,target} - \mathbf{f}_{i,actual}\|

ZMP制御性能
- ZMP軌跡追従誤差の評価

e_{ZMP} = \frac{1}{T}\int_0^T \|\mathbf{p}_{ZMP,ref}(t) - \mathbf{p}_{ZMP,actual}(t)\| dt

ロバスト性評価マトリクス:

外乱タイプ	外乱強度	回復時間(s)	最大姿勢偏差(deg)	成否
前方押圧	30N	0.65	8.2	✓
側方押圧	30N	0.82	12.5	✓
後方押圧	30N	0.71	9.1	✓
ランダム	σ=20N	0.95	15.3	✓
段差(+5cm)	-	1.20	18.7	✓
段差(-5cm)	-	0.88	11.2	✓

9.3.3 低レベル層の検証

検証項目:

トルク制御精度

指令トルクと実現トルクの追従性

def evaluate_torque_tracking(controller, test_trajectories):
    tracking_errors = []
    
    for traj in test_trajectories:
        for t, (q_ref, dq_ref, tau_ff) in enumerate(traj):
            q_actual, dq_actual = robot.get_joint_state()
            
            tau_cmd = controller.compute_torque(
                q_ref, dq_ref, q_actual, dq_actual, tau_ff
            )
            
            robot.apply_torque(tau_cmd)
            robot.step()
            
            tau_actual = robot.get_joint_torques()
            error = np.linalg.norm(tau_cmd - tau_actual)
            tracking_errors.append(error)
    
    return {
        'mean_error': np.mean(tracking_errors),
        'max_error': np.max(tracking_errors),
        'std_error': np.std(tracking_errors)
    }

制御帯域幅測定
- 正弦波指令への周波数応答解析

G(j\omega) = \frac{\tau_{actual}(j\omega)}{\tau_{cmd}(j\omega)}

測定プロトコル:

周波数範囲: 0.1Hz ~ 100Hz（対数スイープ）
各周波数で20サイクル以上計測
ゲイン・位相マージンの評価

安全制約の動作検証

トルク・速度・位置リミッタの作動確認

def test_safety_constraints(controller, robot):
    # 過大トルク指令テスト
    tau_cmd_excessive = np.array([500, 500, 500, ...])  # 定格超過
    tau_actual = controller.apply_with_limits(tau_cmd_excessive)
    assert np.all(np.abs(tau_actual) <= robot.tau_max), "トルクリミット失敗"
    
    # 関節角度限界テスト
    q_target_invalid = np.array([3.5, ...])  # 限界超過角度
    controller.set_position_target(q_target_invalid)
    # ... 安全停止を確認
    
    # 衝突検出テスト
    robot.simulate_collision()
    assert controller.has_triggered_emergency_stop(), "衝突検出失敗"

制御性能サマリー:

┌──────────────────────────────────────┐
│ 低レベル層制御性能サマリー            │
├──────────────────────────────────────┤
│ トルク追従誤差:                       │
│   平均: 0.8 Nm                        │
│   最大: 3.2 Nm                        │
│   標準偏差: 0.5 Nm                    │
│                                       │
│ 制御帯域幅:                           │
│   -3dB周波数: 45 Hz                   │
│   ゲインマージン: 12 dB               │
│   位相マージン: 52°                   │
│                                       │
│ 安全機能:                             │
│   トルクリミッタ: ✓ 正常動作          │
│   位置リミッタ: ✓ 正常動作            │
│   衝突検出: ✓ 正常動作                │
│   緊急停止: ✓ 50ms以内応答            │
└──────────────────────────────────────┘

9.4 階層間インターフェース検証

9.4.1 情報伝達の整合性検証

検証対象インターフェース:

軌道計画層 → 姿勢制御層
- データ: 目標足位置 $\mathbf{p}_{foot,ref}$ 、目標ZMP $\mathbf{p}_{ZMP,ref}$
- 検証: タイムスタンプ同期、座標系一致、値域妥当性
姿勢制御層 → 低レベル層
- データ: 目標関節角度 $\mathbf{q}_{ref}$ 、フィードフォワードトルク $\boldsymbol{\tau}_{ff}$
- 検証: 制御周期整合性、トルク値の連続性

インターフェース検証ツール:

class InterfaceValidator:
    def __init__(self, layer_upper, layer_lower):
        self.upper = layer_upper
        self.lower = layer_lower
        self.log = []
    
    def validate_data_flow(self, duration=10.0):
        t = 0
        dt_upper = self.upper.get_update_period()
        dt_lower = self.lower.get_update_period()
        
        while t < duration:
            # 上位層出力取得
            output_upper = self.upper.get_output()
            timestamp_upper = output_upper['timestamp']
            
            # タイムスタンプ検証
            assert abs(timestamp_upper - t) < 0.001, \
                f"タイムスタンプ不整合: {timestamp_upper} vs {t}"
            
            # データ範囲検証
            assert self._check_value_range(output_upper['data']), \
                "データ値域超過"
            
            # 下位層入力検証
            input_lower = self.lower.get_input()
            assert self._compare_data(output_upper['data'], input_lower), \
                "データ伝達エラー"
            
            self.log.append({
                't': t,
                'upper_output': output_upper,
                'lower_input': input_lower
            })
            
            t += dt_lower
        
        return self._generate_report()

9.4.2 制御ループの時間解析

タイミング解析:

制御サイクル時間構成（1kHz制御の場合）:

┌─── 1ms ────────────────────────────────────┐
│                                             │
│ ┌─ センサ読取 ─┐ 0.05ms                   │
│ │              ├────────┐                  │
│ └──────────────┘        │                  │
│                         ↓                  │
│ ┌─ 低レベル制御 ─┐ 0.10ms                 │
│ │               ├────────┐                 │
│ └───────────────┘        │                 │
│                          ↓                 │
│ ┌─ 姿勢制御 ─┐ 0.25ms (更新頻度1/2)       │
│ │           ├────────┐                     │
│ └───────────┘        │                     │
│                      ↓                     │
│ ┌─ 軌道計画 ─┐ 2.0ms (更新頻度1/20)       │
│ │           │                              │
│ └───────────┘                              │
│                                             │
│ ┌─ アクチュエータ駆動 ─┐ 0.15ms           │
│ │                     │                    │
│ └─────────────────────┘                    │
│                                             │
│ [余裕時間: 0.45ms]                         │
└─────────────────────────────────────────────┘

レイテンシ測定:

処理パス	理論レイテンシ	実測レイテンシ	要求値	判定
センサ→低レベル層	0.05ms	0.08ms	<0.1ms	✓
低レベル層→アクチュエータ	0.10ms	0.12ms	<0.2ms	✓
姿勢制御層→低レベル層	0.25ms	0.31ms	<0.5ms	✓
軌道計画層→姿勢制御層	2.0ms

結論

本資料は、2足歩行ロボットの機械学習ベース制御理論について、軌道計画層・姿勢制御層・低レベル層の3層階層構造を中心に体系的に説明するものである。構造的明確性を最優先とする本アプローチにより、以下の重要な知見が得られた。

階層制御アーキテクチャの有効性

3層階層構造による制御システムの分解は、複雑な2足歩行制御問題を管理可能な部分問題へと効果的に分割することを可能にした。各層が独立した最適化問題として定式化されることで、設計・実装・デバッグの各段階において明確な責任分界が確立される。特に以下の点が確認された:

軌道計画層 は、歩行周期全体を見渡した大局的な軌道生成を担当し、強化学習による探索的最適化が有効
姿勢制御層 は、リアルタイムでの動的バランス維持を担当し、モデル予測制御(MPC)と深層学習の融合が効果的
低レベル層 は、関節レベルのトルク制御を担当し、適応制御とニューラルネットワークによる非線形補償が有用

機械学習手法の理論的正当性

従来の解析的制御手法と比較して、機械学習ベースのアプローチは以下の優位性を示す:

高次元非線形ダイナミクスへの適応性 : 人間型ロボットの複雑な運動方程式に対して、データ駆動的に制御則を獲得できる
モデル誤差への頑健性 : 理想的な剛体モデルと実機との差異を学習により吸収可能
環境適応能力 : 異なる地形や外乱条件下での汎化性能が転移学習により向上

特に、各層における最適化問題の目的関数設計において、報酬工学(reward shaping)と制約条件の適切なバランスが制御性能の鍵となることが明らかになった。

層間情報フローの構造的重要性

本資料で強調した層間の情報伝播メカニズムは、システム全体の安定性と性能に決定的な影響を与える。上位層から下位層への参照軌道の伝達と、下位層から上位層への状態フィードバックのループ構造により、階層的最適化が実現される。この双方向情報フローの設計が、全体システムの収束性と実時間性を保証する基盤となる。

実装上の課題と解決方向性

構造的明確性を優先したアプローチは、システム全体の理解と設計指針の提供において有効であったが、同時に以下の課題も顕在化した:

数学的厳密性の相対的な低下
計算量と収束性の詳細分析の不足
具体的なハイパーパラメータ設定指針の欠如

これらの課題は、本資料が提供する構造的理解を基盤として、個別の実装フェーズにおいて補完されるべきものである。

理論から実装への橋渡し

本資料は、剛体力学と人体歩行モデルの理解を前提とした読者に対して、機械学習ベース制御への移行の論理的道筋を提供する。各層の役割分担と相互関係の明確化により、実装チームは以下を実現できる:

段階的な開発とテストの計画立案
各層の独立した性能評価
モジュール間インターフェースの明確な定義
問題発生時の責任箇所の迅速な特定

推奨事項

本資料を基盤として、2足歩行ロボット制御システムの開発を推進するにあたり、以下の推奨事項を提示する。

短期的推奨事項(3-6ヶ月)

1. 数学的厳密性の補完資料作成

構造的明確性を維持しつつ、以下の技術文書を別途作成することを推奨する:

最適化問題の完全定式化文書 : 各層の目的関数、制約条件、決定変数を数学的に完全に記述
収束性解析レポート : Lyapunov安定性理論に基づく理論的保証の提供
計算複雑性評価書 : 各機械学習アルゴリズムの時間・空間計算量の詳細分析

これにより、本資料の構造的理解と数学的厳密性の両立が実現される。

2. シミュレーション環境の構築

理論の検証と実装への移行準備として:

物理シミュレータの選定 : MuJoCo、PyBullet等の剛体動力学シミュレータの導入
ベンチマーク環境の構築 : 各層の性能を個別評価できるテスト環境の整備
可視化ツールの開発 : 層間情報フローをリアルタイム表示するデバッグツール

3. 機械学習手法の詳細アルゴリズム仕様書作成

各層で使用する具体的な機械学習手法について:

軌道計画層 : Proximal Policy Optimization (PPO)、Trust Region Policy Optimization (TRPO)の実装仕様
姿勢制御層 : Model Predictive Control (MPC)とニューラルネットワークのハイブリッド実装
低レベル層 : Adaptive Dynamic Programming (ADP)の実装詳細

ハイパーパラメータの初期値、学習率スケジューリング、探索戦略を含めた完全な仕様書を整備すべきである。

中期的推奨事項(6-12ヶ月)

4. プロトタイプ実装とハードウェア実験

シミュレーション検証後、実機での検証を段階的に実施:

Phase 1 : 低レベル層の関節制御を実機で検証
Phase 2 : 姿勢制御層を追加し、静的バランス制御を実現
Phase 3 : 軌道計画層を統合し、完全な歩行動作を達成

各フェーズで性能指標(転倒率、エネルギー効率、歩行速度等)を定量評価し、フィードバックループを確立する。

5. 転移学習とドメイン適応の研究

シミュレーション環境で学習した制御則を実機に適用する際の"Sim-to-Real Gap"を克服するため:

ドメインランダマイゼーション : シミュレータのパラメータをランダム化し、頑健性を向上
適応的ファインチューニング : 実機データによる追加学習プロトコルの確立
物理的整合性の検証 : 学習された制御則が物理法則に矛盾しないことの確認手法

6. 安全性とフェイルセーフ機構の設計

実機運用において安全性は最優先事項である:

異常検知システム : 各層の出力が物理的制約を逸脱した場合の検知機構
緊急停止プロトコル : 転倒リスク高時の安全停止手順
人間監視インターフェース : オペレータが介入可能なマニュアルオーバーライド機能

長期的推奨事項(1-2年)

7. 適応的・継続的学習システムの構築

運用中も性能向上を続けるシステムへの発展:

オンライン学習機構 : 実運用データから継続的に制御則を改善
メタ学習の導入 : 新しい環境や課題への迅速な適応能力の獲得
経験再利用フレームワーク : 過去の学習経験を効率的に活用する記憶機構

8. マルチモーダル感覚統合の拡張

視覚、触覚、力覚等の複合情報の統合:

センサーフュージョン層の追加 : 既存の3層構造に感覚処理層を統合
環境認識との連携 : SLAM等の環境地図構築技術との統合
予測的制御の実現 : 視覚情報から先読み的な歩行計画を実施

9. 標準化とコミュニティ貢献

研究成果の普及と産業応用の促進:

オープンソース実装の公開 : 本資料に基づく参照実装の提供
ベンチマークデータセットの構築 : 標準的な評価環境の確立
国際標準化活動への参画 : IEEE、ISO等での制御アーキテクチャ標準化

組織的推奨事項

10. 学際的チーム編成

効果的な開発推進のため、以下の専門性を持つメンバーで構成されたチームを推奨:

制御理論専門家 : 最適化問題の定式化と理論的保証の担当
機械学習エンジニア : アルゴリズム実装と学習プロセスの管理
ロボット工学者 : ハードウェア統合と実機実験の実施
数値計算専門家 : 高速化とリアルタイム実装の最適化

11. 継続的な知識アップデート体制

本分野は急速に発展しているため:

定期的な文献レビュー会 : 最新研究動向の共有
学会参加と発表 : 研究成果の外部発信と知見獲得
産学連携の推進 : 大学研究室との共同研究体制の構築

評価基準とマイルストーン

推奨事項の実施状況を評価するため、以下の定量的指標を設定すべきである:

技術的指標 : 歩行成功率、エネルギー効率、最大歩行速度、外乱耐性
開発効率指標 : 実装完了時期、バグ修正時間、機能追加コスト
学術的貢献指標 : 論文採択数、オープンソース利用数、引用数

これらの指標を四半期ごとにレビューし、計画の修正と優先順位の再設定を行うことを推奨する。

本資料が提供する構造的フレームワークは、2足歩行ロボット制御の複雑性に対する明確な見通しを与えるものである。上記推奨事項を段階的に実施することで、理論的理解から実用的実装への円滑な移行が実現され、最終的には高性能で頑健な2足歩行制御システムの開発が達成されるであろう。