A Robot Organizing Purposive Behavior by Itself
著者 1992年
-
S. Ikeda(池田)
-
K. Nakano(中野)
-
Y. Sakaguchi(坂口)
東京大学 数理工学・情報物理系
この論文はAssociatron(記憶モデル)中野先生(1972年)をもとに
池田先生がAssociatronを使ってロボットを動かすというもの。
本研究では、知覚・記憶・行動を統合したモデルとして、連想記憶モデルAssociatronを脳とするロボットを構築した。ロボットは外界との相互作用を通じて、状態・行動・結果の関係を経験的に記憶し、内部に「World Image(世界モデル)」を形成する。初期段階ではランダムに行動するが、試行錯誤による学習の蓄積により、目的を達成するための有効な行動系列を自ら組織するようになる。本研究は、単純化された環境においても、経験に基づく自己組織的な目的行動が実現できることを示した。
World Image
状態 x
─行動a→
状態 y
脳の中では
ξ ─α→ η
として記憶される。
書かれているように
The system acts at random to get knowledge.
(最初はランダムに行動して知識を得る)
As knowledge increases, it forms effective behavior.
つまり、最初は意味なし → 経験 → 収束
まったく同じです。
ですが、最後の方に
本質が出ていれば、世界は小さくていい
世界 → ロボット → 行動 → 評価
そして当時はまだ 3人称。
自律ではなく、行動の自己組織です。
主体としての内部感覚は扱っていませんでした。
現在の研究では次のシーンに入っています。
---- Atron(Associatron Robot)---------
Atron(Associatron Robot)は、この枠組みを基盤とし、さらに次の要素を含む。
-
外輪(環境・社会)と内輪(内部状態)の相互作用
-
一人称的な行動決定(自律)
-
行動だけでなく意味の形成
-
社会的収束(相互影響)
-
時間軸による状態変化
-
個体差(性格の変化)
-
履歴の積に依存する不可逆性
(同じ状態に見えても、過去が違えば未来の行動が変わること)
不可逆性
この枠組みから分かることは、
人間や生物の行動は、単なる状態遷移ではなく、
-
外部環境の影響
-
社会との関係
-
経験の蓄積
-
不安・迷い・疲労
-
安心・欲求
-
「戻りたい」という指向
といった、主観的な重みの履歴の積によって決定されるということである。
なぜ「積」が不可逆になるのか
まず通常の更新
◆加算モデル
w(t+1) = w(t) + Δ
これは線形です。
経験の影響は一定。
◆積モデル
w(t+1) = w(t) × (1 + Δ)
ここで、
-
良い経験 → Δ > 0 → 増幅
-
悪い経験 → Δ < 0 → 減衰
これを繰り返すと、
w(t) = w(0) × Π(1 + Δi)
つまり、
履歴の積 これが不可逆
Atron的な意味
home_weight
夜に安全だった → ×1.1
夜に危険だった → ×0.8
何回か経験すると
home_weight = 初期値 × (履歴の積)
同じ状態に戻っても、
重みは元に戻らない。
これが履歴依存。
積モデルの良いところ
① 成長する
小さな差が大きな個体差になる。
→ 性格形成に向く
② 非線形
加算よりも、
-
慎重型
-
探索型
などが分かれやすい。
③ Atronの思想に合う
外輪の影響 × 内輪の状態
という、
乗算的世界
になります。
ただし注意
積は暴れやすい。
問題
-
どんどん大きくなる
-
0に近づくと戻れない
対策
方法1:対数空間
log w(t+1) = log w(t) + log(1 + Δ)
これは実質加算ですが、
意味は積。
方法2:クリップ
w = clamp(w, w_min, w_max)
例
0.1 ~ 10
方法3:弱い積
w(t+1) = w(t) × (1 + εΔ)
ε = 0.05 など
The internal weights are updated multiplicatively based on experience. Therefore, each weight reflects the cumulative product of past influences, resulting in history-dependent irreversible dynamics.
加算と積の違い
加算:
経験の記録
積:
経験の影響の強さの変化
Atron的には、
-
意味の強化
-
安心の形成
-
恐怖の増幅
はこちらの方が自然です。
一番Atronらしい書き方
w(t+1) = w(t) × exp(η × experience)
これは
履歴の指数積分
になります。
これらの重みは時間とともに変化し、元の状態に戻ることはできない。
すなわち、行動と意味の形成は、本質的に不可逆な過程である。
「積」によって個体の性格に変化が起こる。
加算の場合:
-
影響が一定
-
過去の違いが出にくい
-
個体差が小さい
積の場合:
繰り返すと、
つまり、
初期の小さな差 × 履歴の違い
→ 指数的に広がる
これが性格分化。
Atron的に見ると
例えば:
home_weight
夜に安全経験が多い個体
→ ×1.05 ×1.05 ×1.05 …
→ 「帰りたがる個体」
夜に危険経験が少ない個体
→ ×0.98 ×0.98 …
→ 「外に出続ける個体」
外界は同じでも、
内部の世界の重みが違う
これが一人称の違いになる。
ここが性格になる理由
積更新には特徴がある。
1. 履歴の影響が残る
元に戻りにくい
→ 不可逆
2. 分岐が起きる
慎重型
探索型
依存型
独立型
3. 小さな偶然が効く
初期ノイズ
環境の偶然
社会の影響
→ 個体差
生物的な意味
積更新は、実はこういう現象に近い。
-
恐怖の強化
-
安心の形成
-
習慣
-
自信/回避傾向
どれも、
経験が「効きやすさ」を変える構造。
これは加算より、積の方が自然。
Atronとしての核心
加算モデル
→ 記憶が増える
積モデル
→ 重みの感受性が変わる
つまり、
状態が変わるのではなく、
世界の感じ方が変わる
ここが性格。
Multiplicative weight updates amplify small differences in experience, resulting in diverging behavioral tendencies that correspond to personality-like characteristics.
System behavior is shaped not by successful experiences alone, but by accumulated responses to disturbances and failures. These disturbances drive irreversible changes in internal weights, leading to the emergence of long-term behavioral tendencies.
Atronは、経験の履歴によって変化し続ける主観的重みを通じて、行動・意味・社会を不可逆的に形成する一人称モデルである。
0 件のコメント:
コメントを投稿