2026年3月2日月曜日

視覚系モデル

 僕のブログは正書してから書いてないので、
話が突然変わって読みずらいかもしれない。他人のメモだと思ってくれればいいです。


視覚系モデル

見ること=追跡すること

今のAIは、画像を一枚入力してCNNで特徴抽出、その後ラベル分類なんだけど、
中野先生は、30年前に「視覚 = 時間の中の状態変化」と言ってる。
人間情報工学 バイオニクスからロボットまで(テレビジョン学会) の182ページだよ。
教科書だよ、教科書。



現在の網膜

Xt

1ステップ前の記憶

Yt = Xt-1 shifted


ずらしながら相関を取る

最大一致する動きを選ぶ→ 網膜を動かす

どういう意味かというと、見るために目を動かしてるんだよ。凄くない?

Zt+1 = Zt + Yt

↑見たものを積分する式だよ。

瞬間の画像ではなく、経験としての形を作っている
僕の以前のデモは、瞬間の記憶としていたんだけど、また引き戻された。
やっぱり凄いよね、中野先生。

Zt = Zt − φ(Zt)

しかも減衰(忘却)も入ってる。
これはもう、記憶の形成、ノイズ除去、概形の安定化
完全にアトラクタ的な処理です。


神保町は宝の山。300円で購入したこの本はマジでやばいです。


日本の科学の本ってさ、ほんと凄いんだよ。(外人さんも英訳して読みなよ)
研究より、読んでる方が好きになってくるというか、それで読んでると実験したくなる。
外人さんに怒られるかもしれないけど、英文の理系はさ、"研究成果を見せる本"って感じじゃん。でもさ、日本の古典科学書って「一緒に考えようぜ!」みたいな姿勢なわけよ。特に古典はね(90年代以前の科学本)。 学研の科学と学習のレベルでそのまま成長した書籍って感じ。まぁ、でも最近の大学は違うっポイね・・・。現役の理系大の生徒と飯食って昔の古典科学の本の話をしてた時に「今の教科書はクソっすよ!」とか言ってたよ。
僕はファイマンは好きだけどね、公式から入らないし、結論から入らないし、実験や現象から入るじゃん、たとえば量子力学でも、「式を覚えろ」じゃなくて、二重スリットの奇妙さを味わえみたいな。科学を“現象”として見せられるのも教授たちの能力だよね。

世界最高性能を追いかけて、スペック、評価系に寄せるんじゃなくて、自分の頭で腑に落ちるかどうかが大事なわけじゃん。じゃなきゃ研究ってのは、批判された瞬間に終わっちゃうでしょ?「え?なんのための研究?」ってさ。
特に今みたいにAIの規模が巨大化すると、個人の実験精神が見えにくい。
だから、余計に中野先生やファイマンなんかは貴重なんだよね。

『ゲーデル、エッシャー、バッハ』ダグラス・ホフスタッター
『脳の中の幽霊』ヴァライス
『心はなぜ存在するのか』マーカス・デュ・ソートイ
『物理の発想法』ジョージ・ポリア
人によって刺さる科学書なんて違うけど、科学は「答え」じゃなくて「問い」だから、自分で考えさせる仕掛けを作ってるのがいいよね。


ほら、話飛んだ。



そうだよ、視覚の話だった・・・。


追跡すると形がはっきりする理由


追跡し続けると形がはっきりする

同じ対象 → 同じ位置に重なる
ノイズ → バラける


信号 → 強くなる

ノイズ → 消える

Hebb的積分統計ではなく経験の蓄積だよ。

別のターゲットBを混ぜても、Aを追跡し続ける
内部状態(Z)が行動を決める

単なるテンプレートマッチングではない。
現代の多くの追跡アルゴリズムは現在フレーム→ 直前フレーム→ 類似度最大を選ぶ

って感じじゃん。今のは入力が主導しているわけ。
内部状態はあるけど、基本は外界主導の最適化なわけ。


Zt+1 = Zt + Yt

時間積分、追跡履歴、ノイズ除去、形の概形、つまりは見続けた結果の内部像って事なのよ。

次の動きを決めるのはXt と Zt の関係。
現在の刺激よりも内部状態の方が強いってことは、内部アトラクタが外界を選別している状態って事なんだよ。

予測符号化やtop-down modulation、attention biasと同じ構造。


何が言いたいかって?


一人称知覚って事さ。


神保町ってのは凄いんだよ。









0 件のコメント:

コメントを投稿

outlawだってさ。ありがとよ。 - Associatronと一人称自律

 オランダからメールが来たよ。 「Atraもいいけど、outlawだろ、」ってさ 最高だよ。 outlaw architecture ってのは間違いないよねw 実際、僕は、流れや制度・分類・学派・評価体系の外にいる者だし、そういうのあまり大切にしていない。今の大学の事は分からない...