2026年2月18日水曜日

今のLLMの過大評価について

 Xを見ているとLLMの過大評価が正直、気持ちが悪い。

どことは言わないけど、うちはチャッピーもGrokもGeminiもLMStudioも使う。

たとえばシステム開発側から見ると会計や給料計算などある程度決まった形のものは、ほぼ完ぺきにできるが、現場業務ソフトとなると極端に間違いが増える。
いわゆる人の数、会社の数だけのやり方があるから根拠の無い基準で先走るLLMはほぼ使えない。関数を聞いたりするくらい。


科学や研究の場合は既に出ている論文ベースものは正解もあるが、独自研究となるとほぼ使い物にならない。AIを信じてシステム化させると、ほぼ間違った挙動のままそれを正解にしてしまう。そこが非常に危険。既にある研究を再現することはできても、応用は人の指示を無視し、突っ走る。ポチョムキン理解、もしくは、お得意の最適化というやつだ。それらしく断定していうので余計に危険。何度言っても100行過ぎると、自分のペースで最適化させるので、まずcodeを生成させるのはやめたほうがいい。

LLMは暴走しないよう引継ぎ文を200行ごとに提示させるとか、一気に任せると別の物を作ってしまう。AIが作ってしまったシステムを人が修正する方が手間で0から組立てた方がいい。参考程度で聞くことはあっても真に受けてしまうと大変な事になってしまう。

僕が使うのはいろんな論文を整理するとき。
図書の概略を聞くとき(これは非常に役に立つ)
情報をまとめるとき、他の関連情報を調べるとき。
数式の精査、誤字が多いので指摘してもらう時(笑)
codeが動かなかったときに意見として聞くとき
(目的を毎回ゼロから説明するから、めんどくさいので今はやってない)

便利だなと思うのは、codeを渡してUIを作ってもらうとき。
システム開発は客がいるので使わないが、研究はUIなど二の次。
これはマジで便利。ほんと助かる。

coreになるコードは絶対にやめた方がいい。
指示を無視し、勝手にAIの判断を介入させ別な動きになる。
注意すると「そういう作りだ」と開き直る。

Codexは嫌いなGitHubと関わるのでまだ使ってないけど、
そのうち時間があれば使いたい。





0 件のコメント:

コメントを投稿

outlawだってさ。ありがとよ。 - Associatronと一人称自律

 オランダからメールが来たよ。 「Atraもいいけど、outlawだろ、」ってさ 最高だよ。 outlaw architecture ってのは間違いないよねw 実際、僕は、流れや制度・分類・学派・評価体系の外にいる者だし、そういうのあまり大切にしていない。今の大学の事は分からない...