
Appleのエンジニア6名が最近行った調査によると、高度な大規模言語モデル(LLM)の数学的推論能力は驚くほど脆弱であることが明らかになりました。標準的なベンチマーク問題にわずかな変更を加えるだけでも、正確な結果を出す能力が著しく損なわれる可能性があります。
Ars TechnicaのKyle Orland
:
これらの新たな結果で浮き彫りになった脆弱性は、LLMにおける確率的パターンマッチングの使用が、真に信頼性の高い数学的推論能力に必要な基礎概念の正式な理解を欠いていることを示唆する先行研究を裏付けるものである。「現在のLLMは真の論理的推論を行うことができない」と研究者たちはこれらの結果に基づいて仮説を立てている。「その代わりに、LLMは訓練データで観察された推論ステップを再現しようとしているのだ。」
このGSM-Symbolicの論文結果は、AI研究の世界では全く新しいものではありません。他の最近の論文でも同様に、LLMは実際には形式的推論を実行せず、代わりに膨大な訓練データから最も近い類似データとの確率的パターンマッチングによってそれを模倣していると示唆されています。
それでも、今回の新たな研究は、問題のプロンプトが訓練データと完全に一致しない方向に誘導した場合、この種の模倣がいかに脆弱になり得るかを浮き彫りにしている。また、背後にある論理や世界のモデルを全く持たずに高度な推論を実行しようとすることの本質的な限界も浮き彫りにしている。
MacDailyNewsの
見解:建築家であり都市計画家のアーサー・エリクソンは次のように述べている。
内部の空虚さを隠すには幻想が必要です。
MacDailyNews 注:研究「GSM-Symbolic: 大規模言語モデルにおける数学的推論の限界を理解する」は、こちらからプレプリント論文として入手できます。
現在、Substack サブスクリプションで持続可能な状態を実現するための道のりは 5 分の 1 程度です。
悪くないスタートですが、現時点では 1/5 で停滞しています。
Apple好きのお友達に、Substackで配信されているMacDailyNewsについてぜひ教えてください。現在無料購読の方は、MacDailyNewsを継続するために、月額5ドルまたは年額50ドルのご購読をご検討ください。購読ボタンを押してください。ありがとうございます!
Substackで読む
MacDailyNewsを応援していただき、購読者限定の記事、コメント、チャットなどをお楽しみください(macdailynews.substack.com)にご登録ください。ありがとうございます!
このリンクを使用して Amazon で買い物をすると、追加費用なしで MacDailyNews をサポートできます。
トロフィーを追い求め、王朝を築き、チャンピオンを決める難しい決断を下す Football Manager 26 Touch が、Apple Arcade に帰ってきます…
アップルは火曜日、「ブルースクリーン・オブ・デス」と題した新しい広告を公開した。これは昨年発生したWindowsコンピュータの重大なクラッシュを揶揄したもので…
ロンドン警察は、盗難iPhone4万台を中国に密輸した疑いのある犯罪組織を壊滅させた。これは同組織による過去最大のiPhone窃盗事件となった。
Appleは本日、iOS 26.1、iPadOS 26.1、macOS Tahoe 26.1、tvOS 26.1、watchOS 26.1、visionOS 26.1の2番目のベータ版を開発者向けにリリースしました…
テイラー・スウィフトは最新アルバム「ザ・ライフ・オブ・ア・ショーガール」でApple Music、Spotify、Amazonのストリーミング記録を破り、歴史を築いた。