Appleの調査で法学修士の「推論」能力における重大な問題が明らかに

By Tarpha
Estimated read time min read
rltnr

人工知能

Appleのエンジニア6名が最近行った調査によると、高度な大規模言語モデル（LLM）の数学的推論能力は驚くほど脆弱であることが明らかになりました。標準的なベンチマーク問題にわずかな変更を加えるだけでも、正確な結果を出す能力が著しく損なわれる可能性があります。

Ars TechnicaのKyle Orland
:

これらの新たな結果で浮き彫りになった脆弱性は、LLMにおける確率的パターンマッチングの使用が、真に信頼性の高い数学的推論能力に必要な基礎概念の正式な理解を欠いていることを示唆する先行研究を裏付けるものである。「現在のLLMは真の論理的推論を行うことができない」と研究者たちはこれらの結果に基づいて仮説を立てている。「その代わりに、LLMは訓練データで観察された推論ステップを再現しようとしているのだ。」

このGSM-Symbolicの論文結果は、AI研究の世界では全く新しいものではありません。他の最近の論文でも同様に、LLMは実際には形式的推論を実行せず、代わりに膨大な訓練データから最も近い類似データとの確率的パターンマッチングによってそれを模倣していると示唆されています。

それでも、今回の新たな研究は、問題のプロンプトが訓練データと完全に一致しない方向に誘導した場合、この種の模倣がいかに脆弱になり得るかを浮き彫りにしている。また、背後にある論理や世界のモデルを全く持たずに高度な推論を実行しようとすることの本質的な限界も浮き彫りにしている。

MacDailyNewsの
見解:建築家であり都市計画家のアーサー・エリクソンは次のように述べている。

内部の空虚さを隠すには幻想が必要です。

MacDailyNews 注:研究「GSM-Symbolic: 大規模言語モデルにおける数学的推論の限界を理解する」は、こちらからプレプリント論文として入手できます。

現在、Substack サブスクリプションで持続可能な状態を実現するための道のりは 5 分の 1 程度です。

悪くないスタートですが、現時点では 1/5 で停滞しています。

Apple好きのお友達に、Substackで配信されているMacDailyNewsについてぜひ教えてください。現在無料購読の方は、MacDailyNewsを継続するために、月額5ドルまたは年額50ドルのご購読をご検討ください。購読ボタンを押してください。ありがとうございます！

Substackで読む

MacDailyNewsを応援していただき、購読者限定の記事、コメント、チャットなどをお楽しみください（macdailynews.substack.com）にご登録ください。ありがとうございます！

このリンクを使用して Amazon で買い物をすると、追加費用なしで MacDailyNews をサポートできます。

トロフィーを追い求め、王朝を築き、チャンピオンを決める難しい決断を下す Football Manager 26 Touch が、Apple Arcade に帰ってきます…

アップルは火曜日、「ブルースクリーン・オブ・デス」と題した新しい広告を公開した。これは昨年発生したWindowsコンピュータの重大なクラッシュを揶揄したもので…

ロンドン警察は、盗難iPhone4万台を中国に密輸した疑いのある犯罪組織を壊滅させた。これは同組織による過去最大のiPhone窃盗事件となった。

Appleは本日、iOS 26.1、iPadOS 26.1、macOS Tahoe 26.1、tvOS 26.1、watchOS 26.1、visionOS 26.1の2番目のベータ版を開発者向けにリリースしました…

テイラー・スウィフトは最新アルバム「ザ・ライフ・オブ・ア・ショーガール」でApple Music、Spotify、Amazonのストリーミング記録を破り、歴史を築いた。

GoogleがAgniluxを買収。元Apple、PA Semi、TiVoの従業員が参加するスタートアップ

rltnr

GoogleがAgniluxを買収。元Apple、PA Semi、TiVoの従業員が参加するスタートアップ「グーグルとアップルは依然として世界の反対側にいる。どうやらグーグルは元アップル社員が率いるチップ設計の新興企業を買収することに合意したようだ」とトム・クラジット氏がCNETに伝えている。「トムソン・ロイターのPEHubは火曜日、カリフォルニア州サンノゼに拠点を置くステルス半導体スタートア

GoogleのChrome OS：ダム端末の復活

rltnr

GoogleのChrome OS：ダム端末の復活 Google の「Chrome OS は本質的にブラウザをオペレーティングシステムに変えます」と Karl Johnson 氏は T-GAAP に書いています。「要するに、新品のピカピカのコンピュータがウェブ用のダムターミナルになってしまいます。ファイルはすべてインターネット上、つまり多くの人がクラウドと呼ぶ場所に保存されるのです」とジョンソン

AppleのApp Store、アプリ数が30万本を突破

rltnr

AppleのApp Store、アプリ数が30万本を突破「AppleのApp Storeには、昨日時点で30万本以上のアプリが登録されている」とDean Takahashi氏はVentureBeatで報告している。広告：新しいiPod touchのご紹介。FaceTime、Retinaディスプレイ、HDビデオ録画、Game Centerを搭載。229ドルから。今すぐ購入。「Mobclixのデ

ForeSeeオンラインホリデー顧客満足度調査：Apple Store Onlineが4年ぶりの低水準に

rltnr

ForeSeeオンラインホリデー顧客満足度調査：Apple Store Onlineが4年ぶりの低水準に顧客体験分析会社ForeSeeが本日発表した年次ホリデーEリテール満足度指数によると、インターネット小売り大手のAmazonは依然としてトップの座を維持している。感謝祭からクリスマスまでのホリデーショッピングシーズンに収集された24,000件以上の顧客調査に基づく、8回目となるこの年次レポート

IDC: Apple iPadが引き続き「傑出した」タブレット市場を支配

rltnr

IDC: Apple iPadが引き続き「傑出した」タブレット市場を支配世界中の多くの地域が依然としてCOVID-19パンデミックへの対応に追われている中、AppleのiPadをはじめとするタブレットの売上は好調を維持しており、iPadはIDCが「傑出した」タブレット市場と呼ぶ市場において依然として圧倒的なシェアを占めています。International Data Corporation（IDC

Verizon向けApple iPhone 4：AT&T向けiPhone 4よりも通話切れが少ない

rltnr

Verizon向けApple iPhone 4：AT&T向けiPhone 4よりも通話切れが少ない ChangeWave が 4,068 人の消費者を対象に実施した新しい調査では、顧客満足度や通話切れ率など、Verizon の iPhone 4 所有者と AT&T の iPhone 4 所有者の主な比較を詳しく調べました。 3月28日に完了したChangeWaveの調査は、VerizonがiPho

Appleは3月8日のイベントで新しいグリーンのiPhone 13とパープルのiPad Airを発表すると発表しました

rltnr

Appleは3月8日のイベントで新しいグリーンのiPhone 13とパープルのiPad Airを発表すると発表しましたセントパトリックスデーに間に合うように、Appleは3月8日火曜日の「Peek Performance」イベントでグリーンのiPhone 13 と、それに合わせて紫色のiPad Airを発表すると言われています。 Appleは3月8日のイベントで新しいグリーンのiPhone 1

AppleのAR/VRヘッドセットに先立ち、さらに多くの「realityOS」の参照が発見される

rltnr

AppleのAR/VRヘッドセットに先立ち、さらに多くの「realityOS」の参照が発見される噂のAR/VRヘッドセットの発売が近づくにつれ、開発者はAppleのコード内で、ヘッドセットで実行されるオペレーティングシステムである「realityOS」への言及が増えているのを目にするようになっている。アントニオ・デローザによるApple VR/ARヘッドセットのコンセプト 9to5Macのベン

Paragon が 50,000 ライセンスの「HFS for Windows」を配布。Windows PC で Mac、iPad、iPod のデータを読めるように

rltnr

Paragon が 50,000 ライセンスの「HFS for Windows」を配布。Windows PC で Mac、iPad、iPod のデータを読めるように「HFS for Windows」は、Apple iPod、Mac、iPad のデータを Windows PC から読み取ることができるソフトウェアです。 WindowsはHFS+パーティションの読み書きができません。そのため、Win

Appleの「iPhone 13」はFace IDスキャナセンサーが50%小型化

rltnr

Appleの「iPhone 13」はFace IDスキャナセンサーが50%小型化 Digitimes は金曜日、Appleが3D Face IDスキャンに用いるVCSELチップのサイズを最大50%小型化する計画だと報じた。このチップは、より小型の「ノッチ」を備えた「2021年後半に発売予定の新型iPhoneおよびiPad」に搭載される見込みだ。新しい写真では、旧型のiPhone XやiPhone

You May Also Like