Jpdenchi.comはお客様に様々な高品質バッテリーを提供するオンラインショップです
Appleの人工知能(AI)分野への進出であるApple Intelligenceは、少なくとも今のところ期待外れと言わざるを得ません。最も顕著な失敗はニュース要約機能で、見出しを誤報し虚偽の情報を生成したとして広く批判されました。この問題は深刻化し、Appleは今週、この機能全体を一時停止し、修正が完了するまで提供を見送ることを決定しました。
この事態は驚くべきことではありません。AIの「幻覚」(AIモデルが誤った、または誤解を招く情報を生成する現象)は、大規模言語モデル(LLM)においてよく知られた問題です。現在のところ、根本的な解決策は見つかっておらず、そもそも解決可能かどうかも不明です。しかし、Appleの今回の失態が特に無謀だと指摘される理由は、自社のエンジニアがこの問題を事前に警告していたにもかかわらず、AIシステムを強行リリースした点にあります。
昨年10月、Appleの研究チームは主要なLLMの数学的推論能力を評価する研究を発表しました。この研究はまだ査読を受けていませんが、AIモデルが人間のように「推論」しているわけではないという広がる共通認識を裏付けるものでした。
研究者らは次のように結論づけています:
「これらのAIモデルはトレーニングデータに見られる推論のステップを再現しようとしているだけである。」
つまり、これらのAIは本当に考えているわけではなく、過去に見たパターンを模倣しているだけなのです。
AIの推論能力を検証するため、Appleの研究チームは20種類のAIモデルに対し、広く用いられているGSM8Kデータセットから何千もの数学問題を与えました。これらの問題は特別に難しいわけではなく、ほとんどは中学生程度の数学力で解けるものです。たとえば、次のような問題です:
「ジェームズは4ポンド入りの牛肉を5パック購入しました。牛肉の価格は1ポンドあたり5.50ドルです。ジェームズはいくら支払いましたか?」
研究者らは、AIが単に答えを暗記しているだけではないことを確認するために、問題の数値を変更しました。その結果、わずかではあるものの、全てのモデルにおいて一貫した精度の低下が見られました。
さらに、名前を変えたり、無関係な情報を追加(例えば、果物の数を問う問題で「通常より小さい果物が含まれている」と記載するなど)すると、結果は壊滅的でした。一部のモデルでは、正答率が最大65%低下しました。
最も高性能だったOpenAIのo1-previewでさえ、正答率が17.5%低下し、前世代のGPT-4oでは32%の低下が見られました。この結果から明らかになったのは、AIは単に推論が苦手なだけでなく、問題解決に必要な情報の取捨選択ができないという深刻な弱点があるということです。
>>>WUP-003 対応機種例 Nintendo Wii U GamePad WUP003 WUP-012
この研究の結論は厳しいものでした。「この結果は、AIモデルが問題解決において適切な情報を選別する能力に重大な欠陥を抱えていることを示している」と研究者らは記しています。「彼らの推論は、一般的な意味での正式な推論ではなく、主にパターンマッチングに依存している。」
つまり、AIモデルは知的に見せることには優れているものの、正しい答えを導き出せるのは過去に見た解答を再構成できる場合のみということです。新しい状況に直面し、単純な暗記が通用しない場面では、そのパフォーマンスは急激に低下します。
この問題を考慮すれば、AIモデルにニュース要約を任せることがいかに危険であるかは明白です。ニュース要約とは、言葉の並びを変えつつ、意味を保持する作業であり、AIの苦手分野とされています。しかし、Appleは自社の研究結果を無視し、それでもApple Intelligenceを強行リリースしました。
とはいえ、この試行錯誤的なアプローチは、現在のAI業界では標準的になりつつあります。Appleの失敗は不満を招くかもしれませんが、驚くべきことではないのかもしれません。