Author: Alphatu Source: X, @Alphatu4 Translated by Good Oba, Golden Finance
2023年9月より、オープンエーアイはChatGPTプラットフォームに音声と画像の新機能を導入した。2023年9月、OpenAIはChatGPTプラットフォームに音声と画像の新機能を展開し始め、より直感的なインターフェイスを導入することで、ユーザーが音声で会話をしたり、ChatGPTで画像を共有したりできるようになり、全体的なユーザーエクスペリエンスが向上しました。
この状況は、すでに熱狂的な人気を博しているマルチモーダル輸送にさらに拍車をかけている。

実際、音声と画像の機能を統合することで、ユーザーは生活のあらゆる場面でChatGPTと対話できるようになります。外出先でも自宅でも、ユーザーはこれらのマルチモーダル機能を活用して、より没入感のある方法でAIモデルと対話し、これまで実現できなかった多くの製品シナリオに想像力を加えることができるようになりました。
マルチモーダリティは、汎用の言語モデルよりも産業用シナリオで広く使用されるようになるでしょう。
マルチモーダルAIとは?
マルチモーダルAIとは、複数のモダリティまたはソースからの情報を理解し、処理できるAIシステムとモデルを指します。AIの文脈では、モダリティとは、テキスト、画像、音声、ビデオ、またはその他のタイプのデータなど、異なる形式または入力チャネルのことです。マルチモーダルAIは、さまざまなモダリティからの情報を統合して分析し、データのより包括的な理解を達成することを目的としています。
グラフィックス・プロセッシング・ユニット(GPUまたはTPU)の普及は、ディープラーニングAIの発展に大きく貢献してきました。しかし、生成AIはこの進歩をさらに推し進め、トークンやニューロン間の接続数を表すパラメータの形でデータを取り込む、一見飽くなき能力を与えている。さらに、浮動小数点演算(FLOPS)として知られる計算能力の指標を利用する。最新のGPT-4モデルは、テキストと画像を混在させるマルチモーダル機能を備え、大幅に強化されており、さまざまな自然言語処理タスクにおいて、既存のLLMよりも優れた性能を発揮することで高い評価を得ています。
マルチモーダルAIと産業用シナリオ
しかし、実世界のシナリオ、特に産業用シナリオでは、ユニモーダルデータの制約が課題となり、マルチモーダルAIの採用が必要となります。
情報が豊富なシナリオでは、「言語的」モデルに依存するだけでは不十分です。効果的な意思決定と情報評価には、複数のシグナルが必要です。
製造業を例にとると、画像、温度、重量など、膨大な量のデータがあります。この場合、言語モデルだけに頼るのでは不十分であり、さまざまな形式の情報を統合する必要性が浮き彫りになります。
例えば医療。なぜ医師は対面での診断を好み、なぜ現在のAIは病気を完全に診断できないのでしょうか?その説明は、医師がテキストと患者のプレゼンテーションを分析するという事実にある。特定のレントゲンを検査する際、医師は画像やテキストの一節を抽出するだけでなく、マルチモーダルな情報を解釈するため、グループディスカッションやコンサルテーションを行う。
マルチモーダル入力とは、テキストに限らず、音、赤外線データ、その他の要素を含みます。このアプローチは、モデルを多次元的に考えるように訓練するのに役立ちます。
カメラのみのシステムを搭載した自動運転車を考えてみましょう。低照度の状況で歩行者を認識することは困難です。このような課題に完全に対処するには、LIDAR、レーダー、GPSの組み合わせが重要です。この統合により、車両は周囲の状況をより完全に把握できるようになり、運転の安全性と信頼性が向上します。
ここでの基本原理は、複雑な事象をより深く理解するために複数の感覚を統合することの重要性を強調しています。マルチモーダルAIを活用することで、テキスト情報、写真、ビデオ、音声を融合させ、与えられた状況の首尾一貫した包括的な説明を形成することができます。
人工知能は根本的に知識の問題を解決するのに対し、インターネットは主に情報の問題を解決する。知識は本質的にドメイン固有であり、インターネットのような普遍性がありません。製造業における分野の専門家とマルチモーダルなAI能力の共同統合は、コストを大幅に削減し、効率を高める可能性を秘めている。