「もしリリースがGPT-5なら、OpenAIはまだずっと先だ。
「もしリリースがGPT-5なら、OpenAIはまだずっと先です。
あるAIビッグモデルの実践者は、業界のOpenAIへの期待が高すぎるため、GPT-5のような破壊的イノベーションでない限り、視聴者の「食欲」を満たすことは難しいとTiger Senseに語っています。
サム・アルトマンは、GPT-5(またはGPT-4.5)がOpenAIの生放送の前にリリースされることはないだろうと予測していましたが、OpenAIに対する外部の期待は以前から高すぎるのです。
北京時間5月14日未明、OpenAIは最新のGPT-4oを発表しました。20分以上のデモ放送は、現在のすべての音声アシスタントを遥かに凌駕するAI対話体験を実演し、基本的に海外メディアが以前に明らかにしたニュースと重なりました。
GPT-4oのデモは依然として「クラッカー」であったものの、アルトマンのティーザーにあった「マジック」には到底値しないと広く見られていた。アルトマンのティーザーには「マジック」という言葉が使われていた。これらの機能的な製品は、「OpenAIのミッションからの逸脱」だと多くの人が考えている。
OpenAIの広報チームは、このような意見の方向性を予測していたようです。
「私たちのミッションの重要な部分は、信じられないほどパワフルなAIツールを無料で(または割引価格で)人々に提供することです。私たちは、世界最高のモデルを、広告も何もない ChatGPT で無料で利用できるようにしていることを、とても誇りに思っています。
私たちが OpenAI を始めたとき、私たちの当初の考えは、AIを作り、それを使って世の中にあらゆる利益を生み出すというものでした。そうではなく、今は、私たちがAIを作り、他の人たちがそれを使って、私たち全員に利益をもたらすあらゆる種類の素晴らしいものを作ろうとしているように見えます」。
「"すべての "返信を5秒待たなければならないのであれば、ユーザーエクスペリエンスは崩壊してしまいます。合成された音声自体が本物のように聞こえたとしても、没入感を壊し、生気がないように感じさせてしまいます。"
OpenAIのローンチ前夜、NVIDIAのEmbodied AI部門の責任者であるJim Fan氏は、OpenAIがXでリリースする音声アシスタントを予測し、次のように示唆しました:
。
ほとんどすべての音声AIは3つの段階を経ています。
1.音声認識または「ASR」:音声-テキスト1、例えばWhisper;
2. 次に何を言うか計画する;LLM: text1 -> text2;
3. 音声合成または「TTS
3>
ElevenLabsやVALL-Eなどの音声合成。
GPT-4oは以下の点で優れています。応答速度、レイテンシーの問題をほぼ解決。GPT-4oは最小232ミリ秒、平均320ミリ秒の応答時間でオーディオ入力に応答し、人間とほぼ同じです。GPT-4oなしのChatGPT音声対話機能の平均待ち時間は、2.8秒 (GPT-3.5) と5.4秒(GPT-4)でした。
GPT-4oは、待ち時間を短縮することでエクスペリエンスを劇的に向上させるだけでなく、GPT-4をベースとして、次のような多くのアップグレードを行います。text-align: left;">音声、ビデオ、および画面共有を含む、優れたマルチモーダル対話機能。
人間の表情、テキスト、数式をリアルタイムで認識し、理解します。
インタラクティブな音声は感情豊かで、声のトーンやスタイルを変えたり、モノマネをしたり、歌を「即興」で歌うこともできます。
超低遅延で、会話の途中でAIをリアルタイムで中断し、情報を追加したり、新しいトピックを始めることができます。
ChatGPTの全ユーザーは無料で利用できます(利用上限あり)。
GPT-4ターボの2倍速く、APIコストは50%低く、レート制限は5倍です。
⇦
"これらの制限のブレークスルーはイノベーションです。"
業界の専門家たちは、GPT-4oのマルチモーダル機能は「よく見える」だけであり、OpenAIは実際には視覚的マルチモーダリティの「ブレークスルー」と考えられるものを実証していないと主張しています。視覚的マルチモダリティの「ブレークスルー」。
大モデル業界ではお決まりのように、Claude 3と、すぐ隣にあるAnthropicのClaude 3を比較してみましょう。
Claude 3の技術資料には、「Claudeの画像理解能力は優れているが、できるほどではない。クロードの画像理解能力は最先端であるが、注意すべきいくつかの制限がある。"
これには次のようなものがあります:
人物認識:クロードは画像の中の人物を認識する(つまり名前をつける)ために使うことはできません。また、それを拒否します。
精度:クロードは低画質、回転、200ピクセル以下の非常に小さな画像を解釈する際に幻覚を見たり、間違いを犯すことがあります。
空間的推理:クロードの空間的推理は限られている。アナログ時計の文字盤を読んだり、チェスの駒の正確な位置を説明したりするような、正確な位置や配置を必要とする作業は難しいかもしれません。
数え上げ:クロードは画像内の物体のおおよその数を数えることができるが、特に小さな物体の数が多い場合、必ずしも正確ではないかもしれない。
AIが生成した画像:クロードは画像がAIが生成したものかどうかわかりません。捏造画像や合成画像の検出には当てにしないでください。
不適切なコンテンツ:クロードは私たちの利用規定に違反する不適切な画像や露骨な画像を処理しません。
ヘルスケアへの応用:Claude は一般的な医療画像を分析できますが、CT や MRI のような複雑な診断スキャンを解釈するようには設計されていません。
GPT-4oのウェブサイトに掲載されている症例には、「空間推理」に関連する能力を持つものが多数あります。
GPT-4oのウェブサイトに掲載されている症例の中には、「空間推理」に関連する能力を持つものが多数あります。
さらに、発表会でのライブデモにおけるGPT-4oの出力から、そのモデリング能力がGPT-4からそれほどかけ離れていないことが容易にわかる。
GPT-4oのランタイムスコア
このモデルは台詞にトーンを加え、即興で話すこともできるが、台詞はGPT-4と同様にディテールと創造性に欠けている。さらに、GPT-4oの一連のユースケースは、会議後にOpenAIのウェブサイトで公開されました。これらには、写真からコミックへのスタイル、会議議事録、画像合成、画像ベースの3Dコンテンツ生成、手書きと草稿の生成、スタイル化されたポスターとコミックストリップの生成、アートフォントの生成などが含まれます。
また、これらの機能のうち、写真からコミックスタイル、会議議事録などは、テキストから生成するダイアグラムやAIビッグモデル機能としても一般的です。
"ChatGPTプラスのサブスクリプションに毎月20ドル支払う必要がないように、5つの無料ChatGPTアカウントにサインアップしますか?"
OpenAIが発表したGPT-4oの利用ポリシーでは、ChatGPT Plusの加入者は、一般ユーザーに対する制限よりも5倍高いトラフィック制限が適用されます。
GPT-4oは誰でも無料で利用できるものであり、まず最初に挑戦されるのはOpenAI自身のビジネスモデルのようです。
サードパーティの市場分析プラットフォームであるSensor Towerが発表したデータによると、過去1ヶ月間で、ChatGPTは世界のApp Storeで700万ダウンロード、1200万ドルのサブスクリプション収入があり、世界のGoogle Playマーケットプレイスでは9000万ダウンロードがあった。百万ダウンロード、300万ドルのサブスクリプション収入がありました。
現在、ChatGPT Plusは両アプリショップで19.99ドルで入手可能です。サブスクリプションのデータから推測すると、ChatGPT Plusは過去1ヶ月でアプリショップを通じて75万人の有料サブスクライバーを獲得しています。ChatGPT Plusにはまだ多くの直接有料会員がいるが、モバイルからの収益という点では、年間2億ドル弱で推移しており、OpenAIの1000億ドル近い評価額を数倍にすることで支えるのは難しい。
これを見ると、OpenAIは個々のユーザーへの課金について深く考える必要はありません。
さらに、GPT-4oは良いエクスペリエンスに重点を置いているため、AIとチャットしているときに切れてしまい、再びチャットするためにアカウントを変更しなければならなくなった場合、トップアップすることに憤慨するでしょうか?
「オリジナルの ChatGPT は言語インターフェースの可能性を示唆していました。速くて、スマートで、楽しくて、自然で、役に立つ。"
サム・アルトマンの最新のブログでは、「言語インターフェースの可能性」について言及しています。すべてのGUI(グラフィカル・インタラクション・インターフェイス)に挑戦し、LUIの限界を押し広げようとする人たちです。
最近のOpenAIとAppleのコラボレーションのニュースと合わせて、GPT-4oは近いうちに、AI PCやAI携帯電話のすべてのメーカーに「オリーブの枝を投げる」、あるいは「テーブルを持ち上げる」ことになるだろうと推測できます。「テーブルを持ち上げる」。
どのような音声アシスタントやAIビッグモデルであっても、AIPC、AI携帯電話のコアバリューはエクスペリエンスを最適化することであり、GPT-4oは一気にエクスペリエンスを極限まで最適化した。
GPT-4oは、SaaS業界でさえ、すべての既知のアプリに展開する可能性がある。過去1年ほどの間に市場で開発され、開発中のすべてのAIエージェントが危険にさらされることになります。
あるリソースアグリゲーションアプリのプロダクトマネージャーがタイガーセンスに言ったことがある。"私の操作プロセスはプロダクトのコアであり、もし操作プロセスがあなた方ChatGPTによって最適化されるなら、私のアプリには価値がないに等しい。"と。
もしあなたがテイクアウトアプリを注文した場合、UIは "私に食べ物を注文する "という文章になり、米国グループを開いたり、空腹を開いたり、ユーザーにとっては同じであることを想像してみてください。
メーカーの次のステップは、サプライチェーンの圧縮、生態学的な利益率、さらには悪質な価格競争にすることができます。
現在の形からすると、他のベンダーがモデル能力の面でOpenAIを打ち負かすには、しばらく時間がかかると思います。
製品がOpenAIに匹敵する唯一の方法は、より安いモデルを作ることです。
"最近忙しすぎて、彼らに目を向ける余裕がない。"
大規模な産業用AIモデルの創設者の1人は、戦略的パートナーシップ、製品リリース、顧客交換や資本交換に関するコミュニケーションで最近忙しく、OpenAIのようなリリースに注意を払う時間がまったくなかったとTigerSenseに語っています。
OpenAIのリリースに先立ち、タイガーセンスは国内の各界のAI実務家にも聞いてみたが、OpenAIの最新リリースに対する彼らの予想や見解は、異口同音に「非常に楽しみだが、自分とは関係ない。
ある開業医は、現在の国の進歩から見て、短期間でOpenAIに追いつくのは現実的ではないと言いました。そのため、OpenAIのリリース内容を気にするのであれば、最新技術の方向性を見るのが精一杯だという。
現在、国内企業はAIモデル開発において、より現実的で実現しやすいエンジニアリングモデルやバーティカルモデルを重視するのが一般的だ。
エンジニアリングでは、最近台頭してきたディープシークが、国内のビッグモデル業界で東建の価格競争を巻き起こしている。垂直モデルの面では、短期的には、小型モデルと垂直モデルの開発は基本的にOpenAIの人質にはならないと、多くの業界関係者がTiger Senseに語った。
"OpenAIの技術的な方向性はあまり価値がないこともある"。2024年2月、OpenAIはビデオモデル「Sora」をリリースし、安定した60秒のビデオ出力を達成した。うまくいっているように見えるが、その後の練習はほとんどなく、着地速度も非常に遅い。
Soraが登場する前、ヴァンセンヌ映像の分野では多くの国内企業や組織が15秒の安定した映像生成を達成しており、Soraが登場した後、企業の研究開発、資金調達、製品リズムの一部が破壊され、さらにはヴァンセンヌ映像業界全体の発展を「技術の飛躍」に進化させた。
幸いなことに、今回のGPT-4oは空とは大きく異なっており、OpenAI CTOのMuri Murati は、「今後数週間にわたり、反復的な展開を続け、すべての機能を提供する予定です。
発表後すぐに。GPT-4oはオンライン試用が可能でした。