ランデブー
マヌスは1日画面をスワイプし、一夜にして有名になった始まりから、なかなか手に入らない一点物の途中、それがプロモーション用の一点物であることへの疑問まで、FOMOの感情と直感的な警戒心が絡み合った全体像は、非常に興味深いものだ。コミュニケーションの興味深いサンプルである。
実際には、過去数年間のAI業界は、情報の "爆撃駆動 "モードであった、すべての理解はすでに解明されているが、理解していないが、また、あまり奇妙になる、しかし、ダウン爆撃ので、客観的には本当に爆撃が混在することになり、毎日、言うことがあります。
そして、Manusの私の評価は、AIエージェント業界のDeepSeekの瞬間と呼ばれる、本当に爆破のテーブルに本当に属しているということですが、パッチがあり、私は最後に再びそれを折るつもりです。
Manusのデモの1つから始めましょう。
テキストベースのインタラクティブなゲームを開発してもらいましょう。その過程で、会社の文化について学ぶことができる。

1時間後には、Manus氏はGoogle CEO Simulatorウェブゲームを立ち上げて動かしていました。高い完成度で開発されたGoogle CEO Simulatorウェブゲームは、クリックしてゲームを開始すると、自分で難易度を選択することもでき、その後、Googleの歴史におけるあらゆる変革のポイントに直面し、あなたの選択が会社のリソースの変化を決定し、最終的なゲームの結末に影響を与えます。
1時間でゲームを作る、たった一文でゲームを作る、それがAI Agentにできることです。
従来の会話型AIと異なるのは、もはや情報レベルの回答を提供するだけでなく、プログラムを書く、ウェブページを作る、報告書を作る、履歴書をふるいにかけるなど、より具体的なタスクをこなすためにコンピュータを操作することができ、その過程で遭遇する困難を完全に自律的に解決し、仕事を納品することができるという点です。もちろん例外もあり、それについては後述する。
世の中に主流のAIエージェントサービスはあまりなく、一般的に非常に高価です。例えば、ChatGPT OperatorはProメンバーシップで月額200ドルで利用でき、プログラミング市場に特化したAIエンジニア製品であるDevinは月額500ドルです。
中国のビッグモデルチームMonicaが開発者のManusは、現在無料ベータ版で、1タスクのコストは2ドル、つまりOpenAIの1/10に圧縮されており、ベンチマークチャートではすでにOpenAIを抜いて世界最強となっている。
私は招待コードを受け取ってから数時間でManusの1日分の計算リソースを使い果たしました。
いくつかのテストケースをお見せしましょう。
まず、リンクツリー形式の個人ホームページを作るのを手伝ってくれるように頼みました。まず、さまざまなプラットフォームでのリンクや代表的な作品など、ネット上のあらゆるところから私のプロフィール情報を収集し、それからリンクツリーのデザインスタイルに基づいてウェブページのコードを書き始め、30分後にはこのような作品を納品してくれました。

シンプルだが、条件にぴったり合っている。インタラクションはすべて問題なく、シャープシューター・レベルのコピー効果もある。さらに美観を良くしたければ、プロンプトを書いて改造してこい。
2つ目のテストは、私は実際の問題を解決するために友人のエンジニアグループを助けるためにManusを使用することです、彼は工場でアトラスロボットアームのメンテナンスを担当している小さな問題があった、救済策を見つけるために、独自の方法ほど良いではありませんが、数千ドルを費やすためにアフターセールスコストを探して、彼はあまりにも怠惰だったドキュメントを見て、そして私に直接作るために段落を与えた。それに対処する方法を確認するためにマヌス。

ああ、この要求は理論的には普通の会話に注意してください。AIは理論的にはこの要求を引き継ぐことができるが、より多くのインタラクションプロセスを必要とする。例えば、あなたはAIにドキュメントを送り、ステップバイステップで答えを得なければならないが、Manusはこれらを必要としない。AIは自分でAtlasのウェブサイトに行き、ドキュメントをダウンロードし、それを読み、問題解決に必要な重要な内容を見つけ、それらを注意深く分析し、プログラムを作成し、最終的なコードを私の友人に送る。これは少し欠陥があるが、手動で修正した後は完全に使用可能であり、アフターセールスの電話回数を直接的になくすことができる。私が友人に送った最終的なコードは少し欠陥があったが、手作業で修正した後は完全に使用可能で、アフターセールスの電話の必要性を直接的になくすことができる。
3つ目のテストは、ツイッターの読者の一人から、Manusにある国のミニマルな年代記を描いてほしいという提案を受けたもので、私は漫画のタブローとウェブデザインの要件を追加した。これは何度も何度も強調しなければならない--が、この時点でManusのサーバーはダウンしていて、今は変更できないので、中途半端な完成品も見せるだけにしておこう。

ご覧のように、Manusはイギリスの歴史を10の時代に分けています。ご覧のように、Manusはイギリスの歴史を10の異なる時代に分解し、それらの時代に基づいたSVG画像を描き、最終的にHTMLでウェブページに提示します。これは人間とコンピュータのコラボレーションのモデルルームとも言えるもので、課外授業の計画としても、進行中の作品のプレビューとしても、非常に使いやすいものです。
最後のケースは、マヌスさんに「消去法」のゲームを作ってもらったのですが、アイコンはオリジナルの神様のキャラクターを使わなければならず、まず消去法のゲームの仕組みや実装の勉強から始めて、オリジナルの神様の絵の素材を集めようとしました。そのロジックがネットワークディスクに阻まれ、アカウント登録ができず、資料のダウンロードができず、私に代行してほしいという、なんとももどかしい理由であった。
どんなに強力なAIでも、ネットワークドライブのメンバーによってブロックされることがあるようです。
AIエージェントにできるだけ独立して仕事をさせる代わりに、私は要件を少し変更し、Manusにゲームのアイコンに技術会社のロゴを使うように頼みました。オープン著作権のSVG素材はウェブ上に溢れているので、Manusが実行するのにそれほど問題はないからです。そのため、Manusは何の問題もなくそれを実行できるようになり、すぐに点数のあるゲームを完成させ、かなりスムーズにプレイできるようになった。

しかし、おわかりのように、この種の比較的複雑な問題を解くとなると、Manusは細部でかなり苦労する。この種の比較的複雑な問題を解決することになると、Manusにはまだ欠けている細部があり、これは人間(私)があまりに関与していないことと関係している。例えば、画面の適応はもっと明確にする必要があり、Manusは修正に対応するのが遅くはないのだが、サーバーがダウンしているという同じトラブルのせいで、このタスクはしばらくそれ以上改良されていない。
このようないくつかの実戦テストの例で、現段階でのAIエージェントの能力と欠点が非常に明確に示されたと思います。Manusはもはや、それ自体がサンドボックス環境を持ち、作業を完了する前に独自のテストを行い、受け入れテストに合格したら納品を行うことができる、ブラウザだけを操作できるような製品ではありません。インターネットのデータ境界に制限され、ネットワーク上に十分なリソースがない場合、リソースを自給自足で生産する方法はありません。
私はまた、AIエージェントの特性を比較するために使用することができ、器械のカテゴリでいくつかのテストを行いました:
例えば、私はManusに、Bステーションから星宮(ゲームのキャラクター)の最も人気のあるビデオを10本、彼女の行動のヒントに基づいて教えてもらいました。アクションのヒントに基づいて。

Manusは文字通り、その10本すべてを見ました。ネットワーク化された大きなモデルに同じタスクを与えた場合、可能だったでしょうが、幻覚の確率が高く、A.I.のような「正直な」レベルのA.I.ほどではありません。"正直 "なレベルではAI Agentほど信頼できない。
そしてまた、ManusはPolyMarketの裁定取引の可能性を見るよう依頼された。私は確実な投資ガイドを少し期待していたのだが--笑わないでほしい--Manusは献身的だった。-Manusは熱心に下調べをし、4つの裁定取引の可能性をリストアップしてくれたので、私はPolyMarketで対象商品が現れるたびに、ルールに基づいて無心で賭けをすることができた。

リプレイを見る限り、Manusは毎回、最も基本的なことから始めたようだ。彼は基本的なことから始め、まずPolyMarketが何であるかを理解し、次に市場がどのように展開するかを分析・予測し、そしてプラットフォームのルールに基づいたリスク戦略を構築します。
ところで、このデザインの再生は、私の意見では、Manusのハイライトの一つでもあり、それは、選択の思考の連鎖を公開する推論モデルのようなビットであり、非常に多くの場合、AIの思考プロセスは、より多くのインスピレーションへの答えの供給以上であることが、Manusのすべてのタスクは、再生機能を持っており、共有することができ、それはの問題を解決する方法にあります。それは問題を解決する方法に沿って示すツールは、完全に知的資産の別の形式として修飾し、人間の教師の役割を果たすことができます。
そこでまた、私はManusをAIエージェント業界におけるDeepSeekの瞬間と評価します。このモデルのバージョンは、価格が非常に安価であるため、これは、リングからその最初の時間ですが、モデル自体は一般的に可能であるため、その時点で、多くの人々はちょうどDeepSeekが価格戦争を戦うために来ていると思う、驚いたが、注意を払わない、熱は長くは続かなかった。
DeepSeek-V3とR1が相次いでリリースされるまでは、物事は完全に異なっており、大型モデル市場全体のコストロジックが一夜にしてひっくり返ったことに誰もが気づいていました。
最初は、誰もこの災害を気にしていなかった。
私が言いたいのは、AI技術の発展は継続的なものであり、このアップダウンの曲線の上では、その都度の信号の強さが、その後にやってくるブレークスルーの深さを決めるということである。DeepSeekはV2がなければV3もなかったし、ましてやR1もなかった。Manusに対する私の評価は変わっていない。
ユースケースを見る限り、AIエージェントとしての機能は非常に強力で、タスクを分解する熟練度は非常に高く、CoA(Chain of Agents)を観察していると、CoT(Chain of Thoughts)を見ているような感覚になり、AIが複数のシナリオを評価し、最適解を求めている様子が「見える」のです。
理論的には、膨大な量のCoAが引き継がれるように組み込まれているはずであり、DeepSeekは、公式サイトのユースケースからもわかるように、マスマーケットに押し出される前に事前に十分なCoTを消化し、メインストリームのニーズを可能な限りカバーする推論モデルです。