ソース:Anthropic AI
深夜、Claude 3.5が大幅にアップグレードされました!
意外にも、Anthropic AIは今週ついに大きな動きを見せました - Claude 3.5 Haikuをデビューさせ、Claude 3.5 Sonnetの新しいアップグレード版も登場しました。
![](https://img.jinse.cn/7311471_image3.png)
しかし、「特大カップ」Opusはまだ行方不明です。
衝撃的だったのは、進化したClaude 3.5 SonnetがOpenAI o1を一気に粉砕し、最強の推論モデルになったことです。
特に業界をリードするコーディング能力において、全体的に大幅な改良が施されています。
![](https://img.jinse.cn/7311472_image3.png)
そしてClaude 3.5 Haikuは、前世代最強のClaude 3 Opusに匹敵するパフォーマンスで、前世代のHaikuと同程度のコストとスピードです。
さらに、Claudeは人間のようにコンピュータを操作できるようになり、画面を見たりカーソルを動かしたりするだけでなく、ボタンを押したり、単独でテキストを入力することもできるようになりました!
Anthropicの開発者リレーションの責任者は、「コンピュータの使用」は、人間とコンピュータの相互作用のまったく新しいパラダイムの第一歩だと言います。また、AIモデルが持つべき、まったく新しい基礎的な能力でもあります。
![](https://img.jinse.cn/7311473_image3.png)
![](https://img.jinse.cn/7311474_image3.png)
新興企業によって作られたブラウザベースのインテリジェンスの多くは、一夜にして廃れました。一夜にして廃れてしまった。
![](https://img.jinse.cn/7311475_image3.png)
エージェントやワークフローが変わりつつあることを、ネットユーザーは嘆いている......
コンピュータを自力で使えるAIが登場?登場か?
パブリックベータ版では、Anthropicは画期的な新機能を紹介します。今日から、開発者はAPIを介して人間のようにコンピュータを使用するようにクロードに指示することができます。
クロード 3.5 ソネットは、パブリックベータでこの機能を提供する最初のモデルです。
もちろん、この機能はまだ実験段階であり、使うには少し不便でエラーが起こりやすいものです。そしてAnthropicは、開発者からのフィードバックを得て迅速に改善するために、この機能を早期にリリースすることを選択しました。
なぜコンピュータを操作するためにAIを訓練するのか?
Anthropicは、過去数年間で、複雑な論理的推論を実行する能力や、画像を認識・理解する能力など、強力なAI開発は多くのマイルストーンに到達したと述べています。
そして次のブレークスルーは、AIがコンピュータを操作することだろう!もしモデルが特別に調整されたツールを通して互いにやりとりする必要がなく、代わりにすべてのソフトウェアを指示通りに使用できるのであれば、これは未来を表しているに違いない。
基本的なコンピュータ操作
このデモでは、Anthropicの研究者がクロードに非常に難しい課題を与えています:
私の友人がサンフランシスコに来ています。友人がサンフランシスコに来るので、明日の朝、ゴールデンゲートブリッジからの日の出を一緒に見たいのです。パシフィックハイツから行く予定です。素晴らしい観賞スポットを見つけ、ドライブ時間と日の出時間を確認し、余裕を持って到着できるようカレンダーイベントを手配するのを手伝ってもらえますか?
クロードは自分でグーグルを開き、検索を始めた。
![](https://img.jinse.cn/7311476_image3.png)
Golden Gate Bridge(ゴールデンゲートブリッジ)は、ユーザーの住んでいる場所からどれくらい離れているのでしょうか?クロードは自分で地図を開いて距離を調べます。
![](https://img.jinse.cn/7311477_image3.png)
必要な情報を知った後、カレンダーを開き、オーナーのスケジュールを決める。
ウェブサイトの自動コーディング
開発者は、クロードがラップトップを操作して、ウェブサイトのプログラミング作業をシルクのようにスムーズに完了させた方法を紹介します。
まず、クロードはリトルブラザーのChromeブラウザでClaude.aiに移動し、クロードに90年代をテーマにした自分のホームページを作らせました。
URLを入力し、プロンプトを入力し、もう一人のクロードにリクエストを送る自分自身を見るためだ。
![](https://img.jinse.cn/7311478_image3.png)
Claude.ai はいくつかのコードを返し、レンダリングは素晴らしいものになったが、弟は自分のコンピュータでローカルにサイトに変更を加えたいと思った。
そこで彼はクロードにファイルをダウンロードし、VS Codeで開くように頼んだ。
それからリトルはクロードにサーバーを起動させ、ブラウザで実際にファイルを見ることができるようにしました。
クロードはVS Codeのターミナルを開き、サーバーを起動しようとしたところ、「Pythonがマシンにインストールされていません」というエラーが発生しました。
結局のところ、ターミナルの出力を見ることで、クロードは自分で問題を発見しました!
結局のところ、ターミナルの出力を見て、クロードは自分で問題を発見しました!Python 3で再試行し、なんとかサーバーを立ち上げることができました。
![](https://img.jinse.cn/7311479_image3.png)
しかしながら、ターミナル出力にはエラーがあり、上部にファイルアイコンがありませんでした。開発者の男はクロードにエラーを特定し、ファイルの中で修正するように頼んだ。
驚いたことに、クロードはVSコードでエラーを引き起こした行を見つけ、その行をすべて削除してからファイルを保存し、サイトを再実行した。
![](https://img.jinse.cn/7311480_image3.png)
今度は正確にサイトが表示されました!
フォームに記入するデータを自動的に見つける
「Ant Equipment Company」からのサプライヤー依頼フォームに記入する必要があるとします。
ただ、この小さな男の画面のスクリーンショットを撮り始め、すぐに「Ant Equipment Company」がフォームにないことに気づきます。
![](https://img.jinse.cn/7311481_image3.png)
この時点で、すぐにCRMシステムに切り替えて、この会社を探しました。それが見つかると、ページをスクロールし始め、フォームに記入するために必要なすべての情報を見つけ、フォームを送信しました。
これはまた、私たちが仕事でやらなければならない面倒なことの多くを、クロードに任せることができるということでもある!
![](https://img.jinse.cn/7311482_image3.png)
これは現在APIで利用可能です。
現在、Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyといった多くの有名企業が、数百とは言わないまでも数十もの複雑なタスクを実行させるために、クロードの新たな可能性をすでに探っている。
たとえば、ReplitはClaude 3.5 Sonnetのコンピュータ使用およびユーザーインターフェイスナビゲーション機能を活用して、アプリケーションの構築中にリアルタイムで評価するReplit Agentの機能を開発しています。
人間には遠く及ばないが、将来は有望
新しくアップグレードされた Claude 3.5 Sonnet のコンピューター使用機能は、具体的にどのようなものなのでしょうか?
OSWorldのテストでは、スクリーンショットのみのタスクカテゴリで14.9パーセントのスコアを記録し、2位のAIシステム(7.8パーセント)を大きく上回りました。
タスクを完了させるために、より多くのアクションステップが許可された場合、クロードのスコアは22.0%に向上しました。
このことは、モデルと環境の間の複数の相互作用が、タスクのパフォーマンスを最適化できることを示唆している。
この結果は前回よりも大幅に改善されたとはいえ、人間のパフォーマンスである72.36パーセントを大きく下回っている。
これはまた、Claude 3.5 Sonnetが将来的に多くの改善の余地があることを示唆しています。
![](https://img.jinse.cn/7311483_image3.png)
結局のところ、人間が難なくこなす動作(スクロール、ドラッグ、ズーム)のいくつかは、現在のところClaudeにとって非常に困難です。
アップグレードされた Claude 3.5 Sonnet、コーディングの王様Fuck-o1
さまざまな業界ベンチマークにおいて、アップグレードされた Claude 3.5 Sonnet のパフォーマンスはあらゆる面で向上しています。
特に、スマートボディのコーディングとツールの使用タスクにおいて、大幅なブレークスルーが達成されました。
![](https://img.jinse.cn/7311484_image3.png)
論文はhttps://assets.anthropic.com/m/。1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf
符号化能力に関しては、SWE-bench Verifiedテストにおいて、33.4パーセントから49.0パーセントへと劇的に性能が向上しました。
これは、OpenAIのo1-previewのような推論モデルや、知能を符号化するために設計された特別なシステムを含む、一般に利用可能なすべてのモデルを凌駕しています。
![](https://img.jinse.cn/7311485_image3.png)
さらに、Claude 3.5 Sonnetは、インテリジェントな身体ツールを使用する能力を評価するベンチマークテストであるTAU-benchでも好成績を収めました。
![](https://img.jinse.cn/7311486_image3.png)
以下の表から、推論テストのベンチマークGPQA(Diamond)において、新バージョンのClaude 3.5SonnetはGPT-4oを大幅に上回っています。
![](https://img.jinse.cn/7311487_image3.png)
Visual QA、Maths Reasoning、Document Visual Q&A、Diagramming Q&A、Scientific Tablesのベンチマークにおいて、Claude 3.5 Sonnetのパフォーマンスは新しい業界ベンチマークとなりました。のパフォーマンスが新しい業界ベンチマークとなりました。
![](https://img.jinse.cn/7311488_image3.png)
Claude 3.5 Sonnetの新バージョンは、前モデルと同じ価格帯を維持し、同じ速度で動作しながら、パフォーマンスにおいて新境地を開いたことは注目に値します。
初期のベータテスターからのフィードバックは、アップグレードされたClaude 3.5 Sonnetが、AI主導のコーディングにおける「質的な」飛躍であることをさらに裏付けています。
GitLab: DevSecOpsタスクテストにおいて、Claude 3.5 Sonnetは、レイテンシーを増加させることなく、推論を大幅に改善(ユースケース全体で最大10パーセント)することがわかりました。
Cognition: Claude 3.5 Sonnetの新バージョンを自律的なAI評価に適用すると、前任モデルと比較して、コーディング、プランニング、問題解決において大幅な改善が見られました
Cognition: Claude 3.5 Sonnetの新バージョンを自律的なAI評価に適用すると、前任モデルと比較して、コーディング、プランニング、問題解決において大幅な改善が見られました
Cognition: Claude 3.5 Sonnetの新バージョンを自律的なAI評価に適用すると、前任モデルと比較して、コーディング、プランニング、問題解決において大幅な改善が見られました。li>
The Browser Company:は、ネットワークワークフローを自動化するためにこのモデルを使用したところ、Claude 3.5 Sonnetが、彼らがテストした以前のすべてのモデルよりも優れていることを発見しました
さらに、安全な配備に先立ち、Claude 3.5Sonnetは米国のAIセキュリティ研究所(US AISI)と英国のAISIで共同でテストされました。
そして、独自の評価の結果、Anthorpicが「Responsible Scaling Policy(責任あるスケーリング方針)」で開発したASL-2基準は、新しいモデルにもまだ適用されます。
前述の通り、クロード3.5ソネットのアップグレードバージョンは、現在ウェブとエンドアプリで入手可能です。
![](https://img.jinse.cn/7311489_image3.png)
API の価格は、100万入力トークンあたり3ドル、100万出力トークンあたり15ドルからです。strong>です。
スマートなキャッシュ技術を使えば最大90パーセント、バッチAPIを使えば50パーセントの節約になります。
アプリケーションのシナリオ
Claude 3.5 Sonnetは、微妙な指示やコンテキストを理解し、エラーを識別して修正し、複雑なデータから深い分析と洞察を生成します。最先端のコーディング、視覚認識、および書き込み機能と組み合わせることで、Claude 3.5 Sonnetはさまざまなシナリオで使用できます。
-人間のコンピュータ操作をシミュレート
ClaudeのAPI統合により、開発者はClaudeに、スクリーンを見たり、マウスを動かしたり、ボタンをクリックしたり、テキストを入力したりすることで、人間のようにコンピュータを使用するよう指示することができます。3.5ソネットは、このようにコンピュータを確実に使用できる最初の最先端AIモデルであり、まだ公開テスト段階では実験的なものですが、その能力は時間とともに向上し続けるでしょう。
- 自動コード生成
Claude 3.5 Sonnetは、初期設計からバグ修正、システムメンテナンスからパフォーマンス最適化まで、ソフトウェア開発のライフサイクル全体を支援します。製品に直接統合することも、Claude.aiプラットフォームを通じてインテリジェントなコーディングアシスタントとして使用することもできます。
-インテリジェント対話システム
推論機能が強化され、親しみやすく自然な口調のClaude 3.5 Sonnetは、データを接続し、システム間でアクションを実行する必要があるインテリジェント対話システムの開発に最適です。
- Intelligent Knowledge Quiz
Claude 3.5 Sonnetは、大規模なコンテキスト処理機能と極めて低いファントム率を備えており、大規模な知識ベース、ドキュメント、コードベースのクイズタスクを処理するのに理想的です。
-視覚的な情報抽出
Claude 3.5 Sonnetは、チャート、グラフ、複雑な回路図などの視覚的な素材から簡単に情報を抽出することができます!.
-プロセスの自動化
Claude 3.5 Sonnetは反復的なタスクやプロセスを自動化します。複雑なプロセスやオペレーションを処理するための業界をリードするコマンド実行機能を備えています。
![](https://img.jinse.cn/7311490_image3.png)
New Claude 3.5 Haiku、前世代のビッグブラザーを超えるインテリジェンス
前世代のベンチマークから、Claude 3.5 Haikuは "最も小さなカップ".
Anthropicの最速モデルです。
『Claude 3 Haiku』と同じランニングコストと同じような処理速度を維持しているだけでなく、すべてのスキルを全面的に向上させています。
多くのインテリジェントなベンチマークにおいて、Claude 3.5 Haikuでさえ、前世代で最もパワフルなモデルであるClaude 3 Opusを凌駕しています。
同様に、Claude 3.5 Haikuはコーディングタスクで特に優れたパフォーマンスを発揮します。
たとえば、SWE ベンチ検証テストでは、40.6%という高いスコアを達成し、Haiku 3.5 Sonnetのオリジナル版を含む、一般に入手可能な最先端のモデルを使用した多くの AI インテリジェンスを凌駕しました。クロード3.5ソネットとGPT-4oのオリジナル版を含む。
![](https://img.jinse.cn/7311491_image3.png)
Claude 3.5 Haikuは3つの際立った利点を提供します:
1.低遅延レスポンス
1.strong>2.より正確なコマンドの実行
3.より正確なツールの使用
これらの特徴により、このモデルはユーザー向けの製品開発、特殊なサブインテリジェンス・タスク、および購入履歴や価格情報、在庫データなどの大量のデータに基づくパーソナライズされたエクスペリエンスの生成に特に適しています。パーソナライズされた体験
今月末までに、Claude 3.5 HaikuはAnthropic API、Amazon Bedrock、Google CloudのVertex AIを含む複数のプラットフォームで利用可能になる予定です(当初はテキストのみのモデルで、画像入力機能は後に追加される予定です)
Claude 3.5 Haikuの価格は以下の通りです。入力トークン100万個あたり0.25ドル、出力トークン100万個あたり1.25ドルです。
キューワードキャッシュ技術を使用することで最大90%、メッセージバッチAPIを使用することで50%の節約を達成できます。
アプリケーションのシナリオ
高速な処理速度、改善されたコマンド実行、より正確なツールの使用により、Claude 3.5 Haikuはユーザー向けの製品、特殊な支援タスク、大量のデータからのパーソナライズされたエクスペリエンスの生成に最適です。
- コードの自動補完
Claude 3.5 Haikuは、高速で正確なコード提案と補完を提供することで、開発ワークフローを加速します。コーディングプロセスを簡素化し、生産性を向上させたいソフトウェア開発チームに最適です。
-インテリジェントなチャットボット
強化された会話機能と高速な応答時間により、Claude 3.5 Haikuは、多数のユーザーとの対話に対応できる応答性の高いチャットボットを強化することに優れています。特に、拡張可能な対話機能を必要とするカスタマーサービス、eコマース、教育プラットフォームにとって価値があります。
- データ抽出と自動注釈
Claude 3.5 Haikuは情報を効率的に処理・分類し、高速なデータ抽出と自動注釈タスクを得意としています。この機能は、金融、医療、研究などで大量の非構造化データを扱う必要がある組織にとって特に有用です。
-自動化されたリアルタイムのコンテンツ監査
Claude 3.5 Haikuは、推論およびコンテンツ理解機能の向上により、信頼性の高いオンザフライのコンテンツ監査を実現します。これは、安全で適切なコンテンツを大規模に維持する必要があるソーシャルプラットフォーム、オンラインコミュニティ、メディア組織にとって非常に価値のあるものです。
クロードにコンピューターの操作を教える方法
Anthropicは、人間が簡単に実行できる操作(スクロール、ドラッグ、ズーム)は、現時点ではクロードにとってまだ難しいものだと述べています。
また、スパム、偽情報、詐欺のようなリスクに対して、同社は、危害が発生しているかどうかを検出する識別システムの開発など、安全な展開のための戦略を検討しています。
研究プロセス
ツールの使用とマルチモーダリティに関するAnthropicの研究は、AIが画像を認識・解釈するための基礎を築くものです。
この基礎の上に、クロードは、画面のコンテンツに基づいて、いつ、どのようにアクションを実行するかを推論する必要もありました。
そのために研究者たちは、クロードが正しい場所をクリックするために、マウスポインターを垂直または水平に動かすのに必要なピクセル数を計算する必要があったため、コマンドを完了するためにピクセルを正確に数えるように訓練しました。
この間、クロードは学習の成功を、電卓やテキストエディタのような単純なソフトウェアでのトレーニングから、他のアプリケーションへと素早く移行させました(この間、ネットワークは許可していなかったことに注意してください)。
このトレーニングにより、ユーザーのコマンドを、アクションを実行する一連の論理的ステップに変換できるようになった。また、障害に遭遇したときには、タスクを自己修正し、再試行することもできます。
豆知識
Anthropicの開発者関係責任者であるAlex Albert氏も、チームにはコンピュータの使用機能の開発について興味深い話があると話してくれました。
当時、彼らはAPIに関するすべての潜在的な問題が発見されたことを確認するために、エンジニアのためのバグバッシュ(脆弱性のトラブルシューティングイベント)を開催しました。
これは、エンジニアたちを数時間部屋に閉じ込めることを意味しました。
そのとき、たまたまみんながお腹を空かせていました。エンジニアの一人は、「クロードに実戦練習をさせて、自律的にDoorDashを開いて食べ物を注文させたらどうだろう」と妙案を思いついた。
![](https://img.jinse.cn/7311492_image3.png)
意外なことに、約1分後、クロードはエンジニアたちのためにピザを注文した。
![](https://img.jinse.cn/7311493_image3.png)
Looking to the future
コンピュータを操作するAIの能力は、人工知能開発のまったく新しいアプローチを表しています。
これまでLLMの開発者たちは、AIが特別に設計されたツールを使ってさまざまなタスクを実行する特別な環境を作り、ツールをモデルに適応させることに尽力してきました。
今、Anthropicは「その逆」を行っている。モデルをツールに適応させることを選択しているのだ。つまり、クロードは人間と同じように、私たちが毎日使っているコンピュータ環境に適合し、既存のソフトウェアを直接使用することができる。
クロードはそのゲームの頂点にいるとはいえ、まだ比較的遅く、エラーを起こしやすい。ドラッグ、ドロップ、ズームなど、私たちがコンピューター上で毎日行っていることの多くは、クロードではまだ不可能です。
さらに、Claudeは現在、連続したビデオのストリームを見るのではなく、連続したスクリーンショットを撮ってつなぎ合わせることで、「絵本」を素早くめくるような方法でスクリーンを見ています。これは、短い動きや通知を見逃す可能性があることを意味する。
興味深いことに、Anthropicはデモを記録している間、いくつかの興味深い不具合がありました。
たとえば、あるデモでは、クロードが誤って長時間の画面録画を停止するためにクリックしてしまい、すべての映像が流れてしまいました。
別のコーディングデモでは、クロードは突然「我を忘れて」イエローストーン国立公園の写真を興味深げに閲覧し始めた。
![](https://img.jinse.cn/7311494_image3.png)
全体として、今日のクロードのパフォーマンスは、私たちに未来を期待させてくれるものでした。コンピュータを操作するAIの能力は急速に進歩し、ソフトウェア開発に慣れていない人でも簡単に使えるようになる日が来るでしょう。