Anthropic、クロード3.5ソネットと俳句を発表:AI能力の飛躍
Anthropicは最新のAIモデル、Claude 3.5 SonnetとClaude 3.5 Haikuを発表した。
クロード3.5ソネット・モデルは、最初のリリースからわずか4ヶ月でアップデートされ、すでにリーダーとして評価されていたコーディング能力においてさらに優れている。
一方、クロード3.5俳句は、コストパフォーマンスと効率性を維持しながら、かつての最先端モデルであるクロード3オーパスに匹敵するパフォーマンスを提供することを約束している。
クロード3.5ソネットの新機能は?
クロード3.5ソネット・モデルは革新的な機能を導入:コンピュータ使用。
これにより、モデルはデスクトップ環境と相互作用することで、通常は人間のオペレーターにしかできないタスクを実行することができる。
クロード3.5ソネットは、ウェブをブラウズする機能を活用することで、デスクトップレベルのコマンドを実行できるようになった。
つまり、人間と同じようにソフトウェア・アプリケーションを操作し、ウェブサイトを利用することができるのだ。
人間学によれば
"初期の顧客からのフィードバックによると、アップグレードされたクロード3.5ソネットは、AIを活用したコーディングにとって大きな飛躍となる。"
メリットは明らかだが、AIの自律性には懸念が残る。
Anthropicは、ユーザーがコントロールし続けることを保証する。
特定のプロンプトを通して、ユーザーはクロードの行動を誘導することができ、それはタスク実行のためのコンピューターコマンドに変換される。
特筆すべきは、業界ベンチマークにおけるクロードのパフォーマンスが大幅に向上していることで、SWEベンチ検証のリーダーボードでは33.4%から49%を獲得した。
この結果、クロード3.5ソネットは、オープンエーアイの最新作を含む他のモデルよりも優位に立った。
クロード3.5俳句の比較は?
間もなく発売されるクロード3.5ハイクは、前モデルであるクロード3オーパスの性能に匹敵することを目指し、オリジナルのハイクと同じスピードと価格を維持している。
このモデルは、低レイテンシーと強化された命令追従能力で際立っている。
Anthropicは、購買履歴や在庫記録の分析など、膨大なデータセットとの素早いやり取りを必要とするユーザー向けの製品やタスクに特に適していると説明している。
その優れたパフォーマンスにより、クロード3.5俳句は非常に効率的に設計されており、以前のバージョンと比較して、あらゆるスキルセットで改善されている。
例えば、SWE-bench Verifiedのリーダーボードでは40.6%のスコアを達成し、オリジナルのクロード3.5ソネットを含む多くの公開モデルを凌駕した。
開発者にとってのコンピューター利用とは?
コンピュータ使用機能は、AIとの対話にとって極めて重要な瞬間となる。
クロード3.5 ソネットは、スクリーンショットを通してコンピュータのインターフェイスを見ることができるようになりました。
開発者はクロードに指示することで反復作業を自動化し、より効率的なワークフローを実現できる。
「クロードは、我々が与えたコンピューター使用のトレーニングから急速に一般化したことに驚きました」と、アントロピックは、ユーザーの指示を一連の論理的な行動に変換するモデルの能力を強調した。
こうした進歩にもかかわらず、技術はまだ実験的で不完全なものであることを人間工学は認めている。
クロードはスクロールやズームといった基本的な作業に苦労するかもしれないので、ユーザーは慎重になるべきだ。
開発チームからの逸話は、このモデルの癖を物語っている。例えば、長時間の画面録画を止めるためにクリックしてしまい、映像が消えてしまったことがある。
安全対策と倫理的配慮
このような強力な能力の導入は、悪用される可能性についても疑問を投げかける。
Anthropicは、コンピュータ使用機能の有害な使用を検出するための新しい分類器と安全装置を開発しました。
同社は、この技術がスパム、誤報、詐欺行為に悪用される可能性があることを指摘し、倫理的な意味合いについて警戒を続けている。
クロード3.5ソネットがユーザーに提供されるようになり、クロード3.5ハイクの発売を取り巻く期待は、これらの進歩がAIを活用したコーディングと一般的な生産性にとって何を意味するのかという興奮をさらに高めている。