AnClaudeに有害な会話の強制終了機能が搭載

NO IMAGE

Anthropicは2025年8月15日、対話型AI「Claude」の一部モデルに、AIが自ら会話を終了できる機能を試験導入した。対象はClaude Opus 4および4.1で、同社の消費者向けチャットインターフェースで有効化した。執拗な有害・虐待的なやり取りが続く極端な事例に限って対話を打ち切り、モデルの健全性と安全性を保つことを狙うとしている。

機能は最終手段としてのみ用いる設計で、まず拒否や建設的な方向付けを複数回試み、それでも生産的なやり取りが見込めない場合に終了する。差し迫った自傷他害のリスクがある状況では使用しない方針で、利用者が明示的に終了を求めた場合にも応じる。

終了後は当該スレッドへの新規送信はできないが、同一アカウントで新しい会話を直ちに開始できる。長期のやり取りを失わないよう、過去メッセージを編集して分岐を作り再試行することも可能とした。大多数の利用者は影響を受けない見込みで、運用中のフィードバックを募りながら調整を続けるという。

未分類カテゴリの最新記事