Lakiren IT系のニュースをほぼ毎日更新

AnClaudeに有害な会話の強制終了機能が搭載

2025.08.17
未分類

NO IMAGE

Anthropicは2025年8月15日、対話型AI「Claude」の一部モデルに、AIが自ら会話を終了できる機能を試験導入した。対象はClaude Opus 4および4.1で、同社の消費者向けチャットインターフェースで有効化した。執拗な有害・虐待的なやり取りが続く極端な事例に限って対話を打ち切り、モデルの健全性と安全性を保つことを狙うとしている。

As part of our exploratory work on potential model welfare, we recently gave Claude Opus 4 and 4.1 the ability to end a rare subset of conversations on https://t.co/uLbS2JNczH. pic.twitter.com/O6WIc7b9Jp
— Anthropic (@AnthropicAI) August 15, 2025

機能は最終手段としてのみ用いる設計で、まず拒否や建設的な方向付けを複数回試み、それでも生産的なやり取りが見込めない場合に終了する。差し迫った自傷他害のリスクがある状況では使用しない方針で、利用者が明示的に終了を求めた場合にも応じる。

終了後は当該スレッドへの新規送信はできないが、同一アカウントで新しい会話を直ちに開始できる。長期のやり取りを失わないよう、過去メッセージを編集して分岐を作り再試行することも可能とした。大多数の利用者は影響を受けない見込みで、運用中のフィードバックを募りながら調整を続けるという。

Post Views: 90

関連する記事

GensparkがApple Watchに対応世界初の“AI議事録ツール”を搭載 2025.08.14

生成AIのツールを開発するGENSPARK INCは2025年8月12日、iPhone／iPad向けAIエージェントアプリ「Genspark [&he[…]
レジ前での「あたふた」はもう卒業？ iOS 26の新機能「Apple Payデモ」が地味に便利 2025.10.07

iPhoneをかざすだけで支払いが完了する「Apple Pay」。その手軽さから多くの人が利用しているが、「いざレジ前で使おうとしたら、操作 [&he[…]
TP-Link、Wi-Fi 8の接続テストに成功 2025.10.21

TP-Linkは10月12日(現地時間)、次世代無線LAN規格「Wi-Fi 8」(802.11bn)の接続実証テストに成功したと発表した。 [&he[…]
PerplexityがChromeの買収提案をGoogleに送付 Bloombergが報じる 2025.08.13

AIを活用した検索アプリを運営するPerplexityは2025年8月12日、米Googleのブラウザ「Chrome」事業の買収を提案した。 [&he[…]
TikTok LiteでVポイント交換が可能に 2025.10.17

CCCMKホールディングスと三井住友カードは10月17日、動画視聴アプリ「TikTok Lite」で獲得したポイントをVポイントに交換できる [&he[…]

未分類カテゴリの最新記事