査読付き国際会議(IIAI AAI 2025・IEEE)Persona-Conditioned Online
Persona-Conditioned Online
Firestorm Risk Detection
ペルソナ条件づけによる、事例ベースの炎上リスク検知フレームワーク
A Similarity-Based Approach with Switchable OUT/SAFE Exemplars
✦ 研究概要 (TL;DR)
SNSでの「炎上」リスクを検知するフレームワーク。毒性の基準はコミュニティや組織ごとに異なるという問題に対し、「炎上事例(OUT)」と「安全事例(SAFE)」の事例データベースへの類似度マージンでリスクを判定する。データベースを差し替えるだけで「誰の基準で見るか(ペルソナ)」を切り替えられ、再学習を必要としない。
01 課題
Problem
既存の毒性分類器は、万人に共通する「毒性」を前提とします。しかし実際の炎上基準は、コミュニティや組織ごとに大きく異なります。
- 毒性・炎上の基準はコミュニティ/組織ごとに異なる
- 共通基準の分類器では各コミュニティの炎上を捉えにくい
- 基準を変えるたびにモデルの再学習が必要になりがち
02 提案手法
Approach
「炎上事例(OUT)」と「安全事例(SAFE)」の2つの事例データベースを持ち、入力文の埋め込みベクトルがどちらに近いか(類似度マージン)でリスクを判定します。データベースを差し替えるだけでペルソナを切り替えられ、再学習は不要です。
- OUT/SAFE 2つの事例DBへの類似度マージンでリスク判定
- DBの差し替えだけでペルソナを切り替え(再学習不要)
- 近傍事例で「なぜ危険か」を示す説明可能性と書き換え提案
03 結果
Results
Jigsaw データセットで評価し、SAFEクラスで以下の性能を達成しました。
79.0%
F値 (F1)
SAFE class
76.3%
Precision
SAFE class
82.0%
Recall
SAFE class
貢献 (Contributions)
- ペルソナ条件づけによる炎上基準の切り替えを実現
- 再学習を必要としない事例ベースのリスク判定
- 近傍事例による説明可能性(なぜ危険かの提示)
Publication
IIAI AAI 2025(IEEE・査読付き)Persona-Conditioned Online Firestorm Risk Detection: A Similarity-Based Approach with Switchable OUT/SAFE Exemplars
東京の大学 情報システム学部
Explainable AIContent ModerationNLPRoBERTa
ご質問や共同研究のご相談など、お気軽にご連絡ください。