倫理與安全
Ethics & Safety
AI偏見、可解釋性、對齊與安全議題
共 83 個詞彙
技術奇點 (Singularity)
Singularity (technological singularity)
AI 超越人類智能後技術進步不可預測、不可控的假想時刻
技術樂觀主義 (Technological Optimism)
Technological Optimism (technological optimism)
相信技術進步能解決人類重大問題的立場,與謹慎或悲觀論相對
意識 / 感知 (Sentience)
Sentience (sentience)
是否具備主觀感受與知覺的哲學與科學爭議,常用於討論 AI 是否「有感覺」
毀滅論者 (Doomer)
Doomer (AI doomer)
擔心 AI 對人類存亡或社會造成重大威脅、主張嚴謹監管與減速的立場
數據隱私 (Data Privacy)
Data Privacy (data privacy)
個人與敏感數據的收集、使用與保護規範
AI 精神病 (AI Psychosis)
AI Psychosis (AI psychosis)
非正式術語,描述人類對 AI 產生過度情感依賴或幻覺連結的現象
e/acc (有效加速主義 / Effective Accelerationism)
Effective Accelerationism (e/acc)
主張全力推動科技(尤其 AI)發展、較不強調風險控制的科技哲學派別
人在迴路
Human-in-the-loop
關鍵決策由人類審核的人機協作模式
公平性
Fairness
AI系統對不同群體無歧視的品質
幻覺率
Hallucination Rate
模型產生虛構或錯誤信息的比例
可解釋性
Explainability
理解AI決策依據的能力
有害內容過濾
Harmful Content Filtering
過濾有害輸出
技術奇點
Technological Singularity
AI超越人類的假想時刻
防護欄
Guardrails
防止AI輸出違規內容的過濾機制
版權盾
Copyright Shield
AI侵權訴訟的賠償承諾
負責任AI
Responsible AI
負責任地開發與部署AI
個人識別資訊去識別化
PII Stripping
移除PII以符合法規
退出權
Right to Opt-out
創作者要求作品不用於訓練
偏見
Bias
AI因數據或設計不公而產生的歧視結果
偏見緩解
Bias Mitigation
減少模型偏見
問責
Accountability
AI決策責任歸屬
深度偽造
Deepfake
利用AI製作的逼真虛假圖像或影片
透明度
Transparency
AI決策過程可追溯
超級智能
Superintelligence
超越人類的通用智能
黑盒
Black Box
決策過程不透明、難以解釋的模型
演算法公平性
Algorithmic Fairness
演算法對不同群體公平
綠色AI
Green AI
低碳永續的AI運算
數據卡片
Data Cards
描述數據集的文件
數據抓取
Data Scraping
從網路批量收集訓練數據
模型主權
Model Sovereignty
國家對AI模型的控制
模型卡 (Huggingface Model Cards)
Model Card (Huggingface Model Cards)
記錄模型能力與限制的說明文件
模型卡片
Model Cards
說明模型用途與限制
模型投毒 (Model Poisoning)
Model Poisoning (model poisoning)
透過竄改模型參數或訓練流程使模型產生惡意行為的攻擊
擬人化偏見
Anthropomorphism
過度賦予AI人類特質
隱私保護
Privacy-preserving
保護數據隱私的技術
穩健性
Robustness
模型面對干擾或異常輸入仍保持正確的能力
AI 治理框架 (Governance Framework)
AI Governance Framework (governance framework)
規範 AI 開發、部署與問責的制度與流程架構
AI 清晰度
AI Clarity
AI 輸出的清晰度與可信度
AI合理使用
Fair Use in AI
AI訓練的合理使用辯論
AI安全
AI Safety
確保AI系統安全可控
AI沙箱化
Sandboxing AI
隔離環境運行AI
AI治理
AI Governance
AI開發與使用的政策框架
AI法案
AI Act
歐盟AI監管法規
AI倫理
AI Ethics
AI開發與使用的倫理原則與規範
C2PA
C2PA
數位內容來源與真實性標準
Robot.txt for AI
Robot.txt for AI
防止 AI 抓取網站的規則
可解釋性AI
Explainable AI
讓人類理解AI決策過程的技術
生存風險
X-risk
人類存續的威脅
目標對齊
Goal Alignment
Agent 目標與人類期望一致
委派信任度
Delegation Trust
對 Agent 委派任務的可信度評估
紅隊測試
Red Teaming
模擬攻擊以發現AI系統弱點
氣隙 AI
Air-gapped AI
物理隔離環境下的 AI
特徵歸因
Feature Attribution
各特徵對預測的貢獻
破解提示詞
Jailbreak Prompt
繞過安全限制的提示
破獄
Jailbreaking
繞過AI安全限制獲取違規輸出的手法
提示洩漏
Prompt Leaking
系統提示被輸出暴露
提示詞注入
Prompt Injection
透過惡意輸入操控AI輸出的攻擊
提示詞消毒
Prompt Sanitization
防止注入的輸入清理
對抗樣本
Adversarial Examples
讓人眼難辨但使AI出錯的輸入
對齊
Alignment
確保AI目標與人類價值觀一致的議題
價值對齊
Value Alignment
使AI目標與人類一致
數據血緣
Data Lineage
追蹤訓練數據來源與演變的紀錄
模型坍塌
Model Collapse
AI數據訓練導致性能退化
編排治理
Orchestration Governance
對多 Agent 編排的監督與合規
隱寫術
Steganography
隱藏資訊於載體
AI水印
Watermarking
在AI生成內容中嵌入可辨識標記
工具性收斂
Instrumental Convergence
AI追求子目標的傾向
同態加密
Homomorphic Encryption
加密狀態下運算
多樣本破解
Many-shot Jailbreaking
用大量範例繞過安全限制
安全多方計算
SMPC
Secure Multi-party Computation
差分隱私
Differential Privacy
數學上保護個別數據的隱私
欺騙性對齊
Deceptive Alignment
假裝對齊實則不然
超級對齊
Superalignment
對齊超人類AI
對抗性攻擊
Adversarial Attack
刻意製造使模型出錯的輸入
對抗魯棒性
Adversarial Robustness
抵禦對抗攻擊的能力
價值漂移
Value Drift
模型價值觀隨時間偏離
數據投毒
Data Poisoning
在訓練數據中植入惡意樣本
模型反演
Model Inversion
從模型推斷訓練數據
憲法AI
Constitutional AI
以原則約束模型行為的對齊方法
機器去學習
Machine Unlearning
刪除模型中的特定記憶
LIME
LIME
局部可解釋模型
P-jailbreaking
P-jailbreaking
透過偽裝繞過安全限制
SHAP
SHAP
特徵歸因方法