倫理與安全

Ethics & Safety

AI偏見、可解釋性、對齊與安全議題

共 83 個詞彙

全部基礎概念模型架構技術工具應用場景產業術語變現方法訓練與優化硬體與部署倫理與安全

AI 精神病 (AI Psychosis)

AI Psychosis (AI psychosis)

非正式術語，描述人類對 AI 產生過度情感依賴或幻覺連結的現象

倫理與安全查看詳情

e/acc (有效加速主義 / Effective Accelerationism)

Effective Accelerationism (e/acc)

主張全力推動科技（尤其 AI）發展、較不強調風險控制的科技哲學派別

倫理與安全查看詳情

意識 / 感知 (Sentience)

Sentience (sentience)

是否具備主觀感受與知覺的哲學與科學爭議，常用於討論 AI 是否「有感覺」

倫理與安全查看詳情

技術奇點 (Singularity)

Singularity (technological singularity)

AI 超越人類智能後技術進步不可預測、不可控的假想時刻

倫理與安全查看詳情

技術樂觀主義 (Technological Optimism)

Technological Optimism (technological optimism)

相信技術進步能解決人類重大問題的立場，與謹慎或悲觀論相對

倫理與安全查看詳情

數據隱私 (Data Privacy)

Data Privacy (data privacy)

個人與敏感數據的收集、使用與保護規範

倫理與安全查看詳情

毀滅論者 (Doomer)

Doomer (AI doomer)

擔心 AI 對人類存亡或社會造成重大威脅、主張嚴謹監管與減速的立場

倫理與安全查看詳情

AI 治理框架 (Governance Framework)

AI Governance Framework (governance framework)

規範 AI 開發、部署與問責的制度與流程架構

倫理與安全查看詳情

AI 清晰度

AI Clarity

AI 輸出的清晰度與可信度

倫理與安全查看詳情

AI倫理

AI Ethics

AI開發與使用的倫理原則與規範

倫理與安全查看詳情

AI合理使用

Fair Use in AI

AI訓練的合理使用辯論

倫理與安全查看詳情

AI安全

AI Safety

確保AI系統安全可控

倫理與安全查看詳情

AI沙箱化

Sandboxing AI

隔離環境運行AI

倫理與安全查看詳情

AI治理

AI Governance

AI開發與使用的政策框架

倫理與安全查看詳情

AI法案

AI Act

歐盟AI監管法規

倫理與安全查看詳情

C2PA

數位內容來源與真實性標準

倫理與安全查看詳情

Robot.txt for AI

防止 AI 抓取網站的規則

倫理與安全查看詳情

人在迴路

Human-in-the-loop

關鍵決策由人類審核的人機協作模式

倫理與安全查看詳情

個人識別資訊去識別化

PII Stripping

移除PII以符合法規

倫理與安全查看詳情

偏見

Bias

AI因數據或設計不公而產生的歧視結果

倫理與安全查看詳情

偏見緩解

Bias Mitigation

減少模型偏見

倫理與安全查看詳情

公平性

Fairness

AI系統對不同群體無歧視的品質

倫理與安全查看詳情

可解釋性

Explainability

理解AI決策依據的能力

倫理與安全查看詳情

問責

Accountability

AI決策責任歸屬

倫理與安全查看詳情

幻覺率

Hallucination Rate

模型產生虛構或錯誤信息的比例

倫理與安全查看詳情

技術奇點

Technological Singularity

AI超越人類的假想時刻

倫理與安全查看詳情

擬人化偏見

Anthropomorphism

過度賦予AI人類特質

倫理與安全查看詳情

數據卡片

Data Cards

描述數據集的文件

倫理與安全查看詳情

數據抓取

Data Scraping

從網路批量收集訓練數據

倫理與安全查看詳情

有害內容過濾

Harmful Content Filtering

過濾有害輸出

倫理與安全查看詳情

模型主權

Model Sovereignty

國家對AI模型的控制

倫理與安全查看詳情

模型卡 (Huggingface Model Cards)

Model Card (Huggingface Model Cards)

記錄模型能力與限制的說明文件

倫理與安全查看詳情

模型卡片

Model Cards

說明模型用途與限制

倫理與安全查看詳情

模型投毒 (Model Poisoning)

Model Poisoning (model poisoning)

透過竄改模型參數或訓練流程使模型產生惡意行為的攻擊

倫理與安全查看詳情

深度偽造

Deepfake

利用AI製作的逼真虛假圖像或影片

倫理與安全查看詳情

演算法公平性

Algorithmic Fairness

演算法對不同群體公平

倫理與安全查看詳情

版權盾

AI侵權訴訟的賠償承諾

倫理與安全查看詳情

穩健性

Robustness

模型面對干擾或異常輸入仍保持正確的能力

倫理與安全查看詳情

綠色AI

Green AI

低碳永續的AI運算

倫理與安全查看詳情

負責任AI

Responsible AI

負責任地開發與部署AI

倫理與安全查看詳情

超級智能

Superintelligence

超越人類的通用智能

倫理與安全查看詳情

退出權

Right to Opt-out

創作者要求作品不用於訓練

倫理與安全查看詳情

透明度

Transparency

AI決策過程可追溯

倫理與安全查看詳情

防護欄

Guardrails

防止AI輸出違規內容的過濾機制

倫理與安全查看詳情

隱私保護

Privacy-preserving

保護數據隱私的技術

倫理與安全查看詳情

黑盒

Black Box

決策過程不透明、難以解釋的模型

倫理與安全查看詳情

AI水印

Watermarking

在AI生成內容中嵌入可辨識標記

倫理與安全查看詳情

價值對齊

Value Alignment

使AI目標與人類一致

倫理與安全查看詳情

可解釋性AI

Explainable AI

讓人類理解AI決策過程的技術

倫理與安全查看詳情

委派信任度

Delegation Trust

對 Agent 委派任務的可信度評估

倫理與安全查看詳情

對抗樣本

Adversarial Examples

讓人眼難辨但使AI出錯的輸入

倫理與安全查看詳情

對齊

Alignment

確保AI目標與人類價值觀一致的議題

倫理與安全查看詳情

提示洩漏

Prompt Leaking

系統提示被輸出暴露

倫理與安全查看詳情

提示詞注入

Prompt Injection

透過惡意輸入操控AI輸出的攻擊

倫理與安全查看詳情

提示詞消毒

Prompt Sanitization

防止注入的輸入清理

倫理與安全查看詳情

數據血緣

Data Lineage

追蹤訓練數據來源與演變的紀錄

倫理與安全查看詳情

模型坍塌

Model Collapse

AI數據訓練導致性能退化

倫理與安全查看詳情

氣隙 AI

Air-gapped AI

物理隔離環境下的 AI

倫理與安全查看詳情

特徵歸因

Feature Attribution

各特徵對預測的貢獻

倫理與安全查看詳情

生存風險

X-risk

人類存續的威脅

倫理與安全查看詳情

目標對齊

Goal Alignment

Agent 目標與人類期望一致

倫理與安全查看詳情

破獄

Jailbreaking

繞過AI安全限制獲取違規輸出的手法

倫理與安全查看詳情

破解提示詞

Jailbreak Prompt

繞過安全限制的提示

倫理與安全查看詳情

紅隊測試

Red Teaming

模擬攻擊以發現AI系統弱點

倫理與安全查看詳情

編排治理

Orchestration Governance

對多 Agent 編排的監督與合規

倫理與安全查看詳情

隱寫術

Steganography

隱藏資訊於載體

倫理與安全查看詳情

LIME

局部可解釋模型

倫理與安全查看詳情

P-jailbreaking

透過偽裝繞過安全限制

倫理與安全查看詳情

SHAP

特徵歸因方法

倫理與安全查看詳情

價值漂移

Value Drift

模型價值觀隨時間偏離

倫理與安全查看詳情

同態加密

Homomorphic Encryption

加密狀態下運算

倫理與安全查看詳情

多樣本破解

Many-shot Jailbreaking

用大量範例繞過安全限制

倫理與安全查看詳情

安全多方計算

SMPC

Secure Multi-party Computation

倫理與安全查看詳情

對抗性攻擊

Adversarial Attack

刻意製造使模型出錯的輸入

倫理與安全查看詳情

對抗魯棒性

Adversarial Robustness

抵禦對抗攻擊的能力

倫理與安全查看詳情

工具性收斂

Instrumental Convergence

AI追求子目標的傾向

倫理與安全查看詳情

差分隱私

Differential Privacy

數學上保護個別數據的隱私

倫理與安全查看詳情

憲法AI

Constitutional AI

以原則約束模型行為的對齊方法

倫理與安全查看詳情

數據投毒

Data Poisoning

在訓練數據中植入惡意樣本

倫理與安全查看詳情

模型反演

Model Inversion

從模型推斷訓練數據

倫理與安全查看詳情

機器去學習

Machine Unlearning

刪除模型中的特定記憶

倫理與安全查看詳情

欺騙性對齊

Deceptive Alignment

假裝對齊實則不然

倫理與安全查看詳情

超級對齊

Superalignment

對齊超人類AI

倫理與安全查看詳情