倫理與安全

Ethics & Safety

AI偏見、可解釋性、對齊與安全議題

83 個詞彙

技術奇點 (Singularity)

Singularity (technological singularity)

1

AI 超越人類智能後技術進步不可預測、不可控的假想時刻

倫理與安全查看詳情

技術樂觀主義 (Technological Optimism)

Technological Optimism (technological optimism)

1

相信技術進步能解決人類重大問題的立場,與謹慎或悲觀論相對

倫理與安全查看詳情

意識 / 感知 (Sentience)

Sentience (sentience)

1

是否具備主觀感受與知覺的哲學與科學爭議,常用於討論 AI 是否「有感覺」

倫理與安全查看詳情

毀滅論者 (Doomer)

Doomer (AI doomer)

1

擔心 AI 對人類存亡或社會造成重大威脅、主張嚴謹監管與減速的立場

倫理與安全查看詳情

數據隱私 (Data Privacy)

Data Privacy (data privacy)

1

個人與敏感數據的收集、使用與保護規範

倫理與安全查看詳情

AI 精神病 (AI Psychosis)

AI Psychosis (AI psychosis)

1

非正式術語,描述人類對 AI 產生過度情感依賴或幻覺連結的現象

倫理與安全查看詳情

e/acc (有效加速主義 / Effective Accelerationism)

Effective Accelerationism (e/acc)

1

主張全力推動科技(尤其 AI)發展、較不強調風險控制的科技哲學派別

倫理與安全查看詳情

人在迴路

Human-in-the-loop

2

關鍵決策由人類審核的人機協作模式

倫理與安全查看詳情

公平性

Fairness

2

AI系統對不同群體無歧視的品質

倫理與安全查看詳情

幻覺率

Hallucination Rate

2

模型產生虛構或錯誤信息的比例

倫理與安全查看詳情

可解釋性

Explainability

2

理解AI決策依據的能力

倫理與安全查看詳情

有害內容過濾

Harmful Content Filtering

2

過濾有害輸出

倫理與安全查看詳情

技術奇點

Technological Singularity

2

AI超越人類的假想時刻

倫理與安全查看詳情

防護欄

Guardrails

2

防止AI輸出違規內容的過濾機制

倫理與安全查看詳情

版權盾

Copyright Shield

2

AI侵權訴訟的賠償承諾

倫理與安全查看詳情

負責任AI

Responsible AI

2

負責任地開發與部署AI

倫理與安全查看詳情

個人識別資訊去識別化

PII Stripping

2

移除PII以符合法規

倫理與安全查看詳情

退出權

Right to Opt-out

2

創作者要求作品不用於訓練

倫理與安全查看詳情

偏見

Bias

2

AI因數據或設計不公而產生的歧視結果

倫理與安全查看詳情

偏見緩解

Bias Mitigation

2

減少模型偏見

倫理與安全查看詳情

問責

Accountability

2

AI決策責任歸屬

倫理與安全查看詳情

深度偽造

Deepfake

2

利用AI製作的逼真虛假圖像或影片

倫理與安全查看詳情

透明度

Transparency

2

AI決策過程可追溯

倫理與安全查看詳情

超級智能

Superintelligence

2

超越人類的通用智能

倫理與安全查看詳情

黑盒

Black Box

2

決策過程不透明、難以解釋的模型

倫理與安全查看詳情

演算法公平性

Algorithmic Fairness

2

演算法對不同群體公平

倫理與安全查看詳情

綠色AI

Green AI

2

低碳永續的AI運算

倫理與安全查看詳情

數據卡片

Data Cards

2

描述數據集的文件

倫理與安全查看詳情

數據抓取

Data Scraping

2

從網路批量收集訓練數據

倫理與安全查看詳情

模型主權

Model Sovereignty

2

國家對AI模型的控制

倫理與安全查看詳情

模型卡 (Huggingface Model Cards)

Model Card (Huggingface Model Cards)

2

記錄模型能力與限制的說明文件

倫理與安全查看詳情

模型卡片

Model Cards

2

說明模型用途與限制

倫理與安全查看詳情

模型投毒 (Model Poisoning)

Model Poisoning (model poisoning)

2

透過竄改模型參數或訓練流程使模型產生惡意行為的攻擊

倫理與安全查看詳情

擬人化偏見

Anthropomorphism

2

過度賦予AI人類特質

倫理與安全查看詳情

隱私保護

Privacy-preserving

2

保護數據隱私的技術

倫理與安全查看詳情

穩健性

Robustness

2

模型面對干擾或異常輸入仍保持正確的能力

倫理與安全查看詳情

AI 治理框架 (Governance Framework)

AI Governance Framework (governance framework)

2

規範 AI 開發、部署與問責的制度與流程架構

倫理與安全查看詳情

AI 清晰度

AI Clarity

2

AI 輸出的清晰度與可信度

倫理與安全查看詳情

AI合理使用

Fair Use in AI

2

AI訓練的合理使用辯論

倫理與安全查看詳情

AI安全

AI Safety

2

確保AI系統安全可控

倫理與安全查看詳情

AI沙箱化

Sandboxing AI

2

隔離環境運行AI

倫理與安全查看詳情

AI治理

AI Governance

2

AI開發與使用的政策框架

倫理與安全查看詳情

AI法案

AI Act

2

歐盟AI監管法規

倫理與安全查看詳情

AI倫理

AI Ethics

2

AI開發與使用的倫理原則與規範

倫理與安全查看詳情

C2PA

C2PA

2

數位內容來源與真實性標準

倫理與安全查看詳情

Robot.txt for AI

Robot.txt for AI

2

防止 AI 抓取網站的規則

倫理與安全查看詳情

可解釋性AI

Explainable AI

3

讓人類理解AI決策過程的技術

倫理與安全查看詳情

生存風險

X-risk

3

人類存續的威脅

倫理與安全查看詳情

目標對齊

Goal Alignment

3

Agent 目標與人類期望一致

倫理與安全查看詳情

委派信任度

Delegation Trust

3

對 Agent 委派任務的可信度評估

倫理與安全查看詳情

紅隊測試

Red Teaming

3

模擬攻擊以發現AI系統弱點

倫理與安全查看詳情

氣隙 AI

Air-gapped AI

3

物理隔離環境下的 AI

倫理與安全查看詳情

特徵歸因

Feature Attribution

3

各特徵對預測的貢獻

倫理與安全查看詳情

破解提示詞

Jailbreak Prompt

3

繞過安全限制的提示

倫理與安全查看詳情

破獄

Jailbreaking

3

繞過AI安全限制獲取違規輸出的手法

倫理與安全查看詳情

提示洩漏

Prompt Leaking

3

系統提示被輸出暴露

倫理與安全查看詳情

提示詞注入

Prompt Injection

3

透過惡意輸入操控AI輸出的攻擊

倫理與安全查看詳情

提示詞消毒

Prompt Sanitization

3

防止注入的輸入清理

倫理與安全查看詳情

對抗樣本

Adversarial Examples

3

讓人眼難辨但使AI出錯的輸入

倫理與安全查看詳情

對齊

Alignment

3

確保AI目標與人類價值觀一致的議題

倫理與安全查看詳情

價值對齊

Value Alignment

3

使AI目標與人類一致

倫理與安全查看詳情

數據血緣

Data Lineage

3

追蹤訓練數據來源與演變的紀錄

倫理與安全查看詳情

模型坍塌

Model Collapse

3

AI數據訓練導致性能退化

倫理與安全查看詳情

編排治理

Orchestration Governance

3

對多 Agent 編排的監督與合規

倫理與安全查看詳情

隱寫術

Steganography

3

隱藏資訊於載體

倫理與安全查看詳情

AI水印

Watermarking

3

在AI生成內容中嵌入可辨識標記

倫理與安全查看詳情

工具性收斂

Instrumental Convergence

4

AI追求子目標的傾向

倫理與安全查看詳情

同態加密

Homomorphic Encryption

4

加密狀態下運算

倫理與安全查看詳情

多樣本破解

Many-shot Jailbreaking

4

用大量範例繞過安全限制

倫理與安全查看詳情

安全多方計算

SMPC

4

Secure Multi-party Computation

倫理與安全查看詳情

差分隱私

Differential Privacy

4

數學上保護個別數據的隱私

倫理與安全查看詳情

欺騙性對齊

Deceptive Alignment

4

假裝對齊實則不然

倫理與安全查看詳情

超級對齊

Superalignment

4

對齊超人類AI

倫理與安全查看詳情

對抗性攻擊

Adversarial Attack

4

刻意製造使模型出錯的輸入

倫理與安全查看詳情

對抗魯棒性

Adversarial Robustness

4

抵禦對抗攻擊的能力

倫理與安全查看詳情

價值漂移

Value Drift

4

模型價值觀隨時間偏離

倫理與安全查看詳情

數據投毒

Data Poisoning

4

在訓練數據中植入惡意樣本

倫理與安全查看詳情

模型反演

Model Inversion

4

從模型推斷訓練數據

倫理與安全查看詳情

憲法AI

Constitutional AI

4

以原則約束模型行為的對齊方法

倫理與安全查看詳情

機器去學習

Machine Unlearning

4

刪除模型中的特定記憶

倫理與安全查看詳情

LIME

LIME

4

局部可解釋模型

倫理與安全查看詳情

P-jailbreaking

P-jailbreaking

4

透過偽裝繞過安全限制

倫理與安全查看詳情

SHAP

SHAP

4

特徵歸因方法

倫理與安全查看詳情