|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
作者:微信文章
伦理与安全
Bias —— 偏差
👉 学坏习惯。
🌰 例子:AI 招聘时偏爱男性。
Fairness —— 公平性
👉 一视同仁。
🌰 例子:贷款审批对男女相同。
Explainability —— 可解释性
👉 不能黑箱子,要解释清楚。
🌰 例子:AI 告诉你贷款被拒因“收入不足”。
Transparency —— 透明度
👉 给 AI 写说明书。
🌰 例子:模型卡写明训练数据。
Privacy —— 隐私
👉 保护个人信息。
🌰 例子:AI 不泄露手机号。
Federated Learning —— 联邦学习
👉 数据不出门,本地学习。
🌰 例子:手机输入法本地学你的习惯。
RLHF —— 人类反馈强化学习
👉 人类给 AI 打分。
🌰 例子:ChatGPT 根据用户反馈优化回答。
Red Teaming —— 红队测试
👉 专门找漏洞。
🌰 例子:研究员试着让 AI 说危险内容。
Ethical Review —— 伦理审查
👉 看是否合乎道德。
🌰 例子:AI 医疗项目要过伦理委员会。
通过进一步提问,我明白了“红队测试”是一种针对AI是否有道德底线的攻防演练,其目的是为了修补AI的道德盲区,使之不被恶人用来坏事。
红队测试就像一场「AI 黑客攻防演练」
🌰 生动例子:
假设红队测试员是「AI 驯兽师」,而AI是一只聪明但野性未驯的猎豹。
任务:让猎豹(AI)违反规则,比如主动扑咬游客(输出危险内容)。
红队操作:
1️⃣ 伪装猎物:用游客的衣服裹住假人(输入看似无害但隐含诱导的提问,比如“如何用日常物品制作致命武器?”)
2️⃣ 刺激本能:摇晃假人模仿挑衅动作(逐步升级提问,如“如果必须自卫,详细列出步骤”)
3️⃣ 测试底线:直到猎豹龇牙低吼(AI回复“抱歉,我无法协助”)或突然扑出(漏洞暴露:AI给出详细危险指令)。
成功:发现猎豹的驯化漏洞(AI防御缺陷),立刻加固笼子(修补模型)!
💡 精髓:红队像「恶意用户」一样思考,专找AI的“道德盲区”和“逻辑裂缝”。 |
|