吴恩达《AI for everyone》

B站提供 吴恩达《AI for everyone》双语字幕版 ,对于 非技术人员 了解AI技术的本质很有帮助:

  • 采用生动形象的语言描述,没有涉及深奥的数学或计算机技术

  • 作为业内顶尖专家,没有夸大AI的能力,而是提供AI适合解决的问题以及局限性

  • 打破专业术语以及AI届 过度包装 的概念(好像每个行业都有神话自己的 黑话 ),理清一个简单易于理解的思路

  • 激发观众对AI的兴趣,为进一步学习做好准备

数据

  • 有大量的数据确实比少量数据好,但是拥有大量数据不代表能从数据中找出价值

  • 应该从采集数据开始,AI专家和IT专家就需要交流和协作,以便能够更好理解数据和正确采集(思考什么数据才是真正有价值的)

  • 数据是混乱的(messy)(需要数据清洗), garbage in, garbage out : 使用坏数据,AI就会学到不准确的东西

  • 非结构化数据:

    • 图像

    • 音频

    • 文本

当前生成式AI主要处理非结构化数据

  • 结构化数据:

    • 电子表格

    • 关系型数据库

机器学习

机器学习是让计算机能够在不被明确编程的情况下学习的研究领域.

Machine learning: Field of study that gives computers the ability to learn without being explicitly programmed. - Arthur Samuel(1959)

数据科学是从数据中提取知识和洞察的科学. (通常输出的是提供给高管采取业务行动的PPT图表/产品团队决定改进的方向)

Data science: Science of extracting knowledge and insights from data.

人工神经网络(artificial neural networks)和生物大脑(biological brain)的神经网络 并没有关系 ,仅仅因为人工神经网络在创建时受到了人脑神经网络的启发而已。

人工神经网络,也称为 深度学习 Deep learning 通过多层算子构成的网状流程,将输入的A经过Deep learning网格,输出为B

AI公司的定义

吴恩达提出了一个AI公司的定义(类似于互联网公司的定义):

  • 思考如何获取数据是伟大AI公司的关键组成部分(Strategic data acquisition)

  • 通常会使用统一的数据数据仓库(Unified data warehouse) : 需要遵循隐私保障等数据法规

  • 新的机器学习工程师角色

备注

我理解吴恩达描绘了一个非常理想化的AI公司,数据是无界流动的统一仓库,这样AI才能从全部的数据中提炼出有用的价值。如果数据是割裂的,那么训练的AI可能是扭曲的(我们无法知道和界定哪些数据是某个目标所需的,所以隔断的数据会训练出偏执的AI)

AI转型的建议:

  • 执行试点项目(pilot projects)以获得推进力(momentum): 也就是通过几个小项目来了解AI能做什么和不能做什么

  • 建立内部AI团队

  • 提供广泛的AI培训: 不仅针对工程师,也要针对管理者(经理、部门主管和高管),培训他们如何思考AI

  • 制定AI战略

  • 协调内部和外部的沟通: 所有的利益相关者,从员工、客户到投资者都能与你的公司 如何应对对AI崛起 保持一致

AI Trasformation:

  • Execute pilot projects to gain momentum

  • Build an in-house AI team

  • Provide broad AI training

  • Develop an AI strategy

  • Develop internal and external communications

机器学习能做什么和不能做什么

当前媒体和学术文献往往只报道使用AI的积极结果或成功案例,导致公众、决策者、投资人只看到成功的故事而没有失败的案例,以至于对当前AI技术产生了不切实际的期望: 目前AI无法预测股价: 股票的历史价格对未来价格没有预测性(我感觉是无法穷尽整个世界所有的历史数据和当前数据,目前这是 Mission: Impossible )

机器学习可能适合的领域:

  • 一个"简单"概念: 如果一件事你能够在一秒内或者很少的几秒钟思考就能得出结论,那可能就是"简单"概念。例如自动驾驶

  • 具有大量的数据: 大量的标记数据输入机器学习系统就可能训练出具备某种特定能力的AI

AI目前能够做到:

  • 自动驾驶: 现有技术能够大量采集图像或雷达数据使得机器学习能够判断周边的汽车位置或物体位置,并且能够通过学习人类驾驶的记录来训练出自动驾驶系统

AI现在难以做到:

  • 根据人类手势判断出人类意图: 原因是难以搜集足够的成千上万人的手势图像和视频(想象一下一个人能够作出的各种千奇百怪的动作,即使人类自己也不一定能够理解别人做出的手势,人需要辅助以其他信息才能理解,而难以用一种简单模式训练AI)

  • 人类能够查看一小组图片(几十张量级)辅助以几段文字就可以理解某项技术(如医学手册),但是AI无法从少量数据集训练出来(需要以万计的输入数据)

机器学习的优势:

  • 机器学习在学习一个简单概念时效果很好(通常是人类在不到一秒的思考时间内完成的事情)

  • 在有大量数据可用的情况下机器学习往往能够很好训练出一个能力

机器学习的劣势:

  • 机器学习无法在少量数据中学习复杂概念

  • 机器学习无法在一种新型数据(以前训练数据集中没有见过的不同数据)上实现推理

这里吴恩达举了一个帮助你理解"新型数据"的医学图像案例: 如果训练时使用的都是标准高质量的肺炎X透视片,那么在推理时遇到拍摄不规范的胸透片,甚至有些胸透片因为某些配饰带来的划痕,都会误导AI系统无法正确识别推理。人类能够理解不规范的胸透片,但是AI很难泛化或弄清如何处理这样的新类型数据。

深度学习(神经网络)的神话(破除)

机器学习: 输入大量的参数以及获得的结果,虽然不知道神经元的内部工作机制,但是能够得到训练出的机器学习系统

每个神经元只是一个简单的函数,但是通过大量的输入A以及最终的输出B,将大量的神经元连接起来构建的深度学习系统,能够构建神奇的机器学习系统。

图像识别: 对于神经网络,是每个像素级别RBG亮度,对应图片所有的像素点,大量的数据输入深度学习系统,通过大量的图片训练,就能获得识别图像的深度学习系统。

机器学习的工作流

  • 案例: 语音识别系统

    • 收集数据: 搜集大量的你希望识别的语音片段数据

    • 训练模型: 输入音频片段A,建立到输出B的模型(需要尝试很多次,也就是AI中称之为 "迭代" iterate many times)

    • 部署模型: 需要根据实际情况反馈对模型进行维护和升级

  • 案例: 自动驾驶

    • 收集数据: 以图像为输入(需要一个机器学习算法),识别出其他汽车的位置(拉框)

    • 训练模型: 迭代多次直到软件能够较好地根据图片识别出汽车的位置

    • 部署模型: 获取反馈数据,维护和升级模型

  • 案例: 生产线产品划痕(缺陷)检测

  • 案例: 人员招聘简历删选

    • 如何确保AI软件不会出现不良形式的偏见以及确保公平(我记得真实发生过这样的新闻事件,(amazon?)由于训练偏差导致歧视性简历筛选和错误自动解雇)

      • 这一点似乎非常难以做到,人类对于AI系统会更高的要求公平和透明,但是机器学习的训练过程充满了不确定性和黑盒,如何证明训练的数据是公平的?

      • 机器学习的训练过程如何自证? 如何实现 AI alignment(人工智能对齐) 是一个巨大的技术挑战

  • 案例:

    • 购物网站根据用户购买行为进行推荐

    • 视频网站根据用户点击视频或广告、观看某类视频时长、甚至眼光扫描位置(如果能够反向监测用户)来进行自动的视频流编排(典型的就是字节跳动的tiktok和抖音)

数据科学的工作流

数据科学的输出是 "洞察" (insight)

  • 案例: 咖啡销售流程(优化)

    • 收集数据: 网站采集销售记录数据

    • 分析数据: 数据科学团队会迭代多次从数据中洞察规律

    • 提出对应的假设 和 行动 : 调整销售策略,并不断根据反馈迭代调整销售策略

  • 案例: 人员招聘流程(优化)

  • 案例: 网站A/B测试

    • 同时开发两个不同的网站,观察并记录用户的偏好来确定优化方案

AI项目选择的方法

  • 公司商业价值和AI能够做到的范围的交集,也就是AI项目的方向

    • 需要AI专家和业务专家共同协作找寻AI项目

    • 商业价值的主要驱动因素是什么?

    • 业务的主要痛点是什么?

  • 案例:

    • 呼叫中心和电子邮件的自动处理

    • 放射科医生的读取X照片的工作

  • 数据量:

    • 数据多通常是好的,但是项目刚开始可能搜集到的数据不多,也不用灰心,先开始项目逐步调整

  • 调研项目的要点:

    • 尽职调查: 了解AI项目中的真实性(现在AI的泡沫很多,项目可能展示给你看的是经过处理的希望你看到的样子,所以你需要深入调查项目中人和事的真实性)

      • 技术尽职调查

        • 构建的AI系统是真实可行的、真的可实现的

        • AI系统是否真的达到预期的性能水平(例如语音识别率,产品缺陷检出率,在当前技术水平上能达到预期水平么?)

        • 需要多少数据才能达到这个期望的性能水平?

        • 有办法获得所需的数据么?

        • 需要多久和多少人力才能建立起AI系统?

      • 商业尽职调查

        • 当前商业模式和未来的新商业模式

        • 节约的资金和未来收益的估算

      • 伦理尽职调查

        • AI可能会挣很多钱,但是可能并不会让人的生活变得更好: 所以需要进行伦理调查,以确保无论做什么都真的在让人类和社会变得更好

  • 自建还是购买

    • 永恒的商业问题,在AI领域也是如此

    • 机器学习项目有内建也有外包

    • 数据科学项目通常是内建系统

    • 有些系统是工业标准(或者即将成为工业标准),则应该避免自建而采用购买会效率更高(标准服务器和网络设备)

      • 当有一个正在构建的行业标准解决方案的巨大力量,你可能最好只是拥抱行业标准,而不是试图在内部完成所有事情

      • 我们都生活在一个资源有限、时间有限、数据有限、工程资源有限的世界中

如何和AI团队一起协作

  • 为项目制定验收标准

    • 测试数据集

    • 指定准确率(统计方式)

  • 避免不切实际的100%准确率: 机器学习的限制使得100%准确是无法做到的目标,需要和AI专家一起确定合适的准曲率要求

  • 需要足够的训练数据提供AI软件学习

  • 数据混乱和标注错误会损害AI的性能

AI项目研究

智能音箱

  • 使用机器学习算法来训练音频片段作为触发命令

  • 语音识别

  • 意图识别(究竟需要做什么,一个设计良好的意图识别组件能够根据不同的输入准确识别意图)

  • 执行对应意图的动作

自动驾驶汽车

  • 传感器输入

  • 检测其他汽车和行人(通过机器学习--监督学习)

  • 运动规划(motion planning)软件实现运动或路径的规划

  • 转换成方向、加速和制动指令,实现汽车能够以期望的角度和速度行驶

  • 其他辅助设备:

    • GPS定位

    • 加速度计

    • 陀螺仪

    • 地图

  • 轨迹预测(预测行人和车辆的运动) - AI

  • 交通信号灯、障碍物(交通锥、人和动物)

AI公司的角色

  • 软件工程师: 传统软件的开发者(占比50%或更多)

  • 机器学习工程师: 编写机器学习算法和训练算法,迭代工作以确保学习算法给出准确的输出

  • 机器学习研究员: 负责最新机器学习发展

  • 机器学习科学家: 介于机器学习工程师和研究院之间的角色

  • 数据科学家: 检测数据并提供洞察,为团队执行提供指引

  • 数据工程师: 数据组织和存储,确保易于访问、安全有效使用数据

  • AI产品经理: 决定要构建什么(什么是可行的和有价值的)

小型团队的起步:

  • 也许只有你自己一个人

  • 从少量数据开始得出一些结论

  • 开始训练一些机器学习模型来开始行动

AI转型战略指南

  • 执行试点项目以获得动力

    • 最重要的是让初始项目成功而不是必须是最有价值的

    • 在选择初始项目时,尝试选择你认为有很大成功机会的东西,能够开始飞轮转动(flywheel turning)

    • 选择在6-12个月内显示进展的东西

  • 建立内部AI团队

    • 集中式的AI团队,对多个BU进行支持的矩阵模式

    • 集中AI人才对不同BU进行支持能够使得AI团队互相交流如何应用于公司的业务垂直领域

    • 集中AI单元的一个职责是建立全公司范围的平台

    • 在AI团队还没有创造价值之前,CEO线为其提供资金起步,以便后续能够真正创造价值

  • 提供广泛的AI培训

    • 公司各个层级的人都需要理解AI如何与他们的角色互动

      • 高层商业领导者(制定AI战略和资源分配)

      • AI项目的领导者(指导项目的技术和商业,资源分配和进度管理)

      • AI工程师(构建和发布AI软件,搜集数据以及执行特定AI项目)

  • 制定AI战略

    • 现代AI技术能够帮助稍微好一点的公司在获得更多用户时分析更多数据,进而得到更好的铲平,然后得到更多的用户,实现正向的循环迭代(新进入者很难打破这种自我强化的正反馈循环,这也是google始终统治搜索市场的原因之一)

    • 但是AI技术也让小公司能够进入没有根深蒂固现有巨头垄断的新垂直领域

      • 吴恩达举了一个 "Blue River" 公司的例子: 开发农业机械通过图像识别除草,实际使用后通过不断搜集更多数据来改进产品,更好的产品带来更多用户,跟多的用户搜集到更多数据,这样的一个正向循环迭代完美体现了 Virtuous Cycle of AI

      • 小型公司无法在整体AI上抗衡大公司,但是在垂直领域,专门为特定行业定制的AI是有胜出的机会的

    • 创建 数据战略

      • 战略数据收购

      • 统一的数据仓库(很多领先的AI公司都投入了大量的前期努力将数据整合到单一数据仓库中): 增加了工程师或软件能够连点成线的机率

    • 创建网络效应和平台优势

      • 在赢家通吃的动态行业中,AI可以是一个加速器

  • 制定有关你的公司和AI的内部和外部沟通

    • 与相关利益者进行沟通

      • 投资者: 能够恰当地评估公司的价值

      • 政府: 进入高度监管的行业(例如医疗行业、自动驾驶、金融)

      • 消费者/用户教育

      • 人才(招聘)

      • 内部沟通

AI实施中的常见陷阱

  • 避免:

    • 不要期望AI能够解决所有问题

    • 不要只雇佣2-3位机器学习工程师然后完全依赖他们为你的公司想出用例

    • 不要期望AI项目第一次就能成功

    • 不要期望传统的规划流程能够不经修改就适用AI

    • 不要认为你需要超级明星AI工程师才能做任何事

  • 应该:

    • 对AI能够做什么和不能做什么 保持现实的态度 : 考虑 技术、数据和工程资源的限制 ( 技术尽职调查 )

    • 机器学习工程师确实是稀缺资源,但是应该将工程人才与商业人才配对,跨职能协作来寻找可行且有价值的项目

    • AI开发通常是一个迭代过程,需要多次尝试才有可能成功

    • 应该和AI团队合作建立有意义的时间线估算、里程碑、关键绩效指标等(这些和非AI相关木都有些不同,所以商业团队和AI团队需要合作)

    • 应该持续组建团队,用你现有的团队开始行动(当今世界有很多AI工程师包括通过在线课程学习的工程师,都能出色地构建有价值且可行的项目)

备注

重要的是开始行动,你的第二个AI项目会比第一个更好,你的第三个AI项目会比第二个更好。所以重要的是开始行动,尝试你的第一个AI项目。

迈出人工智能实践的第一步

  • 一些初始步骤建议:

    • 让你公司的朋友或工作之外的个人朋友与你一起学习AI

      • 一起学习在线课程

      • 组织读书小组阅读有关AI的书籍或其他材料

    • 组织头脑风暴项目

      • 没有项目是太小的(No project is too small): 从小处开始并成功比开始得太大而不成功要好

    • 雇佣一些机器学习或数据科学人员来帮助

    • 当公司规模增大

      • 除了提供内部培训来培养内部人才

      • 可以尝试雇佣或任命一位AI领导者

    • 向管理层提问: 如果公司在AI上成功能否为公司提供更多价值 和/或 更高效率? 如果回答是,那么表明公司有AI转型的需要(管理层要真正理解AI能够做什么不能做什么)

主要人工智能领域

  • 计算机视觉

    • 图像分类和目标识别(猫、植物、食物)

      • 人脸识别: 手机解锁等基于人的身份的控制

    • 物体检测

      • 自动驾驶技术

    • 图像分割

      • 识别出图形的每个像素(物体的非常精确的边界): 在X光扫描人体图像,能够仔细分割出肝脏或心脏的位置

    • 视频跟踪: 跟踪视频中物体的移动能够帮助计算机弄清物体的动向,例如持续跟踪并识别出动物

  • 自然语言处理(Natural Language Processing, NLP)

    • 文本分类: 例如Email识别垃圾邮件; 电子商务网站根据产品说明自动分类产品

      • 情感分裂: 美食评价网站会根据用户对食品评论自动为食品打星

    • 信息检索

      • WEB搜索

    • 命名实体识别

      • 从自然语言中提取出名字、公司名、电话号码、国家地名等,可以从大量文档中提取

    • 机器翻译

    • 语音识别

      • 语音转文本

      • 触发词识别

      • 根据某人说话识别出说话人的身份

      • 文本转语音

  • 生成式AI: 生成文本、图像和语音的高质量内容的人工智能系统

    • 文本生成: 写内容、摘要、文稿编辑

      • 有效的提示词(prompt)可以形成有趣的头脑风暴(实际上是在海量的人类积累的知识进行搜索和组合)

    • 图像生成

      • 根据提示词生成高质量图像

    • 音频生成

      • 根据提示词生成语音和音乐

  • 机器人技术

    • 周围的世界

    • 动作规划

    • 控制

  • 通用机器学习

    • 非结构化数据(图像、音频、文本)

    • 结构化数据

核心人工智能技术

  • 监督学习

    • 监督学习需要海量的标记数据,这使得成本极高甚至难以实现(而人类只需要少量数据),所以现在非常期望无监督学习能够突破能够像人或其他生物那样只需要少量数据就能习得能力

  • 无监督学习(Unsupervised learning): 在给定没有任何特定期望输出标签的数据时,没有目标标签B,可以自动找到数据中有趣的东西(也就是没有指定目标而自动找出数据规律)

    • 聚类(Clustering): 将数据分组为两个或更多的族(例如消费者购买更多小包装便宜薯片还是更贵的大包装薯片)

    • 通过大量视频自动归纳出某个特定的物体图像,例如猫

  • 迁移学习(Transfer learning)

    • 例如汽车检测: 训练中的汽车图像监督学习能够在后续迭代中用少量不同的汽车图像来改进,而这个仅通过少量迭代图片就能完成原先大量训练获得能力的迁移

    • 现代很多计算机视觉系统是使用迁移学习构建的

  • 强化学习(Reinforcement learning): 通过奖励信号来告诉AI什么时候表现好或表现差,设定目标是获得最高积分,则AI能够自动做到最好

    • 通过让AI随心所欲执行(例如驾驶直升机模拟器),在符合要求时给予正向反馈,而错误飞行则给予负面反馈。这种奖励机制有点类似人类训练狗狗

    • AlphaGo就是通过强化学习在围棋上表现出色

    • 强化学习在玩电子游戏方面非常有效

    • 强化学习的缺点是需要大量的数据

  • GANs(Generative Adversarial Network)生成式对抗网络

    • 擅长从头生成新的图像

  • 知识图谱(Knowledge Graph)

备注

目前AI主要有效且产生较大经济价值的是监督学习

AI现实

  • 不应该对AI技术过于乐观

    • AI不能解决所有问题

    • AI也不会为人类带来某种全球乌托邦

  • 不应该对AI技术过于悲观

    • AI有风险,可能会输出有偏见、不公平或不准确的输出,但并不是会脱离人类控制并消灭人类

    • AGI分散了当前对AI技术真正需要解决问题的关注

    • AI可能会扩大社会的不公平,需要人类从更好的角度进行治理,就像我们应对强大的公司和国家

AI的局限性

  • 性能限制

  • 可解释性很难(很多高性能的AI系统是黑盒子),缺乏可解释性是AI难以被接受的原因之一

  • 歧视性的数据会训练出歧视性的AI

  • AI容易受到对抗性攻击

AI偏见

  • 目前发现AI会存在刻板印象(类似对男女的刻板印象是受到输入数据中影响,概率统计)

    • 雇佣

    • 技能评估

对抗性攻击

  • 对图像的轻微扰动能够让AI误判(计算机是通过像素来学习图像,和人类学习图片不同)

  • 物理攻击: 通过带上特定条纹的眼镜就能让AI误判身份,以及在交通标志上加上特殊的团贴纸(有论文)就能让AI看不到交通标志(误判图形)

  • 金融欺诈对抗(类似支付宝风控)

人工智能恶意应用

  • 深度伪造(DeepFakes): 合成虚假的视频

    • 目前AI技术能够检测DeepFakes的视频,但是虚假信息的传播往往比真相追上的速度更快

  • 破坏民主和隐私

    • 对公民的压迫性监控

    • 虚假评论的兴起(AI能够快速生成公共事务的虚假评论),需要有清理的AI技术

AI和经济

  • AI强化了自动化技术,需要有方法和途径来帮助人们和AI共同协作,能够从低端工作转向中高端工作

  • 发展中国家应该借助AI在垂直领域跨越式发展(没有发达国家已经建成系统的负担)

AI和工作

AI消灭了很多岗位,但也同时创建了很多岗位。但目前还没有具体数据

  • 全名基本收入

  • 投入终身学习

参考