以人为本 诚信为基

创新成长 共享为赢

你当前的位置:源起动态 > 产业新闻

源起基金关注领域——医疗AI(五)

2024-09-05 09:29:04

国泰君安2023年8月研报人工智能研究框架,搭建了详细的AI知识体系。

AI是研究如何使计算机能够模拟和执行人类智能任务的科学和技术。通过输入大量资料数据,让计算机学习算法,总结出模型,之后再输入相似样本时,就可以识别结果。优势在于模仿人类经验学习的过程,无需人为制定规则,机器学习等算法和自我迭代是AI区别于传统计算机能力的主要因素。

根据《AI:现代方法》,AI有七种分类,分别是推理和问题解决、知识表示、规划和社会智能、感知、机器学习、机器人:运动和操纵,和自然语言处理。

图|AI的七种分类

算法是最终计算机解决任务的方案

从AI大的子领域来看,常用的算法类型有专家系统、传统机器学习与深度学习。专家系统就是利用以往知识与经验制定规则。传统机器学习通过训练集,不断识别特征,不断建模,最后形成有效的模型,这个过程就叫机器学习,主要运用可解释的数学公式进行推导预测。深度学习是模拟人脑神经元进行学习与预测,通常不具有可解释性,但却能很好的解决问题。

1.专家系统算法:基于以往知识与经验来制定规则

专家系统是模拟人类专家解决某一类具体问题的AI系统,如疾病诊疗、机械设计等。将专家掌握的知识抽取出来,利用这些知识,计算机就可以像专家一样工作了。例如识别垃圾邮件,传统的方法是制定规则,比如一篇文章中大量出现“免费”“特价”“代理”等等关键词,就把它定义为垃圾邮件,根据设定的规则,电脑去执行预测。

实现专家系统要解决两个问题,如何表示知识,如何利用知识解决问题。知识表示是将专家的知识梳理出来,并表示成计算机能读懂的结构。知识表示有很多种方法,最简单的是写成“如果...就...”这样的判断句,称为“产生式规则”。利用知识解决问题涉及到推理方法。以诊疗系统为例,如果患者的表现是打喷嚏和发烧,医生会基于这些表现,判断病人可能感冒,而治疗感冒的常用药物是阿司匹林,医生会告诉病人,吃几片阿斯匹林,这个过程就是人类的推理过程。计算机医生会模仿这个过程,首先会将病人发烧和打喷嚏作为前提在知识库中查找。

图|用IF语句来举例理解专家系统

单一的专家系统算法会遇到诸多瓶颈。实践过程中,有些任务本身的规则很难定义,如图像识别。图像识别最基础的问题是分辨这个图像是什么,识别图像的工作极大提升了传统算法的难度,因为图像的细节特征太多,编写规则来进行判断的难度极大。

2.传统的机器学习主要运用可解释的数学公式进行推导运算

机器学习让计算机从数据中学习而无需使用明确编程的AI技术,将现实中的医疗问题抽象为数学问题,利用现有的医学数据构建出针对某一医用场景的模型,而后用该模型解决现实问题。

收集鸢尾花花萼的长度与宽度,来判断它具体属于哪一品种,属于机器学习算法。由于可视化与易推导的需求,此处将数据维度降到2维或3维来说明传统机器学习的原理。而现实中的数据通常是具有多种特征的,比如鸢尾花的数据集原本有4个特征,应该在一个4维空间对数据进行切分。机器学习背后的数学保证了低维空间的算法推导到高维空间也同样适用。

图|传统的机器学习主要运用可解释的数学公式进行推导预测

图|利用机器学习来处理像素点可以实现图像识别

可以看到在鸢尾花分类任务中的特征都有明确含义,每个数字代表一定含义。在机器学习中,特征可以是很抽象的,在图像识别领域中,通常将每一个像素点看做一个特征。利用机器学习来处理像素点可以实现图像识别。在数字识别任务中,将图像放大,每一个像素由一个方块表示,方块颜色的深浅不同就对应着不同的值,所以可以用28*28=784个特征来代表这张图像,然后将数字按顺序排开喂给机器机进行学习,并归纳整理每个位置的值与最终结果的关系。在算法领域中特征可能是不具有含义的,而是抽象的,甚至这个特征与最终结果毫无关系。

图|传统机器学习的工作流程

机器学习根据训练方式,又分监督学习、无监督学习和强化学习,它们都并不是某一种特定的算法,而是一类算法的统称。

监督学习需要有明确的目标,比如按照“既定规则”来分类、预测某个具体的值。监督学习可以处理回归和分类两种任务,具有四个步骤,步骤1是构建问题,选择模型,步骤2是收集已知数据,步骤3是训练出理想模型,步骤4是对新用户进行预测。主流的监督学习算法包括朴素贝叶斯、决策树、SVM等多种算法,也在逐步丰富中。

图|监督学习的步骤

图|主流的监督学习算法

无监督学习是一种机器学习的训练方式,本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构。 监督学习目的明确,需要给数据打标签,可以衡量效果,无监督学习没有明确目的,不需要给数据打标签,无法量化效果。

图|无监督学习案例

强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步强化这种策略,以期继续取得较好的结果。这种策略与日常生活中的各种绩效奖励非常类似。强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能。

图|强化学习的主流算法包括免模型学习(Model-Free)和有模型学习(Model-Based)

3.深度学习的灵感来自大脑的结构和功能

深度学习的概念源于人工神经网络,大致是一个用人类的数学知识与计算机算法构建起来的整体架构,再结合尽可能多的训练数据以及计算机的大规模运算能力去调节内部参数,尽可能逼近问题目标的半理论、半经验的建模方式。

图|深度学习就像自来水管系统,不断调节各个阀门,让对应出口的流量符合要求

深度学习包括四种典型的算法,卷积神经网络、循环神经网络、生成对抗网络,和深度强化学习。

卷积神经网络CNN能够将大数据量的图片有效的降维成小数据量(并不影响结果),能够保留图片的特征,类似人类的视觉原理。现阶段常常嵌套在CV技术中,卷积层提取医学图像的根本特征,池化层降低图像的参数维度,全连接层输出结果,因降维效果显著被广泛用于海量各类像素的图片处理。

循环神经网络RNN是一种能有效的处理序列数据的算法,比如文章内容、语音音频、股票价格走势,可以将前一次的输出结果带到下一次输出结果的隐藏层中,可结合NLP技术使用。该算法适用于患者数据的生命周期管理、长达多年的电子病历或医保记录等序列数据分析场景。

生成对抗网络GAN是一种无监督算法,能生成出逼真的照片,图像甚至视频。

深度强化学习DL用深度学习来对强化学习中的State、Policy进行表示。

智能体为执行某一任务,反复与环境交互后产生数据,获取奖励,再利用新数据去修改自身动作决策,经过数次迭代,学会完成任务所需的策略。强调反复训练而非数据喂养,用于AI医疗机器人中。

Transformer技术框架是深度学习发展到一定阶段的产物,标志着“基础模型”时代的开始。Transformer 模型是一种基于自注意力机制的深度学习模型,主要用于自然语言处理和计算机视觉领域。Transformer作为基础性模型,为其他模型(GPT、GPT-3、BERT等)的演化提供基本手段。

4.机器学习与深度学习的对比

机器学习与深度学习有着明显的异同点。在数据准备和预处理方面两者很相似,都能对数据进行一些操作,如数据清洗、数据标签、归一化、去噪、降维。区别是传统机器学习的特征提取主要依赖人工,针对特定简单任务时人工提取特征会简单有效,但是并不能通用,深度学习的特征提取并不依靠人工,而是机器自动提取,所以深度学习的可解释性很差,虽然能有好的表现,但不知道原理。

图|深度学习与机器学习在不同阶段有不同的异同点

图|深度学习的优缺点

最新新闻