深度学习算法有几大类

深度学习算法主要有三大类:1. 卷积神经网络(简称CNN);2. 递归神经网络(简称RNN);3. 生成对抗网络(简称GAN)。下面我们来详细介绍这三大类算法。

以下回答由智能化研发管理工具 PingCode 整理:

一、CNN

CNN主要应用可分为图像分类(image classification)、目标检测(object detection)及语义分割(semantic segmentation)。

1、图像分类 (Classification)

顾名思义就是将图像进行类别筛选,通过深度学习方法识别图片属于哪种分类类别。其主要重点在于一张图像只包含一种分类类别,不过由于单一目标识别对深度学习算法来说是正确率最高的,所以实际上很多应用会先通过目标检测方法找到该目标,再缩小撷取影像范围进行图像分类。所以只要是目标检测可应用的范围,通常也会使用图像分类方法。

2、目标检测 (Object Detection)

一张图像内可有一或多个目标物,目标物也可以是属于不同类别。算法主要能达到两种目的:找到目标坐标及识别目标类别。

目标检测应用非常普遍,包含文章开头提到的人脸识别相关技术结合应用,或是制造业方面的瑕疵检测,甚至医院用于X光、超音波进行特定身体部位的病况检测等。

3、语义分割 (Semantic Segmentation)

算法会针对一张图像中的每个像素进行识别,即语义分割可以正确区别各目标的边界像素,简单来说,语义分割就是像素级别的图像分类,针对每个像素进行分类。当然这类应用的模型就会需要较强大的GPU和花较多时间进行训练。

常见应用类似目标检测,但会使用在对于图像识别有较高精细度,如需要描绘出目标边界的应用。例如制造业上的瑕疵检测,针对不规则形状的大小瑕疵,都可以正确描绘。

二、RNN

NN的特色在于可处理图像或数值数据,并且由于网络本身具有记忆能力,可学习具有前后相关的数据类型。

这类网络的输入数据不限于是图像或文字,解决的问题也不限于翻译或文字理解。数值相关数据也同样可以使用LSTM进行分析,例如工厂机器预测性维修应用,可透过LSTM分析机台震动讯号,预测机器是否故障。

在医学方面,LSTM可协助解读数以千计的文献,并找出特定癌症的相关信息,例如肿瘤部位、肿瘤大小、期数,甚至治疗方针或存活率等等,透过文字理解进行解析。也可结合图像识别提供病灶关键词,以协助医生撰写病理报告。

三、GAN

除了深度学习外,有一种新兴的网络称为强化学习(Reinforcement Learning),其中一种很具有特色的网络为生成式对抗网络(GAN)。

深度学习领域最需要的是数据,但往往不是所有应用都可以收集到大量数据,并且数据也需要人工进行标注,这是非常消耗时间及人力成本。图像数据可以通过旋转、裁切或改变明暗等方式增加数据量,但如果数据还是不够呢?目前有相当多领域透过GAN方法生成非常近似原始数据的数据,例如3D-GAN就是可以生成高质量3D对象。


最后,推荐我们的管理工具给大家。

PingCode官网

PingCode:一个简单易用的新一代研发管理平台,让研发管理
自动化、数据化、智能化,帮助企业提升研发效能

Worktile官网

Worktile:一个工具满足团队所需:任务、项目、文档、IM、目标、 日历、
甘特图、工时、审批以及更多,让工作更简单