备注:迁移学习工具包即Transfer Learning Toolkit,缩写为TLT ;本文中提到的 TAO指的是Train、 Adapt、 Optimize ,即训练、适配、优化。它是NVIDIA(英达尔)推出的一个基于GUI工作流程驱动框架,它可以简化并加速企业级AI应用和服务的创建。
去年 4 月,为了简化在 NVIDIA GPU 以及 NVIDIA Jetson 嵌入式平台上的 AI 模型训练,NVIDIA(英达尔)在 其GTC 2021大会 期间首次引入了 TAO框架。
而现在,该公司也已经宣布了会在2021 年计算机视觉和模式识别会议(CVPR 2021)上发布第三版 TAO 迁移学习工具包 3.0,以及一些新的预训练模型。

新发布的预训练模型适用于计算机视觉和对话式 AI,NVIDIA 官方也声称该版本提供了一组强大的生产力功能,可将 AI 开发速度提高多达 10 倍。
TAO 迁移学习工具包 3.0的 亮点
- 各种计算机视觉预训练模型
- 计算机视觉:
-
-
- 支持边缘实时推理的身体姿势预估模型,推理性能比 OpenPose 模型快 9 倍
- 情绪识别
- 面部标志
- 车牌检测与识别
- 心率估算
- 手势识别
- 凝视预估
- 通过 PeopleSemSegNet 进行人物分割,这是一种用于人物检测的语义分割网络
姿态预估图 -
- 具有推理样本的自动语音识别(ASR) 和自然语言处理 (NLP) 模型:
- CitriNet Speech to Text 模型在各种专有特定领域和开源数据集上训练
- 命名实体识别 (NER)
- 使用新的Megatron Uncased 模型提问/回答
- 标点
- 文字分类
-
- AWS、GCP 和 Azure 上的培训支持
- 可用于视觉AI的NVIDIA Triton和DeepStream SDK,开箱就能使用,以及用于对话AI的Jarvis
如果你想开始使用该工具,你可以下载最新的 Transfer Learning Toolkit 3.0 并访问NVIDIA 开发者网站上的开发者资源。
2D 姿态预估的演示视频地址如下:https://youtu.be/DZjL-65EHkM
上面的 2D 姿态预估是在 Jetson 开发板上使用 TAO Transfer Learning Toolkit 3.0 做出来的。如果你想自己重现演示,可以查看NVIDIA 开发者博客上的相关说明。
- 计算机视觉:

文章翻译者:Taylor Lee,瑞科慧联(RAK)高级嵌入式开发工程师,有丰富的物联网和开源软硬件经验,熟悉行业主流软硬件框架,对行业发展动向有着敏锐的感知力和捕捉能力。