专栏名称: AI前线
微信号:AI前线,ID:ai-front 运营
目录
相关文章推荐
硅基流动  ·  硅基流动完成新一轮数亿元融资 ·  昨天  
硅基流动  ·  硅基流动完成新一轮数亿元融资 ·  昨天  
宝玉xp  ·  转发微博-20250609005426 ·  昨天  
zartbot  ·  从AI落地的视角看看Infra的需求 ·  2 天前  
zartbot  ·  从AI落地的视角看看Infra的需求 ·  2 天前  
架构师带你玩转AI  ·  好书推荐 -《深度学习:基础与概念》 ·  3 天前  
51好读  ›  专栏  ›  AI前线

2017年深度学习领域实现了哪些可喜的成果?

AI前线  · 掘金  · AI  · 2017-12-29 01:53

正文

请到「今天看啥」查看全文


因为这些音频经过太多“修饰”,所以文章的作者制造了一些拐点(或技巧),以改善文本和时间节点。

结果很惊人。在不久的将来,恐怕我们在观看一段视频的时候,还得认真考证一番考虑视频的真实性了。


计算机视觉

OCR:Google 地图和街景

Google 大脑团队在他们的文章中,详细介绍了了他们如何在地图中引入可以识别路牌和商店标志 OCR(光学字符识别)的引擎。

在技术开发过程中,该公司编制了一套新的 FSNS(法国街道名称标志),其中包含许多复杂的案例。

这个网络识别一个标志最多需要四张照片。通过 CNN 提取特征,在空间注意力的帮助下进行缩放(将像素坐标考虑在内),并将结果反馈到 LSTM。

图 1:每张图像经过特征提取器处理,随后把结果连成一个特征图,由“f”表示,使用空间加权组合创建一个大小固定,反馈到 RNN 的矢量 ut。

同样的方法还适用于识别商店招牌名称的任务(可能有大量的“噪音”数据,而网络本身必须聚焦到正确的位置),样本可以达 800 亿张照片。


视觉推理

深度学习还可以完成一种被称为视觉推理的任务,要求神经网络通过根据照片回答问题。例如:“在图片中是否有与黄色金属圆柱体相同尺寸的橡胶材质?”而这个重要的问题直到最近才得以解决,准确度达 68.5%。

这次突破同样是 Deepmind 团队的功劳:在 CLEVR 数据集中,他们达到了 95.5%的精确度,这一成果甚至超过人类。

而且,这个网络架构非常有趣:

  1. 在文本问题上使用预先训练好的 LSTM,得到问题嵌入。
  2. 使用 CNN(只有四层)与图片,得到功能图(表征图片的特征)。
  3. 接下来,在特征图(黄色、蓝色,图下方的红色)形成成对的坐标组合,并添加坐标和文本嵌入。
  4. 通过另一个网络进行 triple 和求和。
  5. 最终的演示文稿由另一个前馈网络生成,它负责给出柔性最大值传输函数(softmax)答案。


Pix2 代码

此外,Uizard 公司还创建了一个有趣的神经网络应用:把界面设计者的屏幕截图,并生成一个布局代码。

图 2:使用 DSL 编程的本地 iOS GUI 示例

这是一个非常实用的神经网络应用程序,它可以使开发软件的过程更轻松。作者称,这个网络的准确度可以达到 77%。但是,这个项目目前还在研究阶段,目前还没有开始实际应用。


SketchRNN:训练一台机器画画

也许你听说过 Google 开发的 Quick,Draw!,其目标是在 20 秒内绘制各种目标的草图。如谷歌在博客和文章中所述,他们收集了一个数据集来训练神经网络。

这个数据集包含 7 万张草图,现已开源。草图不是图片,而是绘图的详细向量描述(在某一点用户按下“铅笔”,松开开始绘制等)。

研究人员已经使用 RNN 作为编码 / 解码机制,来训练序列到序列的变分自编码器(VAE)。

图 2:RNN 框架原理图

最终,为了适配自动编码器,该模型接收到表征原始图像的本征向量。

由于解码器可以从这个矢量中提取一幅图画,你可以通过改变向量得到新的草图。

甚至通过执行矢量算法来创建一个“猫猪”:


GANs

生成性对抗网络(GAN,Generative Adversarial Networks )是深度学习中最热门的话题之一。GANs 多用来处理图像,所以我用图像来解释这个概念。

  • 生成性对抗网络(GAN):引擎和应用
  • 生成性对抗网如何被用来改善我们的生活
  • blog.statsbot.co

GAN 的基本原理是两个网络——生成器和鉴别器之间相互竞争。生成器网络生成图片,而鉴别器网络判断图片是真实的,还是生成的。







请到「今天看啥」查看全文