一文带你看遍深度学习发展的成就历程(一)

2019-06-26

关键词:一文,深度,历程,成就

 通过联盟链(一种防篡改帐本)注册土地所有权,然后使用超导链的公有链,验证这些交易,并以公开的加密散列的形式在超导链上存在,以验证证书的真实性,超导链上的所有记录都是不可篡改和支持全球核查的,这可以防止欺诈,保障土地主人的财产安全,降低土地交易的风险,增加交易透明度等等,从而解决土地资产确权问题。除了经济利益,区块链对这个国家更加深刻的影响,体现在居民生活中,那就是,土地的确权,土地确权,也曾被视作区块链改变世界的开始,而在这充满空气币的时代,超导链SCT土地资产确权,在未来这一突破性的项目将继续推进真正落地。将数字化系统带给老百姓——从此你爸绝对是你爸绝不含糊!今年的旗舰手机市场,战火似乎比以往来得更快更猛。不仅几个主要的线上品牌将价格都聚焦在三千元左右,而且配置拼起来也更凶了,另外还有新品牌的强势登场带来了压力,它就是iQOO。iQOO的到来,宣告着它和这个价位上传统的“老手”小米形成了激烈的对立之势。小米9和iQOO都搭载骁龙855加12GB超大运存等顶尖配置,似乎两者之间的区别不大。这次我们从续航方面入手测试,看看究竟有何“猫腻”。左:小米9;右:iQOO在百分之百的满电状态下,我们对两者进行了长达五个小时的续航测试,依次为观看720P视频、刷微博、刷抖音、玩王者荣耀、和平精英各1个小时。先是进行前面三项,这也是很多用户平时用来打发无聊时光或者寻找乐趣的几项日常活动,在观看720P视频、刷微博、刷抖音分别1小时后,小米9耗电为9%+12%+13%,iQOO耗电为6%+8%+11%。

在这篇文章中,作者将描述17年在机器学习领域中发生了什么有趣的重大发展,主要是深度学习领域。在17年中发生了很多事情,在作者停下来进行回顾的时候,他发现了这些发展的成就是非常壮观的,下面让我们来在作者的带领下认识一下17年在深度学习中发展的领域的状况,这篇文章很可能会影响我们在数据科学领域未来的发展。

1.文字

1.1 谷歌神经机器翻译

2016年左右,谷歌宣布推出谷歌翻译新模式。谷歌公司详细描述翻译的网络架构 - 回归神经网络(RNN)。

谈到华为和爱国:“那我的小孩用苹果,就是不爱华为了?不能这么说。”、“我讲的是事实,不能说用华为产品就爱国,不用就是不爱国。”、“苹果公司是我们的老师。”谈到美国和美国企业:“我们还是要非常感谢美国公司的,三十年来美国公司伴随着我们公司成长,做了很多贡献,教明白了我们怎么走路。美国大量的零部件、器件厂家这么多年来给了我们很大支持。特别是在最近的危机时刻,体现了美国企业的正义与良心。”“媒体也不要老骂美国企业,大家多为美国企业说话,要骂就骂美国政客。”“美国企业和我们是共命运的,我们都是市场经济的主体。”“我从年轻时就比较亲美,至今我还是认为美国是很伟大的国家。”

而最后的主要结果是:缩小了机器与人类在翻译准确性方面上的差距,达到了55-85%(人们按照六分制进行评分)。如果Google没有拥有的庞大数据集,那么很难重新呈现这个模型的高效果性。

1.2 人机交流是否会有市场?

你可能在过去听到了一个古怪的新闻,新闻的内容是Facebook关闭了它的聊天机器人,原因是这个聊天机器人已经失去了控制并创造了自己的语言。这个聊天机器人是由FB公司创建的。它的主要目的是与另一个代理人进行文本交流并达成共识:如何将一个物品(书籍,帽子等)分成两部分。每个代理人在交流中都有自己的目标,而对方则不知道对方的目标。在没有达成协议的情况下不可能离开这场交流。

在训练这方面,他们收集了人类交流谈话的数据集,并培训了一个受监督的神经网络。然后,他们使用了一个强化学习训练的代理人并训练它与自己交谈,并设定了一个限制:使用的语言必须跟人类的语言相似。

机器人已经学会了一种真正的交流策略,比如在交易的某些方面表现出虚假的兴趣,但是后来放弃了这部分兴趣,然后从真正 的目标中获益。这是第一次尝试创建出这样一个交互式的机器人,而且是非常成功的。

当然,有关于说机器人从零开始发明了一种语言的消息无疑是有夸大的成分在里面的。当机器人训练时(与同一个代理人进行谈判时),他们取消了了文本必须和人类语言有相似性的限制,算法修改了交互语言。没什么不寻常的。

在过去的一年中,神经网络已经正在被积极的应用并得到了发展,不断的被开发并用于许多任务和应用程序中。但RNN的体系结构变得更加复杂,但在某些领域,通过简单的前馈网络(DSSM)也取得了类似的结果 。例如,Google的邮件功能Smart Reply与之前的LSTM达到了相同的质量。此外,Yandex还推出了基于此类网络的新搜索引擎。

2.声音2.1 WaveNet:原始音频的生成模型

DeepMind的员工在他们的文章中报道了如何生成音频。简而言之,研究人员基于以前的图像生成方法(PixelRNN和PixelCNN)制作了一个自回归全卷积波网模型。

网络经过端到端的训练:输入文本,输出音频。研究得到了很好的结果,与人类相比,研究的结果差异减少了50%,取得了较好的效果。

网络的主要缺点是生产率低,因为自动回归是按顺序产生声音的,创建一秒钟的音频需要大约1-2分钟的时间。

看看......抱歉,听听下面这个例子。

如果你删除网络模型对输入文本的依赖性并且只依赖于对先前生成并保留下来的音素,那么网络将生成一段毫无意义的类似于人类语言的音素。

听听下面这段生成声音的音频。

同样的模式不仅仅可以应用于语言,还可以应用于例如创建音乐。想象一下由模型生成的音乐,这是使用钢琴游戏的数据集所进行训练的(同样不依赖于输入数据)。

2.2 读唇术

读唇是另一项深度学习的成就和对人类挑战的胜利。

谷歌Deepmind与牛津大学合作,在文章《 Lip Reading Sentences in the Wild 》报告了他们的模型是如何获取数据进行训练并超越BBC频道中的专业的唇语读者的。

数据集中有100,000个带有音频和视频的句子。型号:音频LSTM,视频CNN + LSTM。这两个状态向量被输入到最终的LSTM,并最终有LSTM生成结果(字符)。

在训练期间使用了不同类型的输入数据:音频,视频和音频+视频。换句话说,它是一个“全方位”的模型。

2.3 合成奥巴马的演讲视频:视频、音频、唇语的同步

华盛顿大学在创造美国前总统奥巴马的嘴唇运动方面做了大量工作。因为他的在线演讲视频数量巨大(17小时的高清视频),所以华盛顿大学的人选的选择就落在他身上。

由于他们有太多的工作,所以他们不可能每天都去跟神将网络相处。因此,他们制作了一些拐杖(或者说技巧,如果你喜欢这个词语的话)来改进纹理和时间。

你可以看到结果非常令人惊讶。我相信很快的,你就不会相信在网上看到的有关总统的视频了。

3.计算机视觉3.1 OCR:谷歌地图和街景

在他们的帖子和文章中,谷歌Brain团队报告了他们如何在其地图中引入一种新的OCR(光学字符识别)引擎,通过该引擎可以识别街道标志和商店标志。比如“流量大户”游戏方面。今年 5 月 28 日,腾讯便以著作权人的身份,向重庆自由贸易试验区人民法院申请诉前行为保全,称头条与其合作用户未经授权以非直播的方式传播《王者荣耀》游戏录制视频,涉嫌侵犯著作权。而更进一步地讲,头条投资虎扑,其实更是“头腾”战火的再一次蔓延。2015 年,腾讯以 5 亿美元 5 年从新浪手里抢下 NBA 转播权。不过目前看来,当时被各路媒体视为“天价”的 NBA 版权实际上极为超值。与其余赛事不同。NBA 有着惊人的引流能力。以减少球队背靠背比赛造成球员受伤的名义,NBA 去年已经开始将整个赛程拉长,这意味着一年中有近 9 个月的时间都有 NBA 赛事。NBA 无疑是维持品牌热度极好的途径,这一点看看腾讯 NBA 拿到手软的广告数量,再梳理下广告主的质量就知道了。换言之,NBA 是极为优质的垂直内容标的。

在技术开发过程中,公司编制了一个新的FSNS(法语街道名称标识),其中包含许多复杂的案例。

为了识别每个标志,该网络使用了每个标志多达四张照片。使用CNN提取特征,在空间注意力的帮助下进行缩放(考虑像素坐标),并将结果馈送到LSTM。

同样的方法适用于在招牌上识别商店名称的任务(可能存在大量“噪音”数据,并且网络本身必须“聚焦”在正确的位置)。该算法应用于800亿张照片。

3.2 视觉推理

有一种称为视觉推理的任务,要求神经网络使用一张照片来回答一个问题。例如:“图中是否有与黄色金属圆筒相同尺寸的橡胶?”这个问题真的很重要,直到最近,这个问题才得以解决,但是这个问题的准确率只有68.5%。

但是,Deepmind团队在这个问题上实现了突破:在CLEVR数据集上,他们达到了95.5%的超人精度。

网络架构非常有趣:

利用预先训练的LSTM对文本问题进行嵌入。

将CNN(仅四层)的图片,得到特征图(特征描述图片)。

接下来,我们在特征图上形成坐标切片的成对组合(下图中的黄色,蓝色,红色),为每个切片添加坐标并将文本嵌入其中。

我们通过另一个网络驱动所有这些三元组并总结。

生成的演示文稿通过另一个前馈网络运行,该网络提供softmax的答案。

3.3 Pix2Code

Uizard公司创建了一个有趣的神经网络应用程序:根据界面设计师的屏幕截图生成代码。

这是一个非常有用的神经网络应用程序,它可以使开发软件时的生活变得很轻松。作者声称它们的准确率达到了77%。然而,这个程序仍然在研究中,还没有关于实际使用的讨论。

目前还没有开源的代码或数据集,但是他们承诺未来将进行开源。

3.4 草图循环神经网络(RNN):教一台机器画画

也许你已经看过Quick,Draw!这个程序来自Google,其目标是在20秒内绘制各种对象的草图让程序进行识别。该公司收集了用户绘画的数据集,以教导神经网络绘制图片。

收集的数据集由7万张草图组成,最终可以公开使用。草图不是图片,而是图片的详细矢量表示(此时用户按下“铅笔”,在线条被绘制的地方释放,等等)。

研究人员使用RNN作为编码/解码机制,训练了序列到序列变分自动编码器(VAE)。

最终,与自动编码器相匹配的是,模型接收到一个潜在的向量,该向量表示原始图像的特征。

虽然解码器可以从一个向量中提取绘图,但是你可以更改它并获得一份新的草图。

甚至可以执行向量运算创建出一直猪猫(那不就是橘猫咯):

3.5 GANs

深度学习中最热门的话题之一就是生成对抗网络(GAN)。生成对抗网络(GAN)是一类用于无监督机器学习的神经网络。它们有助于解决诸如描述图像生成,从低分辨率图像获取高分辨率图像,预测哪种药物可以治疗某种疾病,检索包含给定模式的图像等任务。大多数情况下,这个概念用于处理图像。

这个想法是在两个网络的竞争中产生的 - 发生器和鉴别器。第一个网络创建一个图片,第二个网络试图了解图片是真实的还是生成的。

原理图看起来是这样的:

在训练过程中,来自随机矢量(噪声)的发生器生成图像并将其传送到鉴别器的输入中,该鉴别器判断它是否是假的。鉴别器还会从数据集中获得真实图像进行判断。

由于难以找到两个网络的平衡点,因此难以对这种结构进行训练。大多数情况下,鉴别者获胜训练停滞不前。然而,该系统的优点是我们可以解决我们很难设置损失函数的问题(例如,提高照片的质量),我们将其提供给鉴别器进行设置 。

GAN训练结果的典型例子是卧室或人的照片

在这之前,也曾考虑了自动编码(Sketch-RNN),它将原始数据编码为潜在的表示形式。生成器也是如此。

使用向量生成图像的思想在下面这个项目中的人脸中得到了清晰的展示。你可以更改向量并查看面部的变化方式。

同样的算法也适用于潜在的空间:“一个戴眼镜的男人”减去“一个男人”加上“一个女人”等于“一个戴眼镜的女人”。

3.6 用GAN改变面部年龄

如果在训练期间像潜在向量传输一个受控的参数,那么当生成它时,你就可以更改它,从而管理图片中的必要图像。这种方法称为条件GAN。

“使用条件生成性对抗网络进行面部老化”这篇文章的作者也是如此。研究人员在IMDB数据集上堆引擎进行了已知演员年龄的训练,然后给了研究人员改变人脸年龄的机会。

3.7 专业的照片

Google还发现了GAN的另一个有趣的应用 - 照片的选择和改进。GAN是在一个专业的照片数据集上进行训练的:生成器正在尝试改善糟糕的照片(变成专业的拍摄照片并在特殊过滤器的帮助下进行降级)而鉴别器用来 - 区分“改进的”照片和真正的专业照片。

经过训练的算法通过Google街景全景图搜索最佳构图,并收到一些专业和半专业质量的照片(根据摄影师的评分)。

3.8 从文本描述中合成图像

GAN的一个令人印象深刻的示例是使用文本生成图像。

这项研究的作者建议将文本嵌入到一个生成器(条件GAN)和一个识别器的输入中,以便验证文本与图片的对应关系。为了确保鉴别器学会执行它的功能,除了训练之外,他们还为真实的图片添加了带有错误文本的配对。

3.9 Pix2pix

2016年最引人注目的文章之一是伯克利人工智能研究院(BAIR)的“有条件对抗网络的图像对图像翻译”(“Image-to-Image Translation with Conditional Adversarial Networks“)。研究人员解决了图像到图像的生成问题,例如,需要使用卫星图像创建地图,或者使用草图创建对象的真实纹理。

有科学家认为,其实物种的变化在地球上是非常常见的事情,每年都有大量物种在消失,也有未知的物种在不断被发现,虽然人类在地球上混到了顶端,但是如果有一天人类消失了,那么经过时间的洗礼,地球也不会有太大的改变。

这是条件GAN成功执行的另一个例子。在这种情况下,条件是涉及到全局的。在图像分割中很受欢迎的是UNet被用作生成器的体系结构,并且使用新的PatchGAN分类器作为用于对抗模糊图像的鉴别器(图片被切割成N个Patch,并且分别对每个Patch进行真\伪预测)。

克里斯托弗·黑塞(Christopher Hesse)做了梦魇猫的演示,引起了用户的极大兴趣。

您可以在此处找到源代码。

未完待续,请持续关注我们哟!

1、腾讯计划在美国、欧洲和拉美等市场推出《使命召唤》移动版2、Facebook等社交媒体公司或在欧盟面临更严内容监管3、Uber日本公司拟在2025年推出“空中飞行出租车”4、苹果:“儿童类”应用不再允许包含第三方广告及分析工具5、微软与甲骨文整合云计算服务,挑战领头羊亚马逊6、东京奥运会禁止观众上传照片、视频到社交媒体1、电子烟品牌“TAKI喜克电子烟”获5500万元A轮融资2、生物制药公司“岸迈生物”完成7400万美元B轮融资3、声纹AI解决方案服务商“中科昊音”完成近千万天使轮融资4、AR光学模组研发商“珑璟光电”获数千万A轮融资5、视频技术服务商“百家云”获得数千万元A+轮融资6、动铁受话器研发商“亿欧得”完成数千万A轮融资7、电子烟生产销售商“卓力能ALD”获得1亿元战略投资8、高端亲子玩乐平台提供商奈尔宝获上亿元B轮投资9、区块链金融科技公司Hubox获益科正润集团五千万A轮投资10、5G技术研发企业红山信息获得数千万元天使轮投资在2019年年初,联想首发了一款骁龙855的机型联想Z5 Pro GT,而时隔几个月后,联想又推出了新一代骁龙855旗舰机型联想Z6 Pro。这台联想新旗舰有着超高的屏占比和超大容量的电池,在软件层面又有出色的拍摄效果。下面我们就一起通过一个开箱视频来看看吧!据外媒报道,美知名财经网站《华尔街24/7》通过分析“忧思科学家联盟”的研究报告,指出受全球气候变暖影响,2100年美国将有30个城市被海水淹没。该研究分析了气候变化对美国沿海地区的影响并列出风险最高的30个城市,同时指出新泽西州和佛罗里达州受损尤为严重,这两个州共有18个城市“上榜”。预测显示,新泽西州的大西洋城和霍博肯在2100年将有92%的市区被海水淹没,大洋城和锡考克斯也位列高风险城市名单之中。佛罗里达州最危险的城市是迈阿密海滩,研究人员估计该市将有94%的可居住土地被淹,造成190亿美元的经济损失。

分享到:
文章评论 · 所有评论
评论请遵守当地法律法规
点击加载更多
本月点击排行
精彩图片
© 2019 南阳新闻网http://www.247couplecams.com 中国互联网举报中心 科普新闻网 京公网安备 11010802020116号
违法和不良信息举报:jb@www.247couplecams.com