广告设计分享圈

198成员
38010人气

申请加入

圈公告

平面广告、视频广告、语音广告、多媒体、海报广告设计分享圈

走访阿里达摩院：用机器视觉做广告设计用机器翻译推动国际电商

848

发布：2019-04-09 13:24:21 来自伊人浅笑最倾城觅知友会员

马云成立阿里巴巴达摩院，三年拿出1000亿布局前沿技术的研究，并对它提出三个要求，“活得要比阿里巴巴长”、“服务全世界至少20亿人口”、“面向未来用科技解决未来的问题”。

阿里达摩院也陆续传出来自各方的技术大牛加盟；公布了正在研发中的AI芯片Ali-NPU；研发出量子电路模拟器“太章”，率先实现81量子比特（40层）的模拟；应用在上海地铁站的语音购票等消息，但整个达摩院（正如其名）还隐匿在云雾中。

阿里达摩院第一次公开对外，则是近期在杭州举办的一场技术分享活动，现场达摩院来自不同部门的四位专家学者分享了他们的研究成果以及落地应用，智东西也作为首批媒体受邀参与其中。

可以看到，在达摩院的技术布局中，既有应用于当下的语音识别、机器视觉、机器翻译等技术，也有量子计算等中长期布局未来的技术。而在应用场景中，达摩院的技术也广泛的落地在阿里的业务之上，去解决实际问题，比如机器翻译用于阿里的国际贸易，视觉生成用于淘宝广告的自动生成等。

一、围绕人、物、空间推动机器视觉落地

阿里达摩院机器智能技术实验室资深算法专家谢宣松分享了计算机视觉在产业中的应用，主要围绕人（医疗视觉）、物（行业视觉）、空间（城市大脑）、设计（视觉生成）几个维度来展开。谢宣松谈到，围绕人、物、空间来做一些机器视觉，目的是协助人提高效率。

相比城市大脑和医疗视觉，如何将AI技术落地场景众多、问题更加复杂的产业，以及视觉生成技术如何提高人类效率，更加吸引智东西的关注。

行业视觉是产业落地的一个大领域，场景众多，哪些场景能够让技术落地呢？谢宣松指出3种机器视觉可以落地的条件：

第一种是诊断内容肉眼可分辨，正常&故障样本充足，对漏报有一定的容忍度。这种场景就很适合机器来做，比如对铁路螺母是否松动的监测。第二种是人肉眼难以发现，可根据情况用机器视觉作为代替。第三种是故障样本极少，但造成事故的结果又很严重，这时可以用机器视觉辅助人工检测。

限定了边界后，就可以寻找技术落地的场景了，比如阿里基于视频分析，可以自动进行钢圈安全监测，实测精度在95%以上；再比如通过目标检测和行为分析，对猪的疫情等进行预警，前一段阿里云用AI养猪种瓜，也是风靡互联网圈。

通过行业场景的落地，谢宣松总结到，我们需要深入行业，花大力气明确需求、定义问题；要重视数据，分析各个场景下数据的特点；要简化问题，优先采用简单有效的方案；并且要长期投入，不断迭代优化方案。

视觉生成即通过AI技术，结合用户、场景需求，生成图像、视频等内容，比如广告图像的生成与设计，广告视频的生成，游戏图像生成等，从而提高人类工作的效率。

阿里是以电商起家的，广告需求广泛存在于淘宝商户中，尤其是双十一这样的购物节设计需求大量存在。阿里特意构建了设计知识图谱，通过视觉生成来生成广告效果图。

其中最典型的应用就是鲁班系统在淘宝中的应用。谢宣松谈到，双十一天猫、淘宝上大量的banner图片，其中很大一部分都是系统自动自动生成的。比如去年双十一用AI产图2.5亿张，累计产图10亿张。身为设计师的你看到这一结果是否会亚历山大呢？

出了图片的生成，谢宣松表示，视频和图形的内容自动/半自动生成是一个趋势，也是另一个蓝海。比如在一个电视剧场景中，AI可以识别视频场景中的人物、对话、动作等，在识别场景后，就可以在适当的位置插入相关对象。

现场他展示了一张“天猫国际”的植入广告，以及淘宝商品的视频生成，当然广告只是应用之一，只不过电商平台需求量太大。

谢宣松还告诉智东西，视觉生成的实现是各种技术的综合应用，会借用最基础的识别分类能力，也会用到序列，同样它会用到强化技术的能力，在象素生成和元素丰富上用一些概念能力，最后对整个系统有检测过程，使它满足用户需求。

二、量子计算中长期的布局

时下火热的一个概念就是量子计算，因为量子计算机一旦取得突破，在算力上就会远远高于经典计算机，从而带来算力革命，但这一现象短期内很难发生。

正如阿里达摩院量子实验室的量子科学家徐华所言，通用量子计算机发展前路漫漫，近期我们期待可以解决特定问题的量子芯片，以及针对量子系统进行模拟的量子芯片。

量子计算数据阿里中长期局部的一项重要技术，由于量子计算过于晦涩难懂，这次分享更多的在于科普，我们可以对几个常见的概念做一个解释：

量子计算，它是基于量子力学的基本原理（核心是量子叠加+量子纠缠），利用量子逻辑实现信息处理的计算技术，对应的机器就是量子计算机。

量子纠缠，对于一对或一群粒子而言，部分粒子的量子状态以来其他粒子的状态，而不能独立的表述，则认为这一对或一群粒子处于量子纠缠。量子通信主要应用的就是量子纠缠，近期中国科大也宣称率先实现了18量子比特纠缠。

量子霸权，这是一个经常被提及的概念，它是指对于某个特定的问题，量子计算机可以解决，但是经典计算机无法解决。2016年Google团队在理论上提出，49个物理量子比特可以在随机量子电路的输出采样这个特殊问题上实现量子霸权。

今年3月份，谷歌提出72个比特的芯片方案。而后5月份，阿里量子实验室团队基于阿里的计算能力，实现了81量子比特的模拟。但徐华总结到，目前的量子霸权象征意义大于实际意义，因为本身解决不是通用计算问题，只能算是技术发展过程当中的一个个里程碑。

阿里量子计算的研究方向涉及物理层、系统层、应用层，希望提供全栈能力的解决方案，为客户提供量子计算能力。

其中今年上半年推出的“太章”模拟器便是量子实验室的一个代表项目。它是一个量子电路的经典模拟器，通过对模拟任务进行有效的分解，利用阿里强大的计算平台，完成了之前超级计算机上做不到的模拟量子计算的任务，实现了对Google计划取得 “量子霸权”硬件的模拟。

但现场徐华也讲到，量子模拟器终归受计算力所限。量子模拟需要继续投入，帮助量子电路设计以及量子算法研究，但是从更长远的研究来看，几百个量子比特超级计算机是不能够模拟的。

近期中国科大宣称率先取得了18量子比特纠缠，智东西也就该成果的实质性意义与徐华沟通，他表示多个量子比特的纠缠是非常有意义的，量子纠缠有一个置信度，置信度是99%与99.99%差别非常大，如果置信度都很高，达到了99.99%以上，这就与实现逻辑比特比较接近了。比如50个逻辑比特组合起来，其算力基本可以达到现在超级计算机的计算水平。

三、机器翻译阿里国际化的生命线

机器翻译是利用计算机将一种自然语言专为为另一转自然语言的过程。这项技术已经有60年的历史，但在最近30年才可以使用。

阿里达摩院机器智能技术实验室研究员葛妮瑜分享了他们在机器翻译技术中的探索与应用，她将机器翻译称为阿里国际化的生命线，因为阿里国际电商、即时通讯（钉钉）、旅游（飞猪）等场景存在大量的翻译需求。

与谷歌的通用神经机器翻译不同的是，阿里的机器翻译更加聚焦在国际电商、即时通讯、旅游上，采用神经网络机器翻译（NMT）、统计机器翻译（SMT）等多模型结合的方式进行翻译，目前已覆盖21种语言，48个翻译方向。

葛妮瑜介绍，目前阿里机器翻译服务100+业务场景，日均调用7.5亿次，全年翻译字符数超过120万亿，应用于电商平台、物流、支付、云计算、社交等。

在具体将机器翻译落地方面，她讲述了小语种机器翻译和非标准汉语翻译的具体案例。

以阿里巴巴国际站为例，30%用户使用西班牙语、俄语、土耳其语等小语种；2017年前三季度，俄罗斯人在中国购物额占海外网站消费总额的52%，同时全部订单90%都下给了中国；但大约96%的卖家对小语种无能为力。

阿里为了匹配各个业务场景特点，融合多种不同技术，取长补短，进行场景翻译的定制化。具体而言针对小语种进行语料抓取，建立电商知识库，并搭建小语种与汉语之间的双语平行语料库，通过人工排序规则等，进行小语种机器翻译。

另外一个就是非标准汉语机器翻译的斗争，淘宝上商家为了最大化搜索效果，会输入很多词，但是不成句子，平均标题多达30个字，不自然无语法，对机器翻译很有挑战。

葛妮瑜团队结合用户搜索和成交产品，通过这些自动产生的大量准确语料，对商家冗长的标题进行优化简写，并通过模型不断自动优化，从而实现商品信息的翻译。

此外，她也介绍了图片翻译方面的一些探索。传统的方法直接采用机器翻译进行字符识别。而阿里第一步先对图像进行识别，获取内容描述后，再进行字符识别（OCR），通过OCR+图像内容描述，共同进行机器翻译，从而提升图片内容的翻译效果。

四、推行业语音识别

语音识别是一种常见的将语音转换为文字的技术，目前各家做语音识别的公司都号称通用语音识别准确率达到95%以上，但是在细分场景、特殊领域中，这一识别率会大大下降。

阿里达摩院机器智能技术实验室高级算法专家雷鸣分享到，得益于更强大的计算能力，以及更多更真实的数据，语音识别正在快速发展，并且工业界正在成为创新的主流。

目前谷歌、微软、百度等都采用通用识别的技术，与其不同的是，阿里则重点布局了行业语音识别、IoT语音识别和新零售语音识别。

目前应用场景越来越复杂，对语音识别的要求越来越高，随着模型越来越复杂，语音识别的效率越来越低；随着数据体量越来越大，训练时间越来越长，迭代速度越来越慢；并且模型越来越大，很难直接在IoT端进行部署。

阿里针对这一情况，在去年11月上线DFSMN模型，使语音识别的错误率相比之前模型下降20%，同时效率提升2倍，可在IoT设备端应用，并在今年6月将这项技术开源。

在具体应用方面，阿里的语音技术已经广泛应用在家庭、车载、公共空间。比如家庭的智能音箱，上汽荣威RX5中的车载语音交互技术。

而在公共场景中，今年上半年阿里在上海地铁站推出语音售票机，通过语音与视觉多模态组合，帮助乘客快速获取车票。另外一个案例则是在今年的武汉云栖大会上推出的语音点餐机，通过语音交互的方式高效获取服务。

此外，阿里的语音技术也应用到法院庭审中，进行庭审信息的速记。据雷鸣介绍，阿里的智能庭审已经覆盖了近300家法院，6000多个法庭，并应用到杭州互联网法院中。

结语：以解决实际问题为导向的达摩院

通过阿里达摩院四位专家分享和与他们的沟通，我们感受最深的一点就是，达摩院的科研并非“空中楼阁”，而是切切实实的以解决实际问题为导向，目前其研究成果以逐渐落地阿里各个业务线。

此外，在技术落地解决实际问题的过程中，无论是语音识别、机器翻译，还是机器视觉，阿里都在尝试综合应用多种技术来解决实际问题。

比如在于机器智能技术实验室研究员葛妮瑜的沟通中，她也提到，针对自然语言处理（NLP）这个业界难题，他们也在结合汉语的实际情况，通过偏旁部首的研究来提高语义理解的效果。此外她也谈到，用多模态的方式来研究NLP技术也是学界的一个方向。

û0 ñ0 0 0

未登录

200

o p

工业设计赋予产品新生命力
随着社会经济水平的提高，人们对于商品的选择已经不再只停留在价格、实用的层面了，越来越多的人开始追求商品的创新、娱乐、外观等附加值。尤其是在同质化严重的市场上...
来至：工业设计达人圈均胜智能科技 ⋅ 720人浏览 ⋅ 一个月前
预约破100万华为首款5G手机今日10点开售
距离华为Mate 20 X (5G)即将开售，华为Mate 20 X (5G) 是华为首款5G商用手机，将于今日10点正式发售。据华为官方消息，截至8月15...
来至：工业设计交流圈别穿红裙づ来炫耀 ⋅ 679人浏览 ⋅ 一个月前
马拉松高手秘籍：消耗卡路里的跑步和力量训练
考虑以下跑步和力量训练。确保在这些锻炼之间至少进行一天轻松的跑步，并在这些轻松的日子里尝试每周进行2至3次力量训练。节奏跑热身10分钟在15分钟内加快步伐，...
来至：丽人瑜伽社区一倾风月一流年 ⋅ 692人浏览 ⋅ 一个月前
中国今年棚改开工量腰斩，十年棚改为何急刹车？
简介：原本受益于棚改扩量和货币化安置政策的地区，一旦棚改缩量叠加货币化安置政策收紧，其房地产市场会如何演变，不得不令业界关注。一份官方数据显示，2019年我...
来至：投资理财论坛圈想待在角落 ⋅ 752人浏览 ⋅ 一个月前
穆迪埃：戈贝尔一开始的行为只是想要开玩笑
受新型冠状病毒传播影响，NBA近期宣布停赛，据称最早要到六月中旬才可能复赛。而NBA球员中，第一个被诊断出感染了新型冠状病毒的是爵士中锋鲁迪-戈贝尔，值得一...
来至：活跃篮球圈鹿萌萌的长睫毛 ⋅ 761人浏览 ⋅ 一个月前
全球公认的最佳健身流程，建议收藏！
1）在家准备①选择合适的衣服健身前务必选择合适的运动装和运动鞋，这是保障训练安全的前提，如果有大重量训练请准备好护具。②选几首音乐健身前最好预备一个健身播放...
来至：精彩生活圈别惹我我是男神 ⋅ 813人浏览 ⋅ 一个月前
关于区块链开发的那些事
区块链技术是目前新兴的行业，正在逐步的被大家认识并接受！今天主要和大家谈谈区块链开发方面的注意点想要做区块链项目运营的，一定要找一手的团队！目前市面上很多都...
来至：掌上程序开发兼职圈益道科技 ⋅ 676人浏览 ⋅ 一个月前
纽约股市12日早盘暴跌再度触发熔断机制
3月12日，在美国纽约证券交易所，电子屏显示交易因触发熔断机制暂停。纽约股市三大股指在12日开盘出现暴跌，跌幅超过7%。暴跌行情导致美股再次触发熔断机制，...
来至：财经早知道李白的小迷妹 ⋅ 804人浏览 ⋅ 一个月前
世界第一跨海大桥，将近9年才建成通车，55千米的长度令世界瞩目
改革开放以来，我们国家发展迅速，不仅GDP年年创新高，社会基础设施更是逐年完善。在近几年，随着一系列大规模基建建设和超级工程接连完工，更是被全世界的人民视为...
来至：热点新闻乱山深处水萦回 ⋅ 727人浏览 ⋅ 一个月前
老百姓看病难、看病贵怎么办？教你填补医保的不足
中国有着世界上 22% 的人口，但医疗资源只占全世界的 2% ，看病贵、看病难是老大难的问题。在日常生活中，排队 3 小时，看病 1 分钟的情况并不少见，甚...
来至：百姓生活社区变纯变妖变伯贤 ⋅ 657人浏览 ⋅ 一个月前
故宫博物院藏玉之唐代
白玉勺，唐，故宫博物院藏。高2.8厘米，长19厘米，柄宽1.3厘米，勺横径5.3厘米。　　勺白玉质，玉质温润，打磨光滑，略有黄褐沁斑。直柄，柄首勾曲回卷...
来至：文玩社区暮烟疏雨之际 ⋅ 808人浏览 ⋅ 一个月前
走进芒砀铁角山，探秘1号汉墓，其规模不亚于梁共王陵
铁角山属于芒砀群山最西面的一座小山。铁角山位于芒砀山主峰（大汉雄风）西1000米，距离陈胜墓约500米，海拔110.6米。
来至：聊斋志异蓝褶裙的姑娘 ⋅ 841人浏览 ⋅ 一个月前
2020年度国考开考，143万人为2.4万余个岗位角逐
2020年度国家公务员考试笔试今天在全国各考点同时举行。百万考生为2.4万余个“金饭碗”展开了激烈的角逐。精准扶贫、人工智能等时事热点被列为重点内容在北京汇...
来至：教育咨询顾问圈素笺淡墨 ⋅ 729人浏览 ⋅ 一个月前
培养孩子自律能力：改变我们自己的反应，影响孩子进入良性循环
能够根据需要自主地改变行为习惯，可以让自己变得更好。要知道如何帮助孩子改变习惯，就要学会回顾自己曾经做出的成功的改变：你印象最深刻的、影响孩子行为习惯改变的...
来至：宝妈兼职圈耶系以少年 ⋅ 680人浏览 ⋅ 一个月前
摄影成像很垃圾？别再只怪摄像头
摄影，一个神秘而又高雅的词。总是看着别人家的男朋友把女朋友拍的那么漂亮，总是看着别人拿着简单的设备就能拍出大片感觉，然而这一切都是别人家的。如何提升我们自身...
来至：技能专长圈火花社翻译工作室 ⋅ 748人浏览 ⋅ 一个月前
离职前一定要找好下家吗？对于裸辞和骑驴找马，会被公司如何看待?
离职、跳槽、裸辞一直是职场人关注的话题。任何时候都会有人员的流动，来来往往。有勇气的人选择裸辞，痛快转身；慎重的人选择骑驴找马，稳妥过渡。两种方式没有对错之...
来至：职场达人交流圈暮烟疏雨之际 ⋅ 751人浏览 ⋅ 一个月前
iPhone11果然降价！A13+双摄+LCD屏，价格出来XR用
苹果在发布会上承认，物美价廉的iPhoneXR是苹果2018年系列中最畅销的产品，同时也是市面上最火爆的单品之一。笔者认为，iPhoneXR的成功是相对的，...
来至：工业设计达人圈纨绔の少年 ⋅ 737人浏览 ⋅ 一个月前
景甜为新戏留细眉，被赞又甜又媚又大气，美的让人窒息你们怎么看
景甜是一名内地的影视女演员，出道的时候就拥有着很好的影视资源，但是她的演技一直备受质疑，直到她从电影转战到电视剧，主演了古装剧《大唐荣耀》，才扭转了风评。比...
来至：穿搭晒照圈风蛍月缓缓 ⋅ 802人浏览 ⋅ 一个月前
SEO外包需注意的几个要点是什么？
Seo行业混乱，浑水摸鱼的有很多，所以我们在选择seo外包的时候需要看清楚，广州seo外包的对于外包需要注意的几个要点有哪些，企业都可以了解一下。1、人才需...
来至：网站设计兼职圈我叫叶良辰 ⋅ 822人浏览 ⋅ 一个月前
从业20年的高层管理者：我管理下属，只用这几招！
管理下属，就是要管理好下属的工作，管理者必须明晰下属的工作职责，并充分授权。同时须记住以下几点：1、授权不授责。也就是说授予下属做事的权力，但是出了问题责任...
来至：职场达人交流圈柠檬树上的少女 ⋅ 765人浏览 ⋅ 一个月前