以大数据为核心的智能盛宴
似乎现在人人都在谈论人工智能,就像当年人人都在谈论大数据一样。 在不同场合,阿里巴巴的马云、百度的李彦宏和腾讯的马化腾分别谈到了他们对人工智能的看法和看法。 这样的对话有点像金庸小说里的华山论剑。 气宗(大数据)还是剑宗(人工智能)更具战略性? 我认为两者是相辅相成的。 互联网经过20年的发展,我们已经积累了足够的数据来驱动一场“智能盛宴”,以大数据为核心的人工智能正在逐渐兴起。
一天晚上英超中国球迷大数据,当我准备睡觉时,我听到女儿在隔壁和苹果智能语音助手 Siri 说话。 老婆问我,这正常吗? 我告诉她不要担心,这是现在的趋势。 根据美国近期的“用户渗透率调查”结果,语音助手的使用已经达到了一个临界点,正在走向大规模普及。
前段时间,我在美国旧金山拜访了创始人兼首席执行官 Dan Roth。 该公司的许多成员都是 Siri 和 Echo 的幕后推手。 如今,罗斯领导着一支汇聚了自然语言处理、语义理解、会话计算等领域专家的顶级团队,目标是解决人机对话领域这一长期存在的问题。
罗斯将他们正在开发的革命性技术称为对话式人工智能 (AI)。 与Siri相比,这项技术能够更真实地理解用户的意图,即使用户从一个话题跳到另一个话题,或者言语不完整、语无伦次,这些都是人类对话的自然特征。 这些特点是目前此类技术的难点。 我相信任何了解自然语言破译难度的人都知道,这项研究一旦成功,必将改变世界。
2010年,“数据科学家”一词的发明者DJ Patil和Jeff 认为一切都应该以产品为中心,从数据采集、数据清洗、数据设施的建设和管理、实践数据的价值等方面原型开发和产品设计。 我在阿里巴巴经历了从“数据产品”到“数据即产品”的阶段。 后者实际上是大数据的真正产物,也是人工智能的源泉。
谁拥有“完美信息”,谁就拥有整个世界
刚进入数据行业时,我始终坚持基于“假设所有数据可用”来思考问题的理念。 随着整个社会数字化的进一步深入,人与物的高度互联,很多此前的信息盲点都被快速解决。 不同领域积累的数据形成的“完美信息”正在逐渐显现。 这实际上是一个数据从量变到质变的过程。 这种“完美的信息”具有无限的潜力,足以让人工智能所向披靡,催生出各种智能场景,并让它们大量涌入。在智能时代,只有坚持“假设”的思维方式所有数据都可用”你能比别人更好并意识到这一点。
在阿里巴巴的时候英超中国球迷大数据,我参与了智能营销工具“Look-Alike”的设计。 通过机器学习,我们可以利用过去积累的客户消费特征(每个客户多达数万个标签)来做出精准的广告推送决策。 与以往的广告策划不同英超中国球迷大数据,我们不会要求广告主如何描述自己的目标客户群。 相反,我们会要求广告商给出500个喜欢某个品牌的用户的列表,我们可以帮助他们找到5000个甚至5000个类似的客户。 这种方法可以在几个小时内快速“扫描”出最有效的营销计划。 通过这项技术,我们基本上可以达到让广告主惊喜的精准广告效果。 但问题是,这个产品真的能为广告行业和阿里巴巴带来新的价值吗? 这只是大数据革命的开始,大家可以拭目以待!
现实中,我们从数据收集、整合、判断、到行动、到反馈的过程并不完美,形成闭环数据系统的障碍往往大多是人为因素。 谷歌自动驾驶汽车项目的伟大给了我们重要的启发,让我们认识到自动化、智能化所需的数据闭环系统如何既封闭又开放,内外融合才是未来的发展方向。 趋势。 我在阿里巴巴经历了4个不同的阶段:数据驱动决策、数据驱动流程、数据驱动产品、数据驱动业务。 在这个过程中你会发现,数据驱动的目标越模糊,数据越分散,人的交互环节越多,智慧项目的开展就越困难。
从数据策略到数据治理,别让数据成为负担
如前所述,数据资源的积累是数字经济发展的前提。 企业在向往智能时代带来机遇的同时,也必须为未来目标制定数据战略。 企业不仅要关注自己现在拥有什么数据,还要了解自己未来会缺少什么数据。 然后,探索缺失的部分有多少可以自己补充,有多少需要通过寻求他人的帮助和配合来补充。 有些人将数据与电能进行比较。 这个比喻很形象,但与电能不同,数据是可以重复利用的。
我在阿里巴巴的时候,部门之间的数据交换是怎么处理的? 这很简单。 第一步是找到每个人都愿意分享的部分。 我把它称为企业内部的公共数据,然后先分配资源来建设这一部分。 选择公共数据有一定的技巧。 简单的分类就是:已经在各个部门高频但低效的单线流转的数据,同样的数据被残酷地重复复制到各个部门。 大家都愿意先把数据标准化。 当这些公共核心数据建立起来后,大家将能够更容易感受到数据高质量流通的意义和好处。 确保这些数据的质量和新鲜度也相对容易。
所以从战略意义上来说,二右顺从就变得非常微妙。 大数据背后的逻辑是,积累的数据越多越好。 在过去的两三年里,很多企业都相信,拥有大量的数据资源,可以为自己的业务创造更大的价值。
但人们往往很快就会发现,除了技术能力之外,如何妥善管理和利用这些资源并不容易:安全合规是一方面,也很难降低数据使用的阻力和风险。 因此,我一直主张数据治理不是数据部门的工作,而是公司的整体战略。 这意味着“本质上纯粹”的大数据很容易成为一种负担。
数据是一种信仰,“用好”才是本质
2016年,一场围棋大战,让人类引以为豪的顶级智能瞬间被践踏成碎片。 在我看来,这场战争其实只是一群人战胜另一群人,而大多数人只注意到了“智力”而忽略了它与“智慧”的区别:“能”是能力的体现,而“智慧”就是排除杂念,将智慧用在具有普世价值的地方。 同样的技术能力是被明智地使用还是被滥用之间只有一线之隔。
2016年在英国伦敦举行的一次数据发布会上,有人预测英超莱斯特城足球俱乐部的中场球员里亚德·马赫雷斯将成为值得关注的球员。 他当时在演讲中说道:“根据我们的数据,马赫雷斯目前不仅是英格兰最好的中场球员,也是欧洲最好的中场球员之一。我敢说,在本赛季结束时,他的价值将非常巨大。” 其数据显示,马赫雷斯在各项足球比赛中出场35次,总得分1118分,在欧洲排名第6,仅次于“阿根廷球王”梅西的1635分。 韦斯特等5名球员。
结果,莱斯特城足球俱乐部在2017年1月遭遇巨大冷门,首次夺得英超冠军。 表现神勇的马赫雷斯不仅是最大功臣,还获得了英超最佳球员“足球运动员”称号,成为首位获此殊荣的非洲球员。
这个堪称“预测之神”的男人叫瓦莱里·博利埃( ),是一家体育运营商的联合创始人兼首席执行官。 他的公司以其复杂而精致的数学矩阵而闻名。 他们的系统包含 70 种不同的标准,具体取决于球员的位置(守门员、后场、中场、前锋等),总共有 275 种得分或失分的方式。 这些方法从进球、助攻到具体射门和成功拦截,试图量化接近比赛的真实情况。
为什么博利厄能够在多年前就预测未来并做出如此准确的预测? 其实答案就是大数据和信息。 球队的主教练、教练和球探都被这种量化管理震惊了。 他们不免开始担心,如果自己在大数据领域落后了怎么办? 然后就等着被淘汰吧。
几千年来,人类已经习惯了生活在信息稀缺的时代。 大数据和人工智能给人们带来了希望,但也引发了担忧。 暂且不说我们是否会被机器人入侵,人类真的充分发挥了自己的潜力吗? 数据是一种信仰,我们应该利用好这个宝藏,为人类创造一个更加美好的世界。