1. 简单百科
  2. Watson

Watson

IBM Watson 是认知计算系统的杰出代表,也是一个技术平台。

介绍

IBM Watson是认知计算系统的杰出代表,也是一个技术平台。认知计算代表一种全新的计算模式,它包含信息分析,自然语言处理和机器学习领域的大量技术创新,能够助力决策者从大量非结构化数据中揭示非凡的洞察。 IBM Watson系统具有几大能力:

Understanding(理解):Watson具有强大的理解能力。通过自然语言理解(Natural language understanding)技术,和卓越处理结构化与非结构化数据的能力,在众多行业能够与用户进行交互,并理解和应对用户的问题。

Reasoning(推理):它有智能的逻辑思考能力,Watson通过假设生成(Hypothesis generation),能够透过数据揭示洞察、模式和关系。将散落在各处的知识片段连接起来,进行推理、分析、对比、归纳、总结和论证,获取深入的洞察以及决策的证据。

Learning(学习):它有优秀的学习能力。Watson通过以证据为基础的学习能力(Evidence based learning),能够从大数据中快速提取关键信息,像人类一样进行学习和认知。可以通过专家训练,并在交互中通过经验学习来获取反馈,优化模型,不断进步。

此外,它还有精细的个性化分析能力,它能利用文本分析与心理语言学模型对海量社交媒体数据和商业数据进行深入分析,掌握用户个性特质,构建360度个体全景画像。

Watson不仅仅是这些技术的简单集合,而是以前所未有的方式将这些技术统一起来,深刻改变了商业问题解决的方式和效率。

简单来说,Watson能够支持如下方面,包括但不限于:

理解自然语言

大数据的理解和分析

动态分析各类假设和问题

精细的个性化分析能力

在相关数据的基础上优化问题解答

在短时间内提炼洞察、发现新的运行模式

在迭代中学习,探索优化的解决方案

云端开发平台,支持生态发展

功能应用

Watson的技术有潜力应用到商业发展上,推动各行各业的转型,已推出的相关产品包括 Watson发现顾问(Watson Discovery Advisor),Watson参与顾问(Watson Engagement Advisor),Watson分析( Watson Analytics),Watson探索( Watson Explorer),Watson知识工作室(Watson Knowledge Studio),Watson肿瘤治疗(Watson for Oncology),Watson临床试验匹配(Watson for Clinical Trial Matching)等。

Watson分析( Watson Analytics)。很多年来,IBM都使用着不同的可视化技术,以定量的方式来描述信息和数字,制作图表以及其他有趣的事情。然后,我们开始在系统中添加预测性的分析能力,随着业务的不断展开,它开始成为商业分析( Business Analytics)。如今它已经是IBM的一项大业务。我们开始观察如何提升系统用户体验,如何利用自然语言处理技术以及Watson的理解和学习能力提升系统。

我们采纳了商业分析的建议并将之与自然语言处理技术结合起来,随着时间的推移,还学会如何识别你想用来解决某个问题的正确数据源,学会如何推荐改善数据之道来获取更好的结果。我们开始将人工智能领域与商业分析融合在同一个平台上,那就是Watson分析的产品线。今天,这款云产品会先免费让用户试用,然后如果有人想继续使用,就需要相应的商业许可。

Watson参与顾问(Watson Engagement Adviser),即一个人与知识库进行交互的框架。它会不断阅读最新信息并及时更新。这个系统已经进化成一个会话系统,用户可以与它对话并从中学习。这些系统可以用于许多不同类型的信息。在我们的合作者生态系统中,有很多不错的例子,他们用它来做一些有趣的事情。比如Elemental Path公司打造并推出了一款名为CogniToys的产品,这是一款和Watson连接的玩具恐龙。孩子们可以和自己的小恐龙交谈,这款玩具所连接的后端知识库不仅能够回答孩子们的问题,还能适应孩子的成长,确保给出的答案是符合孩子年龄段的。

Watson探索(Watson Explorer)可以用来协助企业的内部工作,它可以将企业数据源中不同类型的数据汇集到起来,然后将这些信息通过API连接到基于云的Watson系统上,让我们可以在私有云中将这些不同的专有数据整合到一起。而这些私有云已经包含了公有云坏境所分享的信息和知识;它提供了非常好的可视化功能,并且还能在企业内部构建可以利用基于Watson服务云的应用。

Watson发现顾问(Watson Discovery Adviser)能够发现和建立不同数据之间的关系。它能够通过收集数据,基于数据进行学习,并迅速的提炼洞察,来帮助各行各业进行创新,不论是厨师的厨艺,开发新的医疗方案,还是协助法律工作,将创新和洞察融入个人和产业的发展活动中。

Watson知识工作室(Watson Knowledge Studio)通过监督学习技术(supervised learning techniques),开发人员和相关领域专家可以运用他们的行业知识和管理技能来培训Watson。知识工作室(Knowledge Studio)可以帮助Watson理解语言的细微差别、意义及具体的行业、专家和知识领域之间的关系,让用户能在数周内打造个性化的认知应用。

Watson肿瘤治疗(Watson for Oncology),Watson通过MSK外科医生的专业培训后,将为临床医师提供以证据为基础的治疗方案。不论是社区医院还是全球顶级医院,肿瘤专家像所有临床医生一样,都在通过大量的研究成果、医疗记录和临床试验来了解、学习该学科的最新动态。Watson结合重要的知识,协助肿瘤专家解决问题。现在,通过IBM和MSK之间的合作,Watson利用世界知名的MSK公司的专业知识,深度评估和分析每一个病人具体情况。

Watson临床试验匹配(Watson for Clinical Trial Matching)能够帮助确认临床试验匹配的潜在人选。利用认知计算,Watson能够分析临床试验潜在人选的特征,通过评估这些候选人对于相关条件符合的程度,来帮助临床医生,更快速有效的选择临床试验的合适人选。通过提高潜在人选筛选的效率,来帮助提升临床试验的成功率。

如今,Watson已经被运用到超过三十五个国家十七个产业领域。例如,在医疗保健方面,它可以作为一种线上工具协助医疗专家进行疾病的诊断。医生可以输入一系列的症状和病史,基于Watson的诊断反馈,来做出最终的诊断并制定相关的治疗计划。对于零售商来说,他们可以利用这项技术,帮助消费者更高效的找到他们想要的商品。对于旅行者来说,他们可以通过这项技术制定最可行的度假计划或出行路线。

IBM和软银机器人控股公司(SBRH)合作推出了基于Watson CCP的智能机器人Pepper,它可以与人类正常沟通,可识别文字、图像和语音,通过行业定制化,可以在银行服务台、餐饮、零售、酒店、医疗接待等领域为人类提供智能的信息化服务。

P53 是与许多癌症有关的一种重要蛋白质,迄今已有 70,000 篇有关这种蛋白质的论文。贝勒医学院研究院表示,即使科学家一天阅读五篇论文,也要花 38 年时间来全面了解这种蛋白质。然而,通过贝勒医学院和 IBM的合作,在几个星期的时间内,生物学家和数据科学家使用贝勒知识集成工具包 (KnIT) ,在Watson技术的基础上,准确地识别了可修改 P53的蛋白质,最终提高了药物和其他疗法的效果。这种自动化分析引导贝勒医学院癌症研究人员确定了七种潜在蛋白质,作为新研究的目标。考虑到过去三十年科学家们平均每年才取得一个类似的靶蛋白发现,这一结果十分醒目。

IBM与医疗技术与服务公司美敦力(Medtronic)在糖尿病管理方面展开深入合作,通过Watson的认知计算服务,现已达到了一个关键的里程碑,目前正在测试的一个糖尿病管理应用程序,可以提前三小时预测低血糖事件,以让糖尿病患者有充足的时间采取行动,降低不必要的发病损害。

家用电器厂商惠而浦Whirlpool)与IBM合作,实现家用电器的物联网与高级服务。IBM的Watson服务包括认知分析、数据管理和保护,从而可以让惠而浦能及时了解用户的习惯,更有前瞻性的服务于他们的客户。比如根据用户使用烤箱的习惯(食物喜好、营养状态等),来为其提供定制化的健康食谱。

体育用品公司安德玛(Under Armour)与IBM合作开发了一款名为“UA Record”,相当于个人健身的数字化助理,它将汇总安德玛全球1.6亿用户的相的健身与健康数据(如睡眠、健身、活动和营养等),为用户提供健身指导(比如推荐符合某一健身指标的运动)。

IBM通过收购The Weather Company,利用后者的天气数据,将为更多企业提供更加精准的天气信息,帮助企业节省成本,提升效率和效益。比如,一家物流公司通过获取IBM的精确天气数据,能够提前知道某些区域是否会出现恶劣天气,包括恶劣天气的具体情况,以此来改变运输车队的路线和行程,避免恶劣天气造成的损失。同样的方法还能够应用于东航浙江公司、销售等。

历史

Watson的命名来源于IBM公司创始人托马斯·J·Watson的名字。

2011年,Watson参加综艺节目危险边缘(Jeopardy)来测试它的能力,这是该节目有史以来第一次人与机器对决。2月14日至16日广播的3集节目中,Watson在前两轮中与对手打平,而在最后一集里,Watson打败了最高奖金得主布拉德·鲁特尔和连胜纪录保持者肯·詹宁斯。Watson赢得了第一笔奖金100万美元,而肯·詹宁斯和布拉德·鲁特尔分别只有30万和20万。赛后,布兰顿·詹宁斯和鲁特表示将一半奖金用于慈善事业,IBM公司也将Watson的奖金分给了两家慈善机构。

Watson在比赛节目中按下信号灯的速度始终比人类选手要快,但在个别问题上反映困难,尤其是只包含很少提示的问题。对于每一个问题,Watson会在屏幕上显示3个最有可能的答案。Watson 4TB磁盘内,包含200万页结构化和非结构化的信息,包括维基百科的全文。在比赛中Watson没有链接到互联网。

Watson提炼洞察与深度QA工作原理

在Watson分析问题并确定最佳解答的过程中,运用了先进的自然语言处理、信息检索、知识表达和推理和机器学习技术。Watson依靠核心的IBMDeepQA技术,来生成假设、收集大量证据、并进行分析和评估。Watson通过加载数以百万计的文件,包括字典、百科全书、网页主题分类、宗教典籍、小说、戏剧和其他资料,来构建它的知识体系。

搜索引擎的工作方式是,理解问题,并给出大量相关文档作为解答;与搜索引擎不同,用户可以用自然语言向Watson提出问题,Watson则能够反馈精确的答案。从解答的过程来看,Watson通过使用数以百计的算法,而非单一算法,来搜索问题的候选答案、并对每个答案进行评估打分,同时为每个候选答案收集其他支持材料,并使用复杂的自然语言处理技术深度评估搜集到的相关材料。当越来越多的算法运算的结果聚焦到某一个答案时,这个答案的可信度就会越高。Watson会衡量每个候选答案的支持证据,来确认最佳的选择及其可信度。当这个答案的可信度达到一定的水平时,Watson就会将它作为最佳答案呈现出来。

· Watson 如何提炼洞察

分析非结构化数据:采用自然语言处理技术理解语法和语境

理解复杂问题:评估所有可能含义,然后确定问题含义

呈现答案和解决方案:根据找到的支持性证据和高质量信息作答

· Watson 如何回答问题

Watson 需要先学习新主题,然后才能回答这个主题的相关问题

学习新主题

将所有相关材料加载到Watson 中,比如 Word 文档、PDF 和网页

添加配对问题和答案,就该主题对Watson 进行训练

出现新的信息时,Watson 会自动更新

回答问题

Watson 会搜索数百万个文档,从中找出数千条可能答案

收集证据,然后使用评分算法评估证据的质量

根据对支持性证据的评分排列所有可能答案

展望

沃森的未来

美国哥伦比亚大学医疗中心和马里兰大学医学院已与IBM公司签订合同,两所大学的医疗人员将利用“沃森”更快、更准确地诊病、治病。马里兰大学医学院教授艾略特说:“当病人特别多的时候,医生来不及把病人的所有信息一一录入计算机进行检索,这时‘沃森’就能派上用场。它的海量信息库中存有许多发表在期刊上的专业论文,可以让医生利用最新科研成果治疗病人。”

背景资料

IBM续写“深蓝”辉煌

1997年5月,被誉为“世界上最聪明的人”的国际象棋大师加里·卡斯帕罗夫经过6局对抗,败于拥有超强计算能力的超级电脑“深蓝”,引起全球瞩目,这场博弈当时被称作“里程碑式的人机博弈”。而IBM公司就是“深蓝”的发明者。时隔多年,“小托马斯·沃森”又让这家百年企业再创辉煌。

从“深蓝”到“沃森”?

14年前,IBM研发的计算机“深蓝”(Deep Blue)战胜了国际象棋冠军卡斯帕罗夫;现在,这家公司以创始人Thomas J. Watson名字命名的计算机,继续着对人类智能极限的挑战。IBM长于制造各种复杂的机器,除了服务器还有这种智能计算机(小型机的集群),它看起来可不仅仅就像那句有点讽刺意味的流行语说的那样—IBM,不是个生产哲学的公司吗?在1960年代人工智能的技术研发停滞不前数年后,科学家便发现如果以模拟人脑来定义人工智能那将走入一条死胡同。现在,“通过机器的学习、大规模数据库、复杂的传感器和巧妙的算法,来完成分散的任务”是人工智能的最新定义,这早已经取代了曾经甚嚣尘上的“重建大脑”。按照这个定义,沃森在人工智能上被认为又迈出了一步。“深蓝只是在做非常大规模的计算,它是人类数学能力的体现,”IBM中国研究院资深经理潘越告诉《第一财经周刊》,他同时参与小托马斯·沃森项目,负责提供数据支持。“当涉及到机器学习、大规模并行计算、语义处理等领域,沃森了不起的地方在于把这些技术整合在一个体系架构下来理解人类的自然语言。”如果这些解释有点晦涩难懂的话,那么可以参看一下《危险边缘》的游戏规则,你便知道沃森的价值何在。《危险边缘》是哥伦比亚广播公司一档长盛不衰的电视问答节目,自1964年开始播出,最精彩的地方在于游戏里的问题包罗万象,几乎涵盖了人类文明的所有领域。它的规则是答对问题可以获得奖金,答错就会倒扣。对人类来说,规则很简单,但对沃森来说,则意味着众多挑战。首先沃森必须要听懂主持人的自然语言,这是深蓝不具备的;其次是沃森需要分析这些语言,比如哪些是反讽,哪些是双关,哪些是连词,随后根据关键字判断题目的意思,沃森进行相关搜索,并评估各种答案的可能性;最后选择三个可能性最高的答案,当其中一个可能性超过50%后,程序启动,沃森按下抢答器。这些得以实现靠的是90台IBM服务器、360个计算机芯片驱动以及IBM研发的DeepQA系统。IBM为小托马斯·沃森配置的处理器是Power 750系列处理器,这是当前RISC(精简指令集计算机)架构中最强的处理器—这些得以支持沃森最终得出可靠答案的时间不超过3秒钟。沃森主打的是小型机的并行运算。IBM在大型机上的地位很难撼动—在小沃森(创始人老沃森的儿子)执掌IBM时期,IBM投入约60亿美元,这笔超过当年美国航空航天局的研发经费,最终把日本的NEC与法国的克雷排挤出去,奠定了IBM在大型机市场的垄断地位。“在IBM的内部员工培训上流传着一句笑话,那便是在大型机领域,有97%的市场份额来自IBM,剩下的3%来自淘汰的IBM二手大型机。”IBM服务器销售部门前负责人告诉《第一财经周刊》。IBM试图把大型机上的优势带入到小型机领域。小托马斯·沃森主打的正是IBM的销售新星90台小型机的并行运算,“IBM小型机的运算速度是突出的,”上述IBM员工评价说,“因为它把大型机的CPU研发优势直接移植到小型机上来了。”IBM是为数不多的可以有能力独立开发小型机CPU的厂家,IBM还将这些技术出售给了除英特尔以外的芯片制造商。现在,在小型机市场上,IBM与HP的市场比例大致为2:1,另外一家小型机公司SUN则现在主要针对低端市场。此外,IBM的全球研发团队的某种模式也加大了小托马斯·沃森赢得比赛的可能。这些团队分工极为细致,比如以色列海法团队负责深度开放域问答系统工程的搜索过程,日本东京负责沃森在问答中将词意和词语连接,IBM中国研究院和上海分院则负责以不同的资源给沃森提供数据支持,还有专门研究算法的团队以及研究策略下注的博弈团队等。“我们就好像是每个不同的虚拟部队,每个人只做自己最擅长与熟悉的那部分。”潘越称。事实上这便是IBM的特色,它一直遵循工业时代的成功模式,比如这种制造企业更为擅长的流水线模式,并且通过给员工分级打分的奖惩制度,让它的各个团队都更有效率。这些研发天才开发的DeepQA系统保证了小托马斯·沃森可以具备崭新的人机交互模式,比如可以理解并分析自然语言,事实上,对自然语言的理解也一直是IBM研究机构在人工智能上的强项。这很像科幻电影里的桥段—为了隐秘的机器人开发计划,在全球招募天赋异秉的人士。所不同的是,IBM的意义显然更为实际。此前,基于深蓝研发的IBM AIX操作系统让IBM在商业运用与政府部门中取得了大量的订单,IBM也希望可以将沃森的DeepQA系统运用于医疗服务、咨询等领域之中。 “沃森的优势是给出准确与可靠的答案,因此可以为医生提供更适合病人的解决方案。”潘越称,“在医疗领域的应用将是小托马斯·沃森商用最主要的领域。”沃森项目如果想在医疗行业推行的话,还需要面临法律层面的问题,IBM一位研究员称,“如果沃森诊断出错,而医生又听从了错误的诊断,那么沃森就会面临被患者告上法庭的危险,这对IBM而言是一个正在考虑的应用问题。”对于IBM来说,沃森未来不仅要继续挑战人类智能的极限,还要帮助这家公司去同亚马逊谷歌微软们竞争,争夺未来科技制高点的主导权。

参考资料

1.中国存储网.2016-02-19

13年后,电脑再次完胜人脑.三湘都市报.2016-02-19

IBM:从“深蓝”到“沃森”.腾讯网.2016-02-19