通义千问
“通义千问”(英文名:Tongyi Qianwen)是阿里云自主研发的大语言模型,能够在用户自然语言输入的基础上,通过自然语言理解和语义分析,在不同领域、任务内为用户提供服务和帮助。该模型可以实现创作文字、编写代码、语言翻译、扮演角色进行对话等功能。
2023年4月7日,阿里云宣布“通义千问”开始邀请测试。2023年4月11日,“通义千问”在阿里云峰会上正式发布,在会上阿里云智能集团CEO张勇宣布阿里巴巴集团所有产品未来将接入“通义千问”大模型。2023年9月13日,通义千问大模型首批通过备案,正式向公众开放。2023年10月31日,阿里云在2023云栖大会上正式升级发布通义千问2.0,模型参数达到了千亿级别。2024年6月7日,阿里通义千问Qwen2 大模型发布,并在 Hugging Face和 ModelScope上同步开源。
基于通义大模型,阿里云还针对不同行业领域开发了通义灵码、通义智文、通义听悟、通义星尘、通义点金、通义晓蜜、通义仁心、通义法睿8个行业应用模型。
发展历程
2019年起,阿里巴巴集团即开始进行大模型研究。2023年4月7日,阿里云宣布“通义千问”开始邀请测试,此次测试主要面向企业用户。
2023年4月11日,在阿里云峰会上,阿里云智能CTO周靖人正式发布了阿里“通义千问”大模型,发布会现场,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇还宣布,阿里巴巴所有产品都将接入“通义千问”大模型进行全面改造,包括天猫、钉钉、高德地图、淘宝、优酷、盒马鲜生等。
2023年4月18日,通义千问大模型面世一周后,钉钉总裁叶军宣布钉钉正式接入通义千问大模型,并现场演示接入通义千问大模型后,通过输入“/”可以在钉钉唤起10余项AI能力,包括使用AI生成推广文案、使用绘图方式创建应用、在视频会议中生成摘要等。
2023年4月27日,在第六届数字中国建设峰会上,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇透露,阿里云工程师正在实验将通义千问大模型接入工业机器人,接入后用户只需在钉钉对话框输入一句人类语言,即可远程指挥机器人工作。
2023年8月3日,通义千问宣布旗下70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat上架魔搭,并且两款模型均开源、免费、可商用。支持用户在消费级显卡上部署和运行模型。用户既可从魔搭社区下载模型到本地部署,也可以在魔搭上一键拉起阿里云机器学习平台PAI,在云端对模型进行微调、部署和推理。
之后通义千问不断推进模型的开源进展:2023年8月25日,通义千问推出并开源大规模视觉语言模型Qwen-VL及其视觉AI助手Qwen-VL-Chat;2023年9月25日,通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat宣布开源;2023年12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源、18亿参数模型Qwen-1.8B及音频大模型Qwen-Audio。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现了“全尺寸、全模态”开源,累计下载量超过150万,催生出150多款新模型、新应用。
2023年9月13日,通义千问大模型首批通过备案,正式向公众开放。用户可登录通义千问官网体验,企业用户可以通过阿里云调用通义千问API,同时,阿里旗下的网络零售平台淘宝也上线了内测应用“淘宝问问”接入通义千问。
2023年10月31日,阿里云在2023云栖大会上正式升级发布通义千问2.0,模型参数达到了千亿级别,通义千问APP也在各大手机应用市场正式上线。同时,基于通义大模型训练的8大行业模型组团上线,他们分别是通义灵码、通义智文、通义听悟、通义星尘、通义点金、通义晓蜜、通义仁心、通义法睿。
2023年11月7日,阿里云旗下通义千问App上架苹果公司App Store,安装包大小为25.9MB,此前通义千问2.0发布时这款App已同步在各大安卓应用市场上架。
2023年11月16日,阿里巴巴集团发布截至9月30日的2024财年二季度财报,财报显示截至9月30日,钉钉17条产品线已经全面接入大模型,还面向客户及生态体系合作伙伴开放其智能化底座AI PaaS,以助生态体系参与者重塑其产品。
2024年5月21日,阿里云宣布通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%。6月7日,阿里通义千问Qwen2 大模型发布,并在 Hugging Face和 ModelScope上同步开源。Qwen2 系列涵盖5个尺寸的预训练和指令微调模型,其中包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B,上下文长度支持进一步扩展,最高达128K tokens。6月19日, OpenCompass发布了首个大模型高考全卷评测结果,阿里通义千问2-72B排名第一,为303分(语数外三科加起来的满分为420分)。12月31日,阿里云对外宣布开启2024年度第三轮大模型降价。通义千问Qwen-VL-Plus直降81%,输入价格为0.0015元/千tokens;而更高性能的Qwen-VL-Max则降至0.003元/千tokens,降幅也达到85%。
产品功能
主要功能
AI对话是通义千问的主要功能,基于通义大模型,通义千问能够在用户自然语言输入的基础上,通过自然语言理解和语义分析,在不同领域、任务内为用户提供服务和帮助。与其他大语言模型相同,通义千问具有10项基础能力,包括语义理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演。
通义千问2.0版本支持文本回答、图片理解、文档解析三种模式,除了以文字的形式与AI交流外,用户还可以在网页端上传图片和文档并询问与之相关的问题。
特色功能
百宝袋
通义千问预先向用户提供的针对不同场景小应用的集合,用户可以通过此功能快速上手通义千问,百宝袋的功能被分为以下4种类型:
AI语音对话
通义千问App特有的功能,用户可以直接通过语音向AI进行提问,AI也会同样使用语音进行回答,并且可以随时开始新的话题,用户还可以给AI语音设置温柔、幽默、严谨、亲切四种音色。
模型训练
数据
截至2023年9月,通义千问模型预训练数据共有3万亿tokens的数据,主要涉及公共网络文档、百科全书、书籍、代码等,数据涉及多语言,但以中文和英文为主。为了保证数据质量,开发团队为数据制定了一套全面的预处理程序:
分词器
词表大小影响者模型的训练效率和下游任务效果,Qwen采用开源快速BPE分词器tiktoken,以cl100k为基础词库。此外开发团队为了提高模型在多语言下游任务(特别是中文)上的性能增加了常用的中文字词以及其他语言的词汇来扩充词汇量,并把数字字符串拆成单个数字,最终词表大小为152K。
开发团队还公布了与其他模型在不同语言压缩率上的对比,如下图所示,Qwen相比LLaMA-7B、Baichuan-7B、ChatGLM-6B、InternLM-7B模型在绝大多数语言上实现了更高的压缩效率,这可以降低模型服务成本。
模型
架构
通义千问模型基于Transformer框架,采用了开源大语言模型训练方法LLaMA,开发团队则对架构主要做了以下修改:
外推能力扩展
Transformer模型的注意力机制在上下文长度上有很大的限制,即随着上下文长度的增加,二层复杂度计算会使模型的计算成本和内存成倍增加。千问模型利用了简单的免训练技术,在推理过程中扩展上下文长度,这些技术包括:
训练
千问模型的训练遵循自回归语言建模的标准方法,即模型通过前面Token的内容预测下一个Token,其他训练细节包括:模型训练的最大长度为2048,为了构建批次数据,开发团队对文本内容进行随机打乱及合并,再将其截断到指定长度;模型在注意力模块(attention modules)采用Flash Attention技术,以提高训练速度;模型在优化器(optimizer)方面采用标准优化器AdamW,设置超参数β1、β2和ϵ为别为0.9、0.95和10−8;模型采用余弦学习率计划,为每个模型大小指定一个指定的峰值学习率,学习率衰减至最小学习率峰值学习率的10%;采用BFloat16进行混合精度训练以保证训练稳定性。
通义家族系列产品
通义听悟
2023年6月1日,阿里云峰会·粤港澳大湾区在广州市举行。阿里云在会上宣布了通义大模型新进展,聚焦音视频的AI新品“通义听悟”上线,成为中国首个开放公测的大模型应用产品。“通义听悟”接入了通义千问大模型的理解与摘要能力,可成为用户工作学习中的得力AI助手,帮助随时随地高效完成对音视频内容的转写、检索、摘要和整理。
通义灵码
通义灵码是一款基于阿里云通义代码大模型打造的智能编码助手,基于海量优秀开源代码数据集和编程教科书训练,可根据当前代码文件及跨文件的上下文,自动生成行级/函数级代码、单元测试、代码注释等,此外还具备代码解释、智能研发问答、异常报错排查等能力,并针对阿里云SDK/OpenAPI使用场景调优,为开发者带来高效、流畅的编码体验。
通义星尘
通义星尘是一款个性化角色创作平台,其基于大规模高质量个性化对话数据,采用分阶段的个性化训练策略,使得模型在保持通用能力的基础上,延伸出拟人、具有情感、鲜明语言风格的能力,在角色的个性、风格遵循上具有更强的指令遵循能力。和通用模型比,通义星尘可以深度定义人设、和用户建立起深度连接、支持多种形式的对话互动,并且可以基于具体的事件设定展开对话。可应用于情感陪伴、游戏NPC、IP复刻等场景。
通义晓蜜
通义晓蜜是阿里云推出的一个智能客服机器人。包括智能对话平台、全渠道联络中心、智能坐席助理等功能,它具备自然语言处理和机器学习的能力,可以与用户进行智能对话,并提供各种信息和服务。包括智能问答、自动回复、多轮对话、情感分析,理解用户的问题,并提供相应的答案和解决方案,提高客户服务的效率和响应速度。
通义点金
通义点金是大模型驱动的智能金融助手,可以帮助用户深度解读财报研报,分析金融事件,自动绘制图表表格,实时市场数据分析,助力用户对话金融世界。包括智能投研机器人、文档分析机器人、金融信息搜索引擎、智能资讯机器人等功能。
通义法睿
通义法睿是基于通义大模型的AI法律顾问,提供法律智能对话、法律文书生成、法律知识检索、法律文本阅读等功能。
通义仁心
通义仁心是阿里云推出的一款专注于医疗领域的人工智能产品。它结合了阿里云的技术和医疗行业的专业知识,旨在解答用户对疾病、症状、药品、报告指标等医疗健康方面的问题。
通义智文
通义智文是基于通义大模型的AI阅读助手,支持网页阅读、论文阅读、图书阅读和自由阅读,辅助用户读得多、读得快、读得懂。
相关合作
2023年4月,无锡政务服务和城市服务的移动端总入口“灵锡”APP成功接入“通义千问”并进入全面测试阶段。
2023年4月26日,在2023阿里云合作伙伴大会上,阿里云正式发布“通义千问合作伙伴计划”,以推动大模型在不同行业的应用,昆仑数智、朗新科技集团股份有限公司、千方科技、中金财富、石基集团、用友网络、亚信科技等七家行业数字化服务商成为首批伙伴。
2023年5月19日,北京市经信局联合市科委中关村管委会、市发改委共同启动“北京市通用人工智能产业创新伙伴计划”。阿里巴巴集团云和通义大模型成为第一批算力伙伴和模型伙伴。
2023年6月27日,阿里云智能集团董事长兼首席执行官张勇出席山东曲阜的“世界互联网大会数字文明尼山对话”,他在此次会议上提到阿里云“通义千问”大模型在今年4月开放对外测试,目前已有超过20万企业申请接入,几近涵盖所有新兴和传统行业。他续说,阿里云亦启动“千问伙伴计划”,与行业伙伴共建创新生态,已经覆盖油气、电力、交通、金融、酒旅、企服、通信等行业,未来将打造更多企业专属模型,推动各行各业更快更好地分享智能化红利。
2023年7月14日,巨人网络与阿里云宣布达成“游戏+AI”全面合作,在上海正式签署合作备忘录。阿里云与巨人网络计划共建“游戏+AI”智算平台,基于巨人网络的游戏研发平台、阿里云通义千问大模型以及AIGC产品能力,双方开展全面合作,打造AI在游戏领域的场景落地标杆项目。巨人网络与阿里云计划在云游戏、云计算、网络和安全、AR/VR、游戏出海等领域展开全方面合作。
相关评价
2023年7月,IDC最新的AI大模型评估报告显示,通义千问在全部11项测试中获得通用能力、创新能力、服务能力、平台能力、生态合作等6项满分。
2023年8月15日,新华社研究院发布了《人工智能大模型体验报告2.0》,对中国主流大模型进行使用体验的横向测评。该榜单用500道题目评测了中国8款主流AI大模型的基础能力、智商能力、情商能力、工具提效表现,最终讯飞星火以总分1014分的成绩排名第一,阿里通义千问则以总分935分排在倒数第二。
2023年12月,全球最大的开源大模型社区HuggingFace和中国权威大模型评测平台OpenCompass分别公布了开源大模型排行榜,阿里云通义千问(Qwen-72B)以73.6和67.1的综合得分在两个排行榜上同时登顶榜首。
相关事件
AI高考全卷评测排名第一
2024年6月19日, 上海人工智能实验室旗下司南评测体系OpenCompass发布了首个大模型高考全卷评测结果。此次评测,OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。
参考资料
如何快速开始通义千问.阿里云.2023-12-10
Tongyi Qianwen 2.0. Alibaba Cloud.2023-12-11
主页.通义.2023-12-10
阿里云大模型“通义千问”开始邀请测试.界面新闻.2023-12-10
阿里所有产品都将接入“通义千问”,平台将开放第三方大模型接入.澎湃新闻.2023-12-10
2023云栖大会顺利闭幕,亮点一览.央广网.2023-12-10
阿里通义千问Qwen2大模型发布并同步开源.今日头条.2024-06-07
通义星尘、通义灵码、镇岳510……一文了解云栖重大发布!.微信公众平台.2023-12-11
重磅!阿里巴巴所有产品未来将接入大模型全面升级.微信公众平台.2023-12-10
钉钉接入千问大模型,未来将全面智能化!.微信公众平台.2023-12-10
阿里云正在实验将千问大模型接入工业机器人.界面新闻.2023-12-10
阿里云通义千问,开源!.微信公众平台.2023-12-10
阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区.中国新闻网.2023-12-10
720亿参数模型开源 通义千问已实现“全尺寸、全模态”开源 .新华网.2023-12-10
阿里云开源通义千问14B模型.中国科技网.2023-12-10
通义千问大模型 App iOS 版上线:支持创意文案、趣味问答等功能.IT之家.2023-12-10
通义千问 17+.App Store.2023-12-10
阿里巴巴集团公布2023年9月份季度业绩.阿里巴巴.2023-12-10
重磅!通义千问GPT-4级主力模型降价97%,1块钱200万tokens.https://tech.cnr.cn/.2024-05-22
首个AI高考全卷评测结果发布:最高分303,数学全不及格.今日头条.2024-06-20
降幅80%!阿里云宣布通义视觉理解模型全线降价.今日头条.2025-01-01
阿里版类ChatGPT上线,“通义千问”启动邀测.京报网.2023-12-18
SuperCLUE-Open:中文通用大模型多轮开放问题测评基准.Cluebenchmarks.2023-12-18
通义千问.通义.2023-12-11
QWEN TECHNICAL REPORT.aliyuncs.2023-12-18
通义听悟.通义.2023-12-11
阿里云AI新品“通义听悟”,开放公测!.微信公众平台.2023-12-10
在云上,看见大模型的未来.微信公众平台.2023-12-11
通义点金.通义.2023-12-11
通义法睿.通义.2023-12-11
通义仁心.通义.2023-12-11
什么是通义智文?AI阅读助手,用AI帮你读得多、读得快、读得懂.阿里云.2023-12-11
通义智文-更懂你的AI阅读助手.通义.2023-12-11
灵锡牵手阿里“通义千问”,赋能城市数字化转型.无锡市人民政府国资委.2023-12-07
阿里云发布通义千问合作伙伴计划 用友网络、亚信科技等七家企业成为首批伙伴.新浪财经.2023-12-07
阿里云和通义大模型,成为北京市首批算力伙伴和模型伙伴!.微信公众平台.2023-12-10
阿里“通义千问”获20万企申接入.大公网.2023-12-07
巨人网络与阿里云达成“游戏+AI”全面合作.新华网.2023-12-07
阿里云通义千问向全社会开放,近期将开源更大参数规模大模型.阳光网科技.2023-12-07
人工智能大模型体验报告2.0.人社信息网.2023-12-11
通义千问,榜首!.微信公众平台.2023-12-18