马克斯普朗克研究院
重点新闻(0512~0518)
Google GAN 点追踪
Google用拖拉式介面让GAN更准确生成图片
Google联手马克斯普朗克研究院、MIT研究员,共同开发一款可精准生成图片的模型DragGAN,并打造一套互动式UI介面,来让使用者在画面中,点击想要修改的任意点和目标点,来驱动模型生成新图片。
团队指出,如何控制GAN精确地产出图片,一直是个难题,传统方法是透过手动标注的训练资料或3D模型,但这种作法缺乏弹性、精确性和通用性。於是,团队利用一种较少人探讨的方法,来强化对GAN生成品质的控制性,也就是用互动式介面,来拖拉图片中的任意点,准确地达到目标点。
为实现这个目标,团队开发出DragGAN,由2大部分组成,一是基於特徵的运动监督方法,来实现选定点至目标点位置的移动,另一是新式点追踪方法,利用GAN监别器特性来维持移动位置的在地化。总而言之,透过DragGAN,使用者可精确控制像素位置,来变形图片,来改变人类、动物、车辆、风景等图的姿势、形状、表情和布局。团队表示,经测试,DragGAN在图像处理和点追踪任务的表现都比现有方法更好,未来打算扩大纳入3D物件的影像生成。(详全文)
LLM 微软 Guidance
LLM不听话?微软发布提示工程专用的开发语言Guidance
ChatGPT掀起大型语言模型(LLM)大浪,各种LLM如雨後春笋般冒出,但这些大型语言模型需要精确又冗长的提示,才能准确生成使用者所需的答案。为了让LLM更受控,微软最近发表一款领域特定语言(DSL)Guidance,能让开发者「比用传统的提示方法或链结(Chaining)更有效率地控制大型语言模型。」
微软指出,Guidance程式可让使用者将生成、提示和逻辑控制等工作整合至一个连续流程,并对应到语言模型如何处理文字输入。一般来说,许多研究证明,引导LLM一步步推导答案的关联思考(Chain-of-Thought)方法及许多变体(如ART、Auto-CoT)能提高LLM的表现,这些方法都采用简单的输出结构,但对GPT-4这种进阶的LLM来说,就需要更丰富的结构,而Guidance可让这种结构更简单、更便宜。因为,一旦提示变得冗长、重复性高,就会耗费更多运算成本,而Guidance可解决这个问题。Guidance配有一个直观的编辑器,来简化程式码规则和定义语言模型功能的处理工作,它也允许使用者设置值验证和外部服务整合等步骤,提供高自定义功能。(详全文)
Codey 程式开发 自然语言
Google Colab也要整合Codey模型,提供AI程式开发功能
Google宣布要将生成式程式开发模型Codey,整合进云端协作开发环境Colab中,免费提供给开发者,来辅助编写程式码。Codey是大型语言模型PaLM 2的衍生程式码模型,主要功能有程式码生成和聊天机器人,换句话说,它能根据程式码上下文来提供下一行程式码的建议,或根据开发者的自然语言提示来生成程式码,开发者甚至也能和Codey对话,来得到除错、技术文件和程式码撰写的相关资讯。
将於Colab亮相的Codey,是Google针对Python和Colab用途所训练的轻量版模型,目前预计先向美国用户开放,且功能先聚焦於程式码生成,根据注释或开发者的提示,来撰写整个函式。 不只将Codey用於Colab,Google也在最新版的开发工具Android Studio Hedgehog中,加入Codey驱动的程式码开发助理Studio Bot,来提供类似GitHub Copilot的功能。(详全文)
福尔摩沙模型 离线部署 OpenLLaMA
第一款商用本土LLM模型亮相,支援地端部署让对话资料不出内网
华硕旗下子公司台智云以有商用授权的BLOOM为基础,打造出同样是1,760亿参数的大型语言模型福尔摩沙,号称与ChatGPT同等级,且中文训练资料占30%,比ChatGPT还要高许多,也具备大量台湾知识。
他们也将这款模型包装为4种企业级大型语言模型服务,包括AFS Platform、AFS Shuttle、AFS Cloud和AFS Appliance。前两者是大型语言模型优化(fine-tuning)服务,其中,企业有明确目标、知道要打造何种应用时,可选择AFS Platform,来用自己的资料优化所选模型,目前台智云提供的模型有BLOOM 176B、BLOOM 7B、福尔摩沙176B和7.1B版本,未来将纳入OpenLLaMA模型。AFS Shuttle则适合没有明确目标的企业,可用小量资料来进行POC验证,找出合适的应用情境。
AFS Cloud和AFS Appliance则属於部署和推论的服务。前者是云端托管服务,其中的模型是完整训练过的,可透过TWCC推论和API来供企业使用。而後者是私有云/地端部署服务,企业可下载大型模型到地端,在地端资料中心、私有云或搭配企业5G专网来执行LLM应用,特别适合有高机敏性资料的企业。(详全文)
Meta AI晶片 基础建设
Meta要自行研发AI加速晶片
Meta日前公开表示要自行研发客制化AI晶片,作为基础建设重塑工作中的一环。进一步来说,这个基础建设重整工作,涵盖了硬体和软体堆叠各层面,要打造专为AI设计的基础设施架构。而新架构就包含Meta的客制化AI晶片、AI资料中心设计和搭载1.6万颗GPU的AI超级电脑。其中一款晶片名为Meta训练和推论加速器(MTIA),要用来执行多种特定AI任务,加速AI模型的推论工作。除了AI晶片,Meta也计画打造一款晶片名为Meta可扩增影片处理器(MSVP)的晶片,用来处理或传送影片给使用者,并降低耗能。(详全文)
微软 Bing Chatt 程式码
微软强化手机版Bing Chat,要新添Widget、整合至更多App
微软5月初全面开放大众试用Bing Chat後,最近进一步宣布要强化手机版AI聊天机器人功能,包括整合Widget、支援语音输入和多语言,并提供跨平台对话等功能。首先,微软将替Bing Chat新增Widget,等於用户可把Bing Chat加入到iOS和Android手机主页上。此外,微软还将新添Bing Chat的语音输入功能,并支援跨平台对话,让用户可跨桌机、手机接续对话。微软也表示,目前已增加英文以外的国家及语音输入支援,但未透露支援几种语言。
除了Bing Chat应用程式更新,微软也计画将这个AI助理整合至手机版Edge和Skype App。在手机版Edge方面,Bing Chat可具备情境聊天功能,即读懂用户正在浏览什麽网页,并回答用户对网页内容的提问,也能进行重点摘要。此外,用户可选择部分网页文字,在跳出的选单中叫出Bing对话,要它执行任务。手机版Edge Bing Chat功能很快将推向全球。(详全文)
Alphabet 机器人 开发
Alphabet机器人公司Intrinsic推出机器人应用开发软体
Alphabet成立2年的机器人子公司Intrinsic,最近终於发布第一项产品,也就是机器人应用开发平台软体,来简化机器人程式开发工作。该产品名为Flowstate,是一个直觉化的Web开发环境,涵盖了从概念测试到部署机器人应用的所有流程。
它拥有图形化流程开发工具,使用行为树(behavioral tree)来简化复杂流程、加速开发。它也同时支援在云端或本地端的部署环境,方便程式在两种环境搬移,并提供模拟和验证程式的环境。Flowstate还能将特定领域知识以特定技能输出,方便未来重覆使用,像是姿态评估、操控、力觉感知插入(force-based insertion)、路径规画等。Flowstate目前为beta版,将先提供给小部分解决方案供应商,并开放开发人员申请试用、开发机器人应用程式。(详全文)
TensorFlow Keras 模型训练
Google更新TensorFlow机器学习工具,简化模型部署与训练
Google日前在I/O大会发表多项TensorFlow和Keras深度学习工具的更新,首先是可让开发者简单存取预训练模型的模组化函式库,也就是KerasCV与KerasNLP,开发者只要撰写几行程式码,就能在应用程式中整合图像分类或文字生成等功能。
其他更新还有可用於同步分散式模型运算的扩充套件DTensor,组合、微调了多种平行技术,来支援更大且高效能的模型训练。此外,DTensor也支援多种加速器,如TPU、GPU等各种运算装置。同时,Google也释出轻量级API JAX2TF,能让开发者在TensorFlow生态系中,使用JAX数值函式库编写的模型来加速机器学习研究生产化的速度。(详全文)
图片来源/普朗克研究院、微软、Google、Meta
摄影 / 王若朴
AI近期新闻
1. Nvidia联手ServiceNow要用生成式AI加速工作流程
2. SAP导入OpenAI的生成式AI来优化人才招募和员工学习作业
资料来源:iThome整理,2023年5月