AI趋势周报第216期：Google用拖拉式介面让GAN更准确生成图片

马克斯普朗克研究院

重点新闻(0512～0518)

Google GAN 点追踪

Google用拖拉式介面让GAN更准确生成图片

Google联手马克斯普朗克研究院、MIT研究员，共同开发一款可精准生成图片的模型DragGAN，并打造一套互动式UI介面，来让使用者在画面中，点击想要修改的任意点和目标点，来驱动模型生成新图片。

团队指出，如何控制GAN精确地产出图片，一直是个难题，传统方法是透过手动标注的训练资料或3D模型，但这种作法缺乏弹性、精确性和通用性。於是，团队利用一种较少人探讨的方法，来强化对GAN生成品质的控制性，也就是用互动式介面，来拖拉图片中的任意点，准确地达到目标点。

为实现这个目标，团队开发出DragGAN，由2大部分组成，一是基於特徵的运动监督方法，来实现选定点至目标点位置的移动，另一是新式点追踪方法，利用GAN监别器特性来维持移动位置的在地化。总而言之，透过DragGAN，使用者可精确控制像素位置，来变形图片，来改变人类、动物、车辆、风景等图的姿势、形状、表情和布局。团队表示，经测试，DragGAN在图像处理和点追踪任务的表现都比现有方法更好，未来打算扩大纳入3D物件的影像生成。（详全文）

LLM 微软 Guidance

LLM不听话？微软发布提示工程专用的开发语言Guidance

ChatGPT掀起大型语言模型（LLM）大浪，各种LLM如雨後春笋般冒出，但这些大型语言模型需要精确又冗长的提示，才能准确生成使用者所需的答案。为了让LLM更受控，微软最近发表一款领域特定语言（DSL）Guidance，能让开发者「比用传统的提示方法或链结（Chaining）更有效率地控制大型语言模型。」

微软指出，Guidance程式可让使用者将生成、提示和逻辑控制等工作整合至一个连续流程，并对应到语言模型如何处理文字输入。一般来说，许多研究证明，引导LLM一步步推导答案的关联思考（Chain-of-Thought）方法及许多变体（如ART、Auto-CoT）能提高LLM的表现，这些方法都采用简单的输出结构，但对GPT-4这种进阶的LLM来说，就需要更丰富的结构，而Guidance可让这种结构更简单、更便宜。因为，一旦提示变得冗长、重复性高，就会耗费更多运算成本，而Guidance可解决这个问题。Guidance配有一个直观的编辑器，来简化程式码规则和定义语言模型功能的处理工作，它也允许使用者设置值验证和外部服务整合等步骤，提供高自定义功能。（详全文）

Codey 程式开发自然语言

Google Colab也要整合Codey模型，提供AI程式开发功能

Google宣布要将生成式程式开发模型Codey，整合进云端协作开发环境Colab中，免费提供给开发者，来辅助编写程式码。Codey是大型语言模型PaLM 2的衍生程式码模型，主要功能有程式码生成和聊天机器人，换句话说，它能根据程式码上下文来提供下一行程式码的建议，或根据开发者的自然语言提示来生成程式码，开发者甚至也能和Codey对话，来得到除错、技术文件和程式码撰写的相关资讯。

将於Colab亮相的Codey，是Google针对Python和Colab用途所训练的轻量版模型，目前预计先向美国用户开放，且功能先聚焦於程式码生成，根据注释或开发者的提示，来撰写整个函式。不只将Codey用於Colab，Google也在最新版的开发工具Android Studio Hedgehog中，加入Codey驱动的程式码开发助理Studio Bot，来提供类似GitHub Copilot的功能。（详全文）

福尔摩沙模型离线部署 OpenLLaMA

第一款商用本土LLM模型亮相，支援地端部署让对话资料不出内网

华硕旗下子公司台智云以有商用授权的BLOOM为基础，打造出同样是1,760亿参数的大型语言模型福尔摩沙，号称与ChatGPT同等级，且中文训练资料占30%，比ChatGPT还要高许多，也具备大量台湾知识。

他们也将这款模型包装为4种企业级大型语言模型服务，包括AFS Platform、AFS Shuttle、AFS Cloud和AFS Appliance。前两者是大型语言模型优化（fine-tuning）服务，其中，企业有明确目标、知道要打造何种应用时，可选择AFS Platform，来用自己的资料优化所选模型，目前台智云提供的模型有BLOOM 176B、BLOOM 7B、福尔摩沙176B和7.1B版本，未来将纳入OpenLLaMA模型。AFS Shuttle则适合没有明确目标的企业，可用小量资料来进行POC验证，找出合适的应用情境。

AFS Cloud和AFS Appliance则属於部署和推论的服务。前者是云端托管服务，其中的模型是完整训练过的，可透过TWCC推论和API来供企业使用。而後者是私有云／地端部署服务，企业可下载大型模型到地端，在地端资料中心、私有云或搭配企业5G专网来执行LLM应用，特别适合有高机敏性资料的企业。（详全文）

Meta AI晶片基础建设

Meta要自行研发AI加速晶片

Meta日前公开表示要自行研发客制化AI晶片，作为基础建设重塑工作中的一环。进一步来说，这个基础建设重整工作，涵盖了硬体和软体堆叠各层面，要打造专为AI设计的基础设施架构。而新架构就包含Meta的客制化AI晶片、AI资料中心设计和搭载1.6万颗GPU的AI超级电脑。其中一款晶片名为Meta训练和推论加速器（MTIA），要用来执行多种特定AI任务，加速AI模型的推论工作。除了AI晶片，Meta也计画打造一款晶片名为Meta可扩增影片处理器（MSVP）的晶片，用来处理或传送影片给使用者，并降低耗能。（详全文）

微软 Bing Chatt 程式码

微软强化手机版Bing Chat，要新添Widget、整合至更多App

微软5月初全面开放大众试用Bing Chat後，最近进一步宣布要强化手机版AI聊天机器人功能，包括整合Widget、支援语音输入和多语言，并提供跨平台对话等功能。首先，微软将替Bing Chat新增Widget，等於用户可把Bing Chat加入到iOS和Android手机主页上。此外，微软还将新添Bing Chat的语音输入功能，并支援跨平台对话，让用户可跨桌机、手机接续对话。微软也表示，目前已增加英文以外的国家及语音输入支援，但未透露支援几种语言。

除了Bing Chat应用程式更新，微软也计画将这个AI助理整合至手机版Edge和Skype App。在手机版Edge方面，Bing Chat可具备情境聊天功能，即读懂用户正在浏览什麽网页，并回答用户对网页内容的提问，也能进行重点摘要。此外，用户可选择部分网页文字，在跳出的选单中叫出Bing对话，要它执行任务。手机版Edge Bing Chat功能很快将推向全球。（详全文）

Alphabet 机器人开发

Alphabet机器人公司Intrinsic推出机器人应用开发软体

Alphabet成立2年的机器人子公司Intrinsic，最近终於发布第一项产品，也就是机器人应用开发平台软体，来简化机器人程式开发工作。该产品名为Flowstate，是一个直觉化的Web开发环境，涵盖了从概念测试到部署机器人应用的所有流程。

它拥有图形化流程开发工具，使用行为树（behavioral tree）来简化复杂流程、加速开发。它也同时支援在云端或本地端的部署环境，方便程式在两种环境搬移，并提供模拟和验证程式的环境。Flowstate还能将特定领域知识以特定技能输出，方便未来重覆使用，像是姿态评估、操控、力觉感知插入（force-based insertion）、路径规画等。Flowstate目前为beta版，将先提供给小部分解决方案供应商，并开放开发人员申请试用、开发机器人应用程式。（详全文）

TensorFlow Keras 模型训练

Google更新TensorFlow机器学习工具，简化模型部署与训练

Google日前在I/O大会发表多项TensorFlow和Keras深度学习工具的更新，首先是可让开发者简单存取预训练模型的模组化函式库，也就是KerasCV与KerasNLP，开发者只要撰写几行程式码，就能在应用程式中整合图像分类或文字生成等功能。

其他更新还有可用於同步分散式模型运算的扩充套件DTensor，组合、微调了多种平行技术，来支援更大且高效能的模型训练。此外，DTensor也支援多种加速器，如TPU、GPU等各种运算装置。同时，Google也释出轻量级API JAX2TF，能让开发者在TensorFlow生态系中，使用JAX数值函式库编写的模型来加速机器学习研究生产化的速度。（详全文）

图片来源／普朗克研究院、微软、Google、Meta

摄影 / 王若朴

AI近期新闻

1. Nvidia联手ServiceNow要用生成式AI加速工作流程

2. SAP导入OpenAI的生成式AI来优化人才招募和员工学习作业

资料来源：iThome整理，2023年5月

Related Posts