Slack
重点新闻(0428~0504)
Slack Slack GPT 自动化
企业协作平台Slack推出Slack GPT平台,要让工作流程更自动化
企业常用的协作沟通平台Slack最近推出Slack GPT平台,要助使用者整合各种生成式AI,来实现工作流程自动化。Slack GPT有3大特点,首先,使用者可用它直接整合、自动执行自己选择的语言模型,不论是ChatGPT、Claude这类第三方App还是自建模型,都能在Slack GPT上整合使用。再来,Slack GPT提供一系列Slack内建AI功能,包括对话摘要和写作辅助,其中,对话摘要功能在使用者切换频道时,就会自动跳出。
此外,Slack GPT还提供一款新的Einstein GPT应用程式,可让使用者观看Salesforce Customer 360服务和资料云服务所分析的消费者洞察。Slack还透露,今年晚些时候,使用者还能将生成式AI,即时带入自己在Slack的自动化流程。也就是说,只要使用Slack的无程式码自动化工具Workflow Builder,使用者就能在自己的工作流程中,增添生成式AI指令功能,来让工作流程更自动化。(详全文)
YOLO NAS 物件侦测
最新物件侦测模型YOLO-NAS为何特别?开发者揭背後关键
YOLO系列模型一直是物件侦测的主流模型,最近又有新进展了。一家AI公司Deci日前发表即时物件侦测模型YOLO-NAS,宣称准确度和速度都比过往YOLO系列模型要好,胜过YOLOv6、YOLOv7和YOLOv8。进一步来说,YOLO-NAS的基础模型是由Deci自家神经架构搜寻器AutoNAC产生,这款神经架构搜寻器的特点在於,它可根据使用者需求,来快速生成兼具速度、准确度和高效能的自定义深度学习模型。Deci称,该工具不只能根据资料和硬体等参数来寻找最佳架构,还能根据其他模型推理栈(如编译器和量化)来寻找,在准确度与模型推论速度间取得平衡。
YOLO-NAS采用COCO、Objects365和Roboflow 100等资料集进行预训练,可良好执行各种下游任务。在Nvidia T4 GPU的条件下与其他SOTA模型相比,YOLO-NAS的吞吐量提高了50%,平均精度均值则提高1 mAP。目前,Deci已开源YOLO-NAS模型和预训练权重,其预训练权重可在Deci的PyTorch函式库SuperGradients使用。
不过,Deci共同创办人Ran El-Yaniv指出,AutoNAC虽生成目前最好的YOLO模型,但他们知道,目前不会有一体适用的模型。因为,用相同的现成模型,在边缘装置上进行即时串流影片分析,并用云端GPU来侦测物件,模型表现并不好。关键在於神经架构的设计,得兼顾影像解析度、物件大小、硬体属性(如平行化能力、运算效率和记忆体缓存大小等),这是AutoNAC尝试克服的挑战。(详全文)
LLaMA OpenLLaMA 大型语言模型
Meta的LLaMA很厉害但不开源,加州大学伯克莱分校不只复刻还开源了
加州大学伯克莱分校近日释出一个大型语言模型OpenLLaMA预览版,具70亿参数,号称是Meta的LLaMA复刻版。因为,团队参照了LLaMA论文,采用相同的模型前处理和训练方法,举凡模型架构、文章长度、训练步骤、超参数训练方式、学习率排程和优化器等都与LLaMA相同,唯有资料集不同。
进一步来说,他们采用的资料集是RedPajama资料集,该资料集也是仿LLaMA的训练资料而建置,共有1.2兆多个Token。而目前释出的7B OpenLLaMA模型,是采用资料集中2千亿个Token训练而成。为训练模型,团队也开发一套Jax训练/微调流程EasyLM,并用云端TPU-v4s来训练OpenLLaMA。
之後,团队用语言模型评估工具lm-evaluation-harness来测试LLaMA、OpenLLaMA和GPT-J的表现。他们发现,OpenLLaMA的分数与LLaMA和GPT-J相当,甚至在某些任务上优於两者。目前,开发者可在Huggingface社群中,找到Python和Jax版本的OpenLLaMA预训练模型权重。同时,团队也正训练另外两种OpenLLaMA模型,包括30亿参数、较小型的模型,以及要用整个RedPajama资料集(含1.2兆Token)来训练的大型模型版本,未来将释出这两种模型。(详全文)
Gogolook GPT-3.5 金融客服
Gogolook用生成式AI打造金融客服机器人Roo AI
Gogolook主打金融谘询服务,开发袋鼠金融平台来协助民众辨识网路上各种金融商品资讯,最近还推出GPT-3.5加持的AI智能问答服务Roo AI,回答内容更贴近台湾消费者金融知识,还能从用户提问内容中,找出可能导致用户受骗的资讯,并提醒用户。
首先,团队选用GPT-3.5作为回答生成模型。接着,为避免GPT模型给错答案,团队自建资料库来训练一套LLM模型,用了400万字的金融文章和200多项金融商品的资料,来确保生成内容符合台湾消费者金融需求。同时,Gogolook也用微调和嵌入2种方法来完善Roo AI问答模型,也就是说,在流程上,使用者输入问题後,会先透过团队自建的嵌入式上下文分析器,来比对搜寻自建的金融知识资料库,找出匹配的文本内容,再连同提问文字转为向量,将这些资讯输入GPT模型,提高正确性。而模型产出的结果会搭配参考资讯,回传给使用者。
不只如此,团队也用BERT的NLU语言模型,来处理断词、关键字,甚至是预先过滤提问中可能包含的不当或非法词汇,并在後续回覆加注警示。目前,使用者向Roo AI提问时,平均需等待30秒到1分钟左右,但该服务为beta版,有使用次数限制,团队未来将透过用户回馈持续调校优化LLM模型。(详全文)
语音助理 生成式AI 苹果
Amazon和苹果都要用LLM强化语音助理
在Google、微软掀起大型语言模型(LLM)和聊天机器人服务竞争的同时,Amazon和苹果也要开发LLM来改善各自的语音助理。Amazon执行长Andy Jassy日前表示,Amazon将用LLM来改良Alexa,在既有底层模型上,再开发规模、能力和通用性都还要大的模型。
同时,苹果也传有LLM改良Siri的计画。《纽约时报》指出,苹果近日举行生成式AI、LLM相关的内部活动,特别是给Siri开发部门,且苹果员工也正测试一些语言生成概念技术。《9to5Mac》则报导一个可能是苹果Siri的初期LLM计画,在近日释出的tvOS 16.4中,包含一个名为Siri Natural Language Generation的软体框架,显示苹果可能用LLM来在Apple TV上执行对话力更强的Siri。(详全文)
脑机介面 文字 GPT
非侵入性脑机介面成功将大脑活动转为文字
德克萨斯大学奥斯汀分校整合语言模型和功能性磁振造影(fMRI)技术,开发出一套系统,可将大脑活动转为文字叙述,证明了非侵入性脑机介面的可行性。由於大脑每秒处理超过2个单字,现行fMRI还难以跟上大脑速度、连续解码语言讯号,因此,团队研发出一种能猜测候选单字序列的解码器,可根据脑反应来评估每个候选序列的可能性,最终选出最佳序列,来处理连续解码工作。
为将单字序列与受试者的脑反应相比较,团队还训练一个编码模型,来预测受试者大脑对自然语言短语的反应。测试时,每位受试者穿戴fMRI扫瞄器,听16个小时的Podcast,研究团队也用解码器和语言模型GPT,来将受试者的大脑活动转换成有意义的文字内容。虽然目前这项研究还在很初期的阶段,但解码器已能针对部分大脑刺激,正确解析出特定单词,并生成意思相近的语句。(详全文)
微软 网页设计 生成式AI
微软网页设计工具和视觉设计工具再添生成式AI功能
继在Office、Power System、Dynamic 365等产品加入AI助理Copilot後,微软日前又在另一款协作产品SharePoint中加入Copilot新功能。SharePoint是一款能让使用者设计网站和共享资讯的平台,最近整合大型语言模型GPT和Microsoft Graph中的资料,使用者可在SharePoint对话框中,用文字描述网站或网页,比如「建立一个给新任产品经理使用的员工介绍页、外加公司logo和员工导览」,它就能产生一个网页原型,用户可再一边与AI助理对话,一边调整要的动线或外观。Copilot也可将现有文件转变成SharePoint网页,例如将一份无人机产品规格文件变成介绍网页,并抓出其中特色成为网页标题。
此外,微软视觉设计工具Designer也加入新AI功能,还整合到浏览器Edge的侧边栏工具中,并开放全面免费测试。微软去年10月开始将OpenAI的文字转图像模型DALL-E整合到自家视觉设计工具Designer,来协助使用者设计社群平台贴文、邀请函、电子贺卡等。现在,使用者只需输入一个词语,Designer的DALL-E模型就能生成数个配合贴文的图片、小标或hashtag建议,来供选择。
其次,Designer也加入自订和调整原有设计画布大小的功能,并新增动态视觉元素,如动态背景、表情符号及具转场效果的文字。微软预告,未来Designer还会加入新AI功能,像是以物件填满某个圈起的部位、扩大背景填满图片、从图片中涂抹掉某个物件,并生成其他图片取代、以及变更背景等。(详全文)
图片来源/Slack、Deci、Gogolook、德克萨斯大学奥斯汀分校、微软
AI近期新闻
1. 美国联邦交易委员会主席呼吁规范生成式AI
2. 微软Bing Chat全面开放试用,强化图表搜寻、自动化和外挂支援
3. 吴恩达联手OpenAI开设免费的ChatGPT Prompt Engineering课程
资料来源:iThome整理,2023年5月