AI趋势周报第238期: 突破LLM扩展法则?MosaicML揭新研究成果

MosaicML研究发现,用更长的时间和更多资料训练小参数模型,可突破LLM扩展法则;摩根大通发表懂图文的轻量级多模态模型DocLLM;研究员开源28亿参数多模态小模型TinyGPT-V;金管会发布金融业运用AI指引草案;苹果公布多模态AI模型Ferret

MosaicML

重点新闻(1229~0104)

LLM     Chinchilla     扩展法则  

突破LLM扩展法则?MosaicML揭新研究成果

一般来说,LLM扩展法则都是以模型参数量和训练资料量,来估算模型品质的变化,就连热门的DeepMind Chinchilla(龙猫)优化方法也是。换句话说,这个法则是指,模型的训练Token数和参数越多,模型表现理应越好。

但MosaicML团队认为,这些公式忽略了模型推论成本。因此,他们修改了DeepMind的Chinchilla扩展法则,来根据目标,即理想的模型品质和运算成本需求,计算出最佳的LLM参数量与训练资料集大小。他们的公式建议,可使用更少参数的模型,但以比Chinchilla优化方法更长的训练时间,来训练模型,一样可实现高品质模型。

这项研究也实验发现,Chinchilla模型在高推论需求下,可用更少的参数和更多资料,来进行优化训练,还能大幅降低总运算成本,从70亿参数、130亿参数和700亿参数的模型版本都是。该研究也讨论了TinyLlama,这是一个11亿参数的轻量版模型,使用了3兆个Token训练而成,MosaicML表示,这是突破Chinchilla扩展法则的另一例,特别是当推论需求越接近训练资料大小时,这股趋势越明显。不过,团队也表示,他们的公式还需要进一步验证适用性,特别是在预训练Token数明显超过模型参数的情形下。(详全文)

  摩根大通     DocLLM     多模态  

摩根大通发表懂图文的轻量级多模态模型DocLLM

日前,摩根大通发JPMorgan表自行研发的多模态轻量级语言模型DocLLM,可用来分析企业文件,如发票、收据、合约、表格和报告等。进一步来说,DocLLM使用OCR得到的边界框,来添加空间位置资讯,因此不必使用复杂的视觉编码器,减少处理时间。这麽做,几乎不增加模型大小,也保留了因果解码器的架构。

团队表示,他们的方法将空间资讯与文字资讯分离,能将典型的Transformer自我注意力机制扩展,来捕捉跨模态的互动资讯。由於文件中常出现碎片化的文字区块和复杂版型,为解决辨识问题,团队还在自监督预训练阶段,改变预训练目标,利用填充方式来适应各种文字排版和区块,模型也能更有效处理混合型或文字不对齐的文件。经测试,DocLLM在16个资料集中的14个,表现比同类模型要好,如Llama 2加上OCR。目前,摩根大通尚未释出任何DocLLM程式码或资料集,仅发表论文。(详全文)

  TinyGPT-V    多模态      Phi-2  

研究员开源28亿参数多模态小模型TinyGPT-V

最近,来自美国理海大学、新加坡南洋理工大学和中国安徽大学的研究者共同发表一款28亿参数的多模态模型TinyGPT-V,号称表现比与70亿参数和130亿参数版本的Flamingo、MiniGPT-4和其他多模态大型语言模型(MLLM)还要好,所需运算成本也更低。

TinyGPT-V以微软的小型语言模型Phi-2为骨干,并整合了BLIP-2或CLIP这类的预训练视觉模组,只需要24GB的GPU进行训练、用8GB的GPU或CPU就能进行推论。经测试,TinyGPT-V在视觉空间推理(VSR)零样本任务的表现优异,比其他大参数型的同类模型表现要好。此外,研究团队表示,TinyGPT-V因采用特殊架构,因此可在8GB容量的装置上进行本地端部署和模型推理工作,可算是MLLM部署难题的另一出路。(详全文)

  金管会     金融业运用AI指引     公平性  

金管会发布金融业运用AI指引草案

就在上个月底,金管会公布了金融业运用AI指引草案,提供6大原则与建议供金融业者参考。该草案定义了AI系统的4大生命周期阶段,包括系统规画及设计、资料蒐集及输入、模型建立及验证,和系统布署及监控,而草案则建议金融业者,要在各个阶段落实核心原则。

这些核心原则包括了建立治理及问责机制、重视公平性及以人为本的价值观、保护隐私及客户权益、确保系统稳健性与安全性、落实透明性与可解释性,以及促进永续发展。以落实公平性为例,指引建议了业者在AI系统4大生命周期阶段可采取的措施,比如系统规画及设计阶段,须提供救济管道,在资料蒐集及输入阶段则要检视数据是否产生偏见,在模型建立及验证阶段,除了要自行检验模型对不同群体产生的结果,还要聘请外部人员验证。至於系统布署及监控阶段,则要定期检视、分析AI系统产出的结果是否存在歧视。该草案将对外徵询意见,自发布日起60日後,将视各界意见修正、正式发布指引。(详全文)

  苹果     Ferret     多模态  

苹果公布多模态AI模型Ferret

自2023年12月开始,苹果陆续公布AI研发成果,日前又发布了多模态大型语言模型(MLLM)Ferret和相关基准测试工具与资料集。多模态是指模型可处理多种类型的资料,以Ferret来说,它可接收文字、声音、影像和数据的输入值。

这款Ferret采用新式混合区域表徵技术,整合了个别方位和连续性的特徵,来表示图片中的某一区域。为提取出区域中的连续特徵,苹果还提出一种空间感知的视觉采样器,来处理不同形状多种稀疏性。如此一来,Ferret就可接收多样化区域输入,像是点、边界框或自由形式的形状。

苹果用这些方法和资料训练出Ferret-13B。经测试,与Kosmos-2、GPT4-ROI、LLaVA、Shikra等MLLM相比,在需本地化的多模态对话和细节描述等任务中,Ferret表现都比这些MLLM好。在视觉化比较任务中,Ferret也表现出优异的空间理解和常识推理能力。苹果还指出,Ferret物件幻觉也比Shikra、InstructBLIP、MiniGPT4、LLaVA、MM-GPT和mPLUG-Owl等知名MLLM少很多。(详全文)

  Google     交通模拟     车辆  

Google开发交通模拟模型,成功加速大型活动後车辆离场

Google研究院与西雅图交通部合作,开发模拟交通引导计画,还将研究结果实际应用在道路交通上。他们采用数位双生(Digital Twins)方法,由Google先用开源模拟软体SUMO,来针对西雅图体育场周边地区打造交通模拟模型,尽可能地重现特定时间的交通状况。同时,团队还用Google地图资料,来定义网路结构和各种路段静态属性,如车道数、限速和交通号志等。

接着,他们还将道路网路划分为不同区域,来计算车行需求,也就是车型数量。後来,团队使用匿名车行统计资料来校准预测策略,西雅图警察局也提供了最需改进的拥挤路线,来让Google用模拟模型评估新路线策略。最後,他们在2023年8月和11月期间,在多个数千名参加者的大型活动中实验,采用新的路线策略,并以动态讯息号志(DMS)引导车辆,成功将离开体育场的平均车行时间降低7分钟。(详全文)

  船只轨迹     卫星图像     GPS  

靠AI和卫星图像,画出全球首张海上船只足迹地图

《自然》期刊最近刊出一篇研究报告,全球渔业观察(Global Fishing Watch)组织主导一项研究,用机器学习和卫星图像,绘制出全球首张海上基础设施和船只足迹地图,揭露75%的工业渔船一直在暗中活动。

团队透过卫星图像、船只GPS资料和AI模型,来分析2017年至2021年间的2PB卫星图像。他们训练了3个模型来辨识卫星图像的物件,也分析了船只自动辨识系统的530亿个GPS位置,并与卫星侦测结果比对,来确认侦测到的船只是否可公开追踪。他们发现,任何特定时间平均可检测到6.33万艘船只,当中近一半为渔船,但有3/4的渔船并未出现在公共侦测系统中,其它种类船只未出现的比例则是1/4。这代表,全球船只活动中,有一半的船只无法被公开追踪。这项研究颠覆了某些认知,比如以前以为没有太多船只活动的海域,其实聚集了大量船只,或是公开资料显示欧亚境内的捕鱼活动相似,但实际并非如此。(详全文)

  AI评测中心     数位部     公平性  

生成式AI加速法律利益冲突检查

生成式AI也加速法律科技发展,最近,法律科技软体公司钛度科技打造一套云端服务平台Matteroom,用微软Azure OpenAI服务,来简化法律事务作业。比如,使用者可用来强化利益冲突检查,在案件承接前置作业时,先分析资料库中庞杂的数据,找出客户与事务所其他案件的潜在利益冲突与风险排竞,来将过往手动搜寻所需的数小时,缩短为几秒钟。此外,这款Matteroom也整合了办公软体Microsoft 365,能管理自动化出帐、人员绩效洞察等作业流程,可节省30%的秘书及会计等行政劳动成本。(详全文)

图片来源/MosaicML、Zhengqing Yuan、金管会、苹果、Google、钛度科技

  AI近期新闻 

1. 微软全面推出Copilot App

2. 英特尔成立生成式AI公司Articul8 AI

3. 高通推出混合实境晶片Snapdragon XR2+

4. 高品质声音复制模型OpenVoice开源了

资料来源:iThome整理,2024年1月

红海加速器好用吗

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x