AI趋势周报第238期：突破LLM扩展法则？MosaicML揭新研究成果

MosaicML

重点新闻(1229～0104)

LLM Chinchilla 扩展法则

突破LLM扩展法则？MosaicML揭新研究成果

一般来说，LLM扩展法则都是以模型参数量和训练资料量，来估算模型品质的变化，就连热门的DeepMind Chinchilla（龙猫）优化方法也是。换句话说，这个法则是指，模型的训练Token数和参数越多，模型表现理应越好。

但MosaicML团队认为，这些公式忽略了模型推论成本。因此，他们修改了DeepMind的Chinchilla扩展法则，来根据目标，即理想的模型品质和运算成本需求，计算出最佳的LLM参数量与训练资料集大小。他们的公式建议，可使用更少参数的模型，但以比Chinchilla优化方法更长的训练时间，来训练模型，一样可实现高品质模型。

这项研究也实验发现，Chinchilla模型在高推论需求下，可用更少的参数和更多资料，来进行优化训练，还能大幅降低总运算成本，从70亿参数、130亿参数和700亿参数的模型版本都是。该研究也讨论了TinyLlama，这是一个11亿参数的轻量版模型，使用了3兆个Token训练而成，MosaicML表示，这是突破Chinchilla扩展法则的另一例，特别是当推论需求越接近训练资料大小时，这股趋势越明显。不过，团队也表示，他们的公式还需要进一步验证适用性，特别是在预训练Token数明显超过模型参数的情形下。（详全文）

摩根大通 DocLLM 多模态

摩根大通发表懂图文的轻量级多模态模型DocLLM

日前，摩根大通发JPMorgan表自行研发的多模态轻量级语言模型DocLLM，可用来分析企业文件，如发票、收据、合约、表格和报告等。进一步来说，DocLLM使用OCR得到的边界框，来添加空间位置资讯，因此不必使用复杂的视觉编码器，减少处理时间。这麽做，几乎不增加模型大小，也保留了因果解码器的架构。

团队表示，他们的方法将空间资讯与文字资讯分离，能将典型的Transformer自我注意力机制扩展，来捕捉跨模态的互动资讯。由於文件中常出现碎片化的文字区块和复杂版型，为解决辨识问题，团队还在自监督预训练阶段，改变预训练目标，利用填充方式来适应各种文字排版和区块，模型也能更有效处理混合型或文字不对齐的文件。经测试，DocLLM在16个资料集中的14个，表现比同类模型要好，如Llama 2加上OCR。目前，摩根大通尚未释出任何DocLLM程式码或资料集，仅发表论文。（详全文）

TinyGPT-V 多模态 Phi-2

研究员开源28亿参数多模态小模型TinyGPT-V

最近，来自美国理海大学、新加坡南洋理工大学和中国安徽大学的研究者共同发表一款28亿参数的多模态模型TinyGPT-V，号称表现比与70亿参数和130亿参数版本的Flamingo、MiniGPT-4和其他多模态大型语言模型（MLLM）还要好，所需运算成本也更低。

TinyGPT-V以微软的小型语言模型Phi-2为骨干，并整合了BLIP-2或CLIP这类的预训练视觉模组，只需要24GB的GPU进行训练、用8GB的GPU或CPU就能进行推论。经测试，TinyGPT-V在视觉空间推理（VSR）零样本任务的表现优异，比其他大参数型的同类模型表现要好。此外，研究团队表示，TinyGPT-V因采用特殊架构，因此可在8GB容量的装置上进行本地端部署和模型推理工作，可算是MLLM部署难题的另一出路。（详全文）

金管会金融业运用AI指引公平性

金管会发布金融业运用AI指引草案

就在上个月底，金管会公布了金融业运用AI指引草案，提供6大原则与建议供金融业者参考。该草案定义了AI系统的4大生命周期阶段，包括系统规画及设计、资料蒐集及输入、模型建立及验证，和系统布署及监控，而草案则建议金融业者，要在各个阶段落实核心原则。

这些核心原则包括了建立治理及问责机制、重视公平性及以人为本的价值观、保护隐私及客户权益、确保系统稳健性与安全性、落实透明性与可解释性，以及促进永续发展。以落实公平性为例，指引建议了业者在AI系统4大生命周期阶段可采取的措施，比如系统规画及设计阶段，须提供救济管道，在资料蒐集及输入阶段则要检视数据是否产生偏见，在模型建立及验证阶段，除了要自行检验模型对不同群体产生的结果，还要聘请外部人员验证。至於系统布署及监控阶段，则要定期检视、分析AI系统产出的结果是否存在歧视。该草案将对外徵询意见，自发布日起60日後，将视各界意见修正、正式发布指引。（详全文）

苹果 Ferret 多模态

苹果公布多模态AI模型Ferret

自2023年12月开始，苹果陆续公布AI研发成果，日前又发布了多模态大型语言模型（MLLM）Ferret和相关基准测试工具与资料集。多模态是指模型可处理多种类型的资料，以Ferret来说，它可接收文字、声音、影像和数据的输入值。

这款Ferret采用新式混合区域表徵技术，整合了个别方位和连续性的特徵，来表示图片中的某一区域。为提取出区域中的连续特徵，苹果还提出一种空间感知的视觉采样器，来处理不同形状多种稀疏性。如此一来，Ferret就可接收多样化区域输入，像是点、边界框或自由形式的形状。

苹果用这些方法和资料训练出Ferret-13B。经测试，与Kosmos-2、GPT4-ROI、LLaVA、Shikra等MLLM相比，在需本地化的多模态对话和细节描述等任务中，Ferret表现都比这些MLLM好。在视觉化比较任务中，Ferret也表现出优异的空间理解和常识推理能力。苹果还指出，Ferret物件幻觉也比Shikra、InstructBLIP、MiniGPT4、LLaVA、MM-GPT和mPLUG-Owl等知名MLLM少很多。（详全文）

Google 交通模拟车辆

Google开发交通模拟模型，成功加速大型活动後车辆离场

Google研究院与西雅图交通部合作，开发模拟交通引导计画，还将研究结果实际应用在道路交通上。他们采用数位双生（Digital Twins）方法，由Google先用开源模拟软体SUMO，来针对西雅图体育场周边地区打造交通模拟模型，尽可能地重现特定时间的交通状况。同时，团队还用Google地图资料，来定义网路结构和各种路段静态属性，如车道数、限速和交通号志等。

接着，他们还将道路网路划分为不同区域，来计算车行需求，也就是车型数量。後来，团队使用匿名车行统计资料来校准预测策略，西雅图警察局也提供了最需改进的拥挤路线，来让Google用模拟模型评估新路线策略。最後，他们在2023年8月和11月期间，在多个数千名参加者的大型活动中实验，采用新的路线策略，并以动态讯息号志（DMS）引导车辆，成功将离开体育场的平均车行时间降低7分钟。（详全文）

船只轨迹卫星图像 GPS

靠AI和卫星图像，画出全球首张海上船只足迹地图

《自然》期刊最近刊出一篇研究报告，全球渔业观察（Global Fishing Watch）组织主导一项研究，用机器学习和卫星图像，绘制出全球首张海上基础设施和船只足迹地图，揭露75%的工业渔船一直在暗中活动。

团队透过卫星图像、船只GPS资料和AI模型，来分析2017年至2021年间的2PB卫星图像。他们训练了3个模型来辨识卫星图像的物件，也分析了船只自动辨识系统的530亿个GPS位置，并与卫星侦测结果比对，来确认侦测到的船只是否可公开追踪。他们发现，任何特定时间平均可检测到6.33万艘船只，当中近一半为渔船，但有3/4的渔船并未出现在公共侦测系统中，其它种类船只未出现的比例则是1/4。这代表，全球船只活动中，有一半的船只无法被公开追踪。这项研究颠覆了某些认知，比如以前以为没有太多船只活动的海域，其实聚集了大量船只，或是公开资料显示欧亚境内的捕鱼活动相似，但实际并非如此。（详全文）

AI评测中心数位部公平性

生成式AI加速法律利益冲突检查

生成式AI也加速法律科技发展，最近，法律科技软体公司钛度科技打造一套云端服务平台Matteroom，用微软Azure OpenAI服务，来简化法律事务作业。比如，使用者可用来强化利益冲突检查，在案件承接前置作业时，先分析资料库中庞杂的数据，找出客户与事务所其他案件的潜在利益冲突与风险排竞，来将过往手动搜寻所需的数小时，缩短为几秒钟。此外，这款Matteroom也整合了办公软体Microsoft 365，能管理自动化出帐、人员绩效洞察等作业流程，可节省30%的秘书及会计等行政劳动成本。（详全文）

图片来源／MosaicML、Zhengqing Yuan、金管会、苹果、Google、钛度科技

AI近期新闻

1. 微软全面推出Copilot App

2. 英特尔成立生成式AI公司Articul8 AI

3. 高通推出混合实境晶片Snapdragon XR2+

4. 高品质声音复制模型OpenVoice开源了

资料来源：iThome整理，2024年1月

Related Posts