1.视频解读
字节跳动联合浙江大学提出了能够输出可靠视频描述的多模态大语言模型 Vista-LLaMA。Vista-LLaMA 专门针对视频内容的复杂性设计,能够有效地将视频帧转换为准确的语言描述,从而极大地提高了视频内容分析和生成的质量。
论文主页:https://jinxxian.github.io/Vista-LLaMA/
2.一个提示实现批量图片分割
论文链接:https://arxiv.org/pdf/2312.07374.pdf
项目链接:https://lwpyh.github.io/GenSAM/
代码链接:https://github.com/jyLin8100/GenSAM/
3.四行代码让大模型上下文暴增3倍,羊驼Mistral都适用
无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍!
而且是“即插即用”,理论上可以适配任意大模型,目前已在Mistral和Llama2上试验成功。
有了这项技术,大模型(LargeLM)就能摇身一变,成为LongLM。
论文地址:https://arxiv.org/abs/2401.01325
4.多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制
Colossal-AI 团队开源了 SwiftInfer,基于 TensorRT 实现了 StreamingLLM,可以进一步提升大模型推理性能 46%,为多轮对话推理提供了高效可靠的落地方案。
开源地址:https://github.com/hpcaitech/SwiftInfer
5.微软高管Dee Templeton,加入OpenAI董事会
1月6日,彭博消息,微软高管Dee Templeton作为无投票权观察员的身份,加入OpenAI董事会。
目前,OpenAI一共有4位董事,前Salesforce联合首席执行官Bret Taylor(担任主席),前美国财政部长Larry Summers,全球最大知识问答社区Quora联合创始人Adam D'Angelo以及新加入的Dee。
这也是自2019年7月22日,微软向OpenAI投资10亿美元后,首次指派人员加入OpenAI董事会。
6.有关收集用于微调的合成数据的一些资源
https://twitter.com/eugeneyan/status/1744179600056545300?s=20
7.上千位人工智能作者对人工智能的未来进行讨论