1.Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强?这个框架一测便知
为此,我们推出了 VBench,一个全面的「视频生成模型的评测框架」,来告诉你 「视频模型哪家强,各家模型强在哪」。 论文:https://arxiv.org/abs/2311.17982 代码:https://github.com/Vchitect/VBench 网页:https://vchitect.github.io/VBench-project/ 论文标题:VBench: Comprehensive Benchmark Suite for Video Generative Models
2.一张照片,为深度学习巨头们定制人像图片
为了解决这些问题,来自 InstantX 团队的研究人员提出了 InstantID,该模型不训练文生图模型的 UNet 部分,仅训练可插拔模块,在推理过程中无需 test-time tuning,在几乎不影响文本控制能力的情况下,实现高保真 ID 保持。
InstantID 是一个高效的、轻量级、可插拔的适配器,赋予预训练的文本到图像扩散模型以 ID 保存的能力。作者通过(1)将弱对齐的 CLIP 特征替换为强语义的人脸特征;(2)人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;(3)提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。
论文标题:InstantID: Zero-shot Identity-Preserving Generation in Seconds
论文地址:https://arxiv.org/abs/2401.07519
代码地址:https://github.com/InstantID/InstantID
项目地址:https://instantid.github.io
3.大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4
最近,来自 Meta、纽约大学的研究者用「自我奖励方法」,让大模型自己生成自己的微调数据,给人带来了一点新的震撼。
在新方法中,作者对 Llama 2 70B 进行了三个迭代的微调,生成的模型在 AlpacaEval 2.0 排行榜上优于一众现有重要大模型,包括 Claude 2、Gemini Pro 和 GPT-4。
论文标题:Self-Rewarding Language Models
论文链接:https://arxiv.org/abs/2401.10020
4.奥特曼筹数十亿美元建全球晶圆厂网络,自造AI芯片
据彭博社消息,OpenAI CEO 萨姆・奥特曼(Sam Altman)近日再次为一家人工智能芯片企业筹集了数十亿美元的资金,希望建立一个范围覆盖全球的晶圆厂「企业网络(network of factories)」,并计划与未具名的顶级芯片制造商合作。
5.Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
https://twitter.com/StabilityAI/status/1747352719487054105
https://x.com/emostaque/status/1748405750907457548?s=46&t=HBob6gxh8cOfZTIbieKeSA
5.InstructGPT为什么过拟合后还继续训练,机器学习中被称为“良性过拟合”
https://twitter.com/QuanquanGu/status/1748846915528311202?s=20
6.WhisperSpeech是一个开源的文本转语音系统,是通过反转Whisper模型来实现的。
https://github.com/collabora/WhisperSpeech
7.Reading Coach是微软研发的一个在线阅读辅导工具。
它具有语音识别功能,可以听写出用户所阅读文章的录音内容。
通过语音识别,它可以分析出用户的阅读流畅度,如语速、停顿时间等。
它可以给出阅读词汇量的统计,比如生词数量等。
它可以分析单词发音的准确度,指出哪些单词发音错误。
它提供阅读理解功能,可以提问文章内容,分析用户的理解程度。
它提供个性化的阅读报告,总结用户的阅读水平,比如词汇量、发音、流畅度、理解力等方面。
它给出针对性建议,帮助用户改进阅读水平。
它提供追踪功能,用户可以记录阅读数据,观察阅读水平的提高。
它还提供了一些阅读技巧、策略等指导,帮助用户改进阅读方法。
Reading Coach由微软研发,具有较强的技术实力支撑。
8.经历“00后风波”的公司宣布新一轮融资丨投融周报