awesome-ai-generated/ai-generated-daily/2024-01-20.md at main · dlimeng/awesome-ai-generated · GitHub

1.Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强？这个框架一测便知

为此，我们推出了 VBench，一个全面的「视频生成模型的评测框架」，来告诉你「视频模型哪家强，各家模型强在哪」。论文：https://arxiv.org/abs/2311.17982 代码：https://github.com/Vchitect/VBench 网页：https://vchitect.github.io/VBench-project/ 论文标题：VBench: Comprehensive Benchmark Suite for Video Generative Models

2.一张照片，为深度学习巨头们定制人像图片

为了解决这些问题，来自 InstantX 团队的研究人员提出了 InstantID，该模型不训练文生图模型的 UNet 部分，仅训练可插拔模块，在推理过程中无需 test-time tuning，在几乎不影响文本控制能力的情况下，实现高保真 ID 保持。

InstantID 是一个高效的、轻量级、可插拔的适配器，赋予预训练的文本到图像扩散模型以 ID 保存的能力。作者通过（1）将弱对齐的 CLIP 特征替换为强语义的人脸特征；（2）人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入；（3）提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制，从而增强 ID 的保真度以及文本的控制力。

论文标题：InstantID: Zero-shot Identity-Preserving Generation in Seconds

论文地址：https://arxiv.org/abs/2401.07519

代码地址：https://github.com/InstantID/InstantID

项目地址：https://instantid.github.io

3.大模型自我奖励：Meta让Llama2自己给自己微调，性能超越了GPT-4

最近，来自 Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，给人带来了一点新的震撼。

在新方法中，作者对 Llama 2 70B 进行了三个迭代的微调，生成的模型在 AlpacaEval 2.0 排行榜上优于一众现有重要大模型，包括 Claude 2、Gemini Pro 和 GPT-4。

论文标题：Self-Rewarding Language Models

论文链接：https://arxiv.org/abs/2401.10020

4.奥特曼筹数十亿美元建全球晶圆厂网络，自造AI芯片

据彭博社消息，OpenAI CEO 萨姆・奥特曼（Sam Altman）近日再次为一家人工智能芯片企业筹集了数十亿美元的资金，希望建立一个范围覆盖全球的晶圆厂「企业网络（network of factories）」，并计划与未具名的顶级芯片制造商合作。

5.Stability AI杀回来了：视频生成新Demo效果惊人，网友：一致性超群

https://twitter.com/StabilityAI/status/1747352719487054105

https://x.com/emostaque/status/1748405750907457548?s=46&t=HBob6gxh8cOfZTIbieKeSA

5.InstructGPT为什么过拟合后还继续训练，机器学习中被称为“良性过拟合”

https://twitter.com/QuanquanGu/status/1748846915528311202?s=20

6.WhisperSpeech是一个开源的文本转语音系统,是通过反转Whisper模型来实现的。

https://github.com/collabora/WhisperSpeech

7.Reading Coach是微软研发的一个在线阅读辅导工具。

它具有语音识别功能,可以听写出用户所阅读文章的录音内容。

通过语音识别,它可以分析出用户的阅读流畅度,如语速、停顿时间等。

它可以给出阅读词汇量的统计,比如生词数量等。

它可以分析单词发音的准确度,指出哪些单词发音错误。

它提供阅读理解功能,可以提问文章内容,分析用户的理解程度。

它提供个性化的阅读报告,总结用户的阅读水平,比如词汇量、发音、流畅度、理解力等方面。

它给出针对性建议,帮助用户改进阅读水平。

它提供追踪功能,用户可以记录阅读数据,观察阅读水平的提高。

它还提供了一些阅读技巧、策略等指导,帮助用户改进阅读方法。

Reading Coach由微软研发,具有较强的技术实力支撑。

https://coach.microsoft.com/

8.经历“00后风波”的公司宣布新一轮融资丨投融周报

https://mp.weixin.qq.com/s/WMF_g4U7sq3eT6IyHkCrwg