🌐 教授使用GPT-4和DELL-3进行多模态历史模拟,通过互动方式改变历史走向,丰富了历史教学。
🌐 开源意义: DreamTalk的开源将为语音合成技术的发展提供新的动力,吸引更多开发者和研究人员参与,拓展项目功能和改进技术。
2024年将是实时扩散应用的一年。
如果说2019-2022年是品牌直播红利期,基建基本完善的2023年则像是竞争加速的开端。2024年,品牌直播的竞争烈度势必会更上一层楼,从内容、流量、金钱、平台等多维度展开。
它不仅可以从图片中提取信息并回答问题,还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等,展现出了强大的多模态能力。在性能上接近GPT-4的情况下,LLaVA具有更高的成本效益,训练只需要8个A100即可在1天内完成。