ChatGPT 现在可以看到、听到和说话 —— GPT-4 多模态版本上线
OpenAI 开始在 ChatGPT 中推出新的语音和图像功能,允许您进行语音对话或向 ChatGPT 展示画面。Plus 和企业用户将在未来两周内体验语音和图像,不久后推出给其他用户组,包括开发人员。 图像理解由多模态 GPT-3.5 和 GPT-4 提供支持,你现在可以向 ChatGPT 展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。 文本转语音由新的模型提供支持,它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT 的预设语音来自直接合作的专业配音演员。语音转文本由 OpenAI Whisper 模型支持。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。