课程 ID: 18426
描述:
案例背景:
让AI像人一样自然交流是很多科学家的追求的目标。语音包含丰富的信息,不仅仅是内容,还有副语言和环境信息。副语言信息包含了情感、口音、年龄等,而环境信息表达了语音所发生的场景信息。随着研究的深入和技术的进步,口语理解系统不仅需要理解文字信息,还需要识别和处理语音中的副语言信息和环境信息,从而具有良好的共情能力,使其不仅能听得清、听得懂,还能听出“人情味”。该报告将分享人工智能如何能够像人一样有“眼力劲”,像人一样带情感的说话。
解决思路:
高表现力语音数据采集、清洗,支持多种控制条件的模型结构设计,语音离散化方法等
成果:
达到预期:demo.amphion.dev