8月28日,2023中国国际服务贸易交易会通用人工智能算力论坛在石景山区举办。论坛上,北京市人工智能大模型高质量数据集(第二批)发布,其中包含北京希尔贝壳科技有限公司的“大模型方言口语语音数据集”和“智能会议场景高质量对话式语音数据集”两组高质量数据集。
大模型方言口语语音数据集:涵盖17种方言口语,自然表达的音频数据集,可应用于语音对话与听觉大模型的研究。
智能会议场景高质量对话式语音数据集:涵盖956场真实会议场景,多人多轮次对话音频数据集,可应用于语音对话与听觉大模型的研究。
本批次数据集包括16家机构发布的41个数据集,涉及“医学、生物、农业、金融、政务、互联网、智慧城市、自动驾驶、科技服务、商业分析、产业研究、市场营销等不同领域的41个数据集组成,数据总量规模约112TB,为通用大模型和行业大模型训练及应用落地提供了坚实有力的“资源”保障。希尔贝壳也将持续推动数据高质量汇聚,建立有效的数据治理环境,保障数据的质量和安全,最大化发挥数据的价值。
本次通用人工智能算力论坛由北京市石景山区人民政府、北京市经济和信息化局、北京市科学技术委员会中关村科技园区管理委员会联合主办,石景山区经济和信息化局、企商在线(北京)数据技术股份有限公司承办。论坛以“智见·共创算力新时代”为主题,围绕人工智能算力共议技术创新与产业发展之路,进一步夯实人工智能底层基础,加速释放算力潜能,推动产业生态高质量发展。政府部门、院士专家学者、知名企业家等共聚一堂,共议产业发展之路。