从记录到纪要:让AI秘书读懂企业办公数字化会议
发布日期:2023-06-01 浏览次数:1759
会议在企业日常运营过程中承担很重要的角色。会议讨论内容、会议资料、会议纪要、会议待办事项等,大量执行信息从会议中产生。由于会议信息量庞大、会议记录员个人理解不到位等因素的限制,会议讨论过程中所包含的大量内容,存在大量的丢失情况,致使会议决议不能顺利推进,会议效果大打折扣。而与之对应的,这些信息内容抽取和沉淀,能够很大的提高企业运营数字化程度以及信息共享程度。
在当前人工智能领域,对话摘要(Dialogue Summarization)任务在近两年得到了工业界和学术界的广泛关注。华为、阿里巴巴、滴滴、微软、三星、A*STAR等企业针对会议摘要任务进行特别研究。斯坦福大学、中弗洛里达大学、佐治亚理工、北京邮电大学也有针对会议摘要任务进行研究。SIGDial2021针对多人会议摘要开设了专门的SummDial Session。总体而言,对话摘要技术是致使会议记录到会议纪要转变的关键点,它可以从复杂的对话数据中提取关键信息,从而大大降低理解对话数据的难度,更好地辅助下游任务,推动企业会议数字化解决方案的完善。
二、会议纪要让会议更智慧
在传统的日常办公会议场景中,会议的70%信息都依赖于视觉接收,只有30%信息依赖于声音接收,但仅通过声音和视频去进行会议交流,远不能满足现代会议的要求。用户会后的文件处理、会议纪要及特定用户的法定程序也要求必须以文字的形式呈现。伴随着当前会议语音识别系统的推广,每个参会人员的发言语音可以进行实时、完整、有序的文字转写,并确保文字与各座席的语音一一对应,新一代的会议系统将能够从会议过程中获取会议议事的完整讨论内容。
仅仅获得会议议事的讨论内容是远远不够的,人的正常语速1分钟在200个字左右,这个也就意味一个1.5小时的议事会议将会产出将近10万字的讨论内容,这10万字的讨论内容与多个会议主题相关联,相关主题会引出多个结论和待办事项,这些内容构成一份庞大的会议内容知识图谱。于此同时,在一些常规会议中,人工会议纪要的长度往往在千字以内,这也就意味着人工会议纪要的信息量大致只有会议讨论内容的1%不到,还需企业会议数字化解决方案。
鉴于人工记录内容相对于会议实际讨论内容的缺失,会议内容的精细加工需要针对于会议实际的讨论内容,也就是从10万字级别的会议讨论内容中快速的提取议题相关的摘要、结论和代办事项,有些精加工内容的提取不仅能够极大提高会议纪要工作的效率,同时也可以使得企业海量会议内容的大数据分析成为可能。
综合上述场景可以得知,会议语音记录只是数字化会议的开始,更大的挑战和价值在于如何进一步抽取、加工、索引、再利用真正的会议核心内容。
三、智慧会议纪要算法原理
传统的语义理解算法都是针对新闻或者文献形式,无法很好的支持上述应用场景。而这几年人工智能领域也针对特定会议对话,逐步形成有效的对话摘要提取算法,以作为会议内容大数据分析的基础算法。在此,我们提出一种有效的会议摘要提取算法方案。
会议对话是一种由多人参与的数据体裁,参与者接收对话上文信息,结合自身常识知识进行理解从而参与到对话当中。常规的文本摘要抽取算法应用于对话摘要抽取的效果并不理想。除了上下文语义的理解之外,目前已经有一些测试证明了融入常识知识可以帮助对话上下文建模任务。
我们首次针对对话摘要任务探索常识知识的利用。上图展示了SAMSum对话摘要数据集中的一个样例,“鲍勃因为车坏了向汤姆寻求帮助”。根据对话语句中的“接我”和“车坏了”可以引入“让...搭车”这一常识知识。一方面,这一常识知识表达了鲍勃和汤姆对话的深层含义,另一方面,这一常识知识也连接了对话中非邻接的语句,使得整个对话的信息流更加清晰。最终,借助该常识知识,可以得到更加凝练、准确的对话摘要。
最新的算法首先通过大规模常识知识库以对话的形式引入常识知识,然后将对话中的说话人、句子以及引入的常识知识视为三种不同类型的数据,构建为异构对话图(Heterogeneous Dialogue Graph,HDG),最后利用异构对话图网络模型(Dialogue Heterogeneous Graph Network,D-HGN)进行建模三类数据,生成最终对话摘要。我们在SAMSum数据集上进行实验,结果显示,引入常识知识和异构性建模均可以帮助模型生成更好的对话摘要。除此以外,在Argumentative Dialogue Summary数据集上的结果显示,引入常识知识可以使得算法模型具有更好的泛化能力。
该算法在SAMSum数据集上进行主实验,并在Argumentative Dialogue Summary数据上进行辅助实验。并利用ROUGE指标进行评价。数据集统计如下图所示。
下表显示了算法在SAMSum数据集上的实验结果,可以看出算法与基线模型相比取得了一定的提升。与GCN、GAT、RGCN等同构图神经网络相比,算法也显示出了一定的优越性。
对于SAMSum测试集,经过图网络更新之后的、最后一层的节点表示,然后使用t-SNE进行可视化,结果如下图所示。可以发现,新的算法(D-HGN)针对三种类型的数据,可以学到更加容易区分的表示,基线模型(D-GAT)即使采用同构图神经网络,也倾向于区分不同类型节点表示,说明显示的异构性建模可以帮助学习更好的表示。
最后让我们看不同模型生成的对话摘要。最新的算法模型引入了“生日派对”和“一些人”两个常识知识。通过关注“生日派对”,我们的模型生成了更加全面、质量更高、与标准摘要更加接近的对话摘要。
四、AI智慧赋能未来企业办公会议
有了最新的人工智能算法的加持,AI“理解”会议内容这件事情逐步成为可能。随着新的语音识别技术的发展,越来越多的会议内容通过AI智能语音识别得到沉淀,传统的会议纪要方式和会议内容的使用方式正在被颠覆,基于海量会议对话内容的机器学习,会议纪要、待办事项都可以被自动生成。对于企业来说,这也意味着为会议精细化管理所配置的大量人力可以被释放出来,同时会议所沉淀的海量企业运营信息将通过新一代数字化会议系统得到充分运用,有助于企业会议数字化解决方案的形成,企业也将从这新型系统中提高运营效率,进一步提高管理信息的数字化水平。
数字经济发展中,新一代的数字化会议系统势必将成为企业日常运营管理的核心系统之一,云思正在此领域围绕构建全新的现代办公模式,采用面向应用的至上而下顶层设计方法,持续丰富管理营运功能、努力拓展面向人的最佳体验的应用创新。