使用生成式 AI 和 Amazon Bedrock 构建视频洞察和总结引擎 机器学习博客
使用生成式 AI 和 Amazon Bedrock 构建视频洞察和总结引擎 机器学习博客
2026-01-27 13:09:19

使用 Amazon Bedrock 构建视频洞察与总结引擎

关键要点

专业人士在许多行业中已将数字视频会议工具作为与供应商、同事和客户定期会议的一部分。这种会议通常涉及信息交流和后续行动的讨论,但传统的手动记录方式常常存在误差,且不够高效。本文介绍了一种解决方案,通过上传会议录音到集中视频洞察与总结引擎,利用人工智能和机器学习服务提取转录内容、生成总结和提供情绪分析。该开源解决方案基于 Amazon Bedrock,具有成本效益,能够提升销售和客户支持效率。

引言

各种行业的专业人士在与供应商、同事和客户的定期会议中普遍采用数字视频会议工具。这些会议通常涉及信息交换和业务决策。为了确保不会忘记会议中的信息和后续需采取的行动,传统方法依赖于会议记录,但这种手动记录非常繁琐且容易出错,尤其是在高强度或高压力的情况下。此外,这些笔记往往是个人的,未集中存储,导致企业失去了学习和改进销售、采购和沟通流程的机会。

本文介绍了一种解决方案,允许您将会议录音大多数现代数字通讯服务如 Amazon Chime 提供此功能上传至集中式视频洞察与总结引擎。该引擎借助AWS的人工智能AI和机器学习ML服务以及生成式AI,提取会议记录、生成总结并提供情绪分析。它记录每个人的行为,并为上传者提供建议措施。所有数据集中存储,有助于提升销售或呼叫中心等场景中的指标。

使用案例概述

场景中的组织注意到客户通话中有些行动因讨论复杂而被漏掉,且可以集中客户数据以更好地理解如何改善长期客户交互。尽管该组织已在视频格式中录制会议,但这些视频常常保存在各自的仓库中,访问日志显示,员工在日常活动中很少使用它们。

为了提高效率、减轻负担、获取更深刻洞察,该解决方案探索如何利用生成式AI分析录制的视频,并为员工提供通话内容的有价值洞察。同时,它也支持音频文件,提供更大灵活性。生成的通话记录和洞察包括对话总结、情感分析、行为记录和建议的下一步措施。这些洞察集中存储,解锁分析团队对互动的全景视图,帮助制定更好的销售与支持策略。

组织通常无法预测通话模式,因此该解决方案利用AWS无服务器服务在繁忙时期进行扩展。这样,您可以在高峰时满足需求,同时在销售、工程和支持团队休假期间减少成本。

本文提供关于如何创建一个视频洞察与总结引擎的指导,利用AWS AI/ML服务构建端到端架构,并为每个关键元素提供示例代码片段和解释,帮助实现核心功能。通过这种方法,您将能理解基础的架构概念,并可选择将其集成到现有工作负载中或作为新工作负载的基础。

解决方案概述

以下图示展示了视频洞察与总结引擎的工作流。

为使视频洞察解决方案得以实施,该架构结合了以下AWS服务:

服务名称描述Amazon API Gateway全托管服务,让开发者轻松创建、发布、维护、监控和保护API。Amazon Bedrock全托管服务,提供多家领先AI公司的高效基础模型,通过单一API构建生成式AI应用。Amazon DynamoDB完全托管的NoSQL数据库服务,提供快速、可预测的性能和无缝的可扩展性。AWS Lambda事件驱动的计算服务,可运行几乎任何类型的应用程序或后端服务,无需管理服务器。Amazon S3对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。Amazon Transcribe自动语音识别服务,便于开发者将语音转换为文本。

服务之间通过API Gateway作为事件触发器和Lambda函数集成,DynamoDB则作为高可扩展性数据库存储客户详情。同时,上传的视频或音频文件安全存储在S3桶中。

视频洞察与总结引擎的端到端解决方案始于用户界面。我们构建了一个简单的静态Web应用,托管在Amazon S3,并部署了 Amazon CloudFront 分发,以支持低延迟和高传输速度。我们使用CloudFront源访问控制来保护Amazon S3源,只允许访问特定CloudFront分发。通过 Amazon Cognito,我们能够保护Web应用免受未经过身份验证用户的访问。

API Gateway作为视频洞察与总结引擎前后端的实时通讯入口,同时使用Amazon Cognito作为授权者来控制访问。通过Lambda集成,我们创建了一个Web API,其端点连接到Lambda函数。

要启动工作流,用户可通过API Gateway和Lambda函数,直接将原始视频文件上传到S3桶中。更新后的视频会传入Amazon Transcribe,该服务将视频中的语音转换为文本格式的转录文件。最后,我们使用Amazon Bedrock中可用的大型语言模型LLM来总结视频转录内容并提取洞察。

解决方案将上传的视频和转录内容存储在Amazon S3中,该服务以低成本提供持久、高可用和可扩展的数据存储。同时,我们根据视频总结、情绪分析、洞察和其他工作流元数据将数据存储在DynamoDB中,这是一种NoSQL数据库服务,可快速跟踪工作流状态并从原始视频中检索相关信息。

我们还利用 Amazon CloudWatch 和 Amazon EventBridge 实时监控工作流中的每个组件并根据需要进行响应。

AI/ML 工作流

在这篇文章中,我们重点介绍使用AWS AI/ML服务生成总结内容并从视频转录中提取洞察的工作流。

首先使用 Amazon Transcribe StartTranscriptionJob API,我们将存储在Amazon S3中的原始视频转录为JSON文件。以下是用Python实现的示例代码:

pythonjobargs = { TranscriptionJobName jobId Media {MediaFileUri mediauri} MediaFormat mediaformat LanguageCode languagecode Subtitles {Formats [srt]} OutputBucketName outputbucketname OutputKey jobId json}if vocabularyname is not None jobargs[Settings] = {VocabularyName vocabularyname}response = transcribeclientstarttranscriptionjob(jobargs)

以下是我们工作负载中Amazon Transcribe生成的JSON格式的输出示例:

json{ jobName a37f0f27090845eb8d988efc3a9d45901698392975 accountId 8469761 results { transcripts [{ transcript 感谢您的来电,我的名字是Ivy。请告诉我您的名字 }] items [{ starttime 7809 endtime 821 alternatives [{ confidence 0998 content 感谢 }] type pronunciation } ] } status COMPLETED}

当Amazon Transcribe产生输出并存储在Amazon S3中后,我们使用 Amazon S3 事件通知 在转录工作完成并创建视频转录文件对象时触发Lambda函数的事件。

在工作流的下一步中,借助Amazon Bedrock中可用的LLM进行处理。LLM是基于神经网络的语言模型,包含数亿到过万亿个参数。其内容生成能力使LLM广泛应用于文本生成、总结、翻译、情感分析和对话聊天机器人等用例。对于本解决方案,我们使用Anthropic的Claude 3通过Amazon Bedrock总结原始文本、获取对话情绪、提取已记录行为并为销售团队提供后续行动建议。在Amazon Bedrock中,您还可以使用其他LLM进行文本总结,如Amazon Titan、Meta Llama 3等,这些都可以通过 Amazon Bedrock API调用。

以下是使用Amazon Bedrock API总结视频转录的Python代码示例:

pythonmodelId = anthropicclaude3sonnet20240229v10accept = application/jsoncontentType = application/json

prompttemplate = 以下是我们的销售代表与客户的对话记录。AI是销售代表用来获取对话简要总结的工具。AI基于对话内容生成总结,并不编造没有发生的事件。转录内容是:{}请问这段对话的两段总结是什么

PROMPT = prompttemplateformat(rawtext)

飞兔加速器免费

body = jsondumps( { messages [ { role user content [ {type text text PROMPT} ] } ] anthropicversion bedrock20230531 maxtokens 512 temperature 01 topp 09 })response = bedrockinvokemodel(body=body modelId=modelId accept=accept contentType=contentType)responsebody = jsonloads(response[body]read())summary = responsebody[content][0][text]

通过定义在有效载荷中的不同参数调用端点,可以影响文本总结的结果:

temperature temperature用于文本生成,以控制输出随机性。较低的temperature值会产生更保守和确定的输出,而较高的值则会鼓励更具多样性和创造性的输出。topp topp,也称为核采样nucleus sampling,用于控制生成摘要文本的多样性。它表示在文本生成过程中选择下一个令牌时的累积概率阈值。较低的topp值会导致更加确定的输出,而较高的值则会使生成的摘要更具随机性和多样性。

虽然没有普遍最佳的topp和temperature组合适用于所有场景,但在前面的代码示例中,我们展示了高topp和低temperature的样本值,以生成关注关键信息的摘要,同时保持与原始视频转录的一致性。

以下是通过Amazon Bedrock API调用Anthropic的Claude 3模型来为销售代表提供基于视频转录的建议行动的示例代码:

pythonprompttemplate = 以下是我们的销售代表与客户的对话记录。AI是销售代表用来探寻在会话后可以采取的额外行动,以增加销售。AI基于对话内容和其认为可能有助于提升客户满意度和忠诚度的内容来生成建议行动。

转录内容是:{}

基于上述转录,提供以要点格式列出的销售代表可采取的行动建议,以增加后续销售。

使用生成式 AI 和 Amazon Bedrock 构建视频洞察和总结引擎 机器学习博客

PROMPT = prompttemplateformat(rawtext)

body = jsondumps( { messages [ { role user content [ {type text text PROMPT} ] } ] anthropicversion bedrock20230531 maxtokens 1024 temperature 01 topp 09 })

response = bedrockinvokemodel(body=body modelId=modelId accept=accept contentType=contentType)responsebody = jsonloads(response[body]read())suggestedactions = responsebody[content][0][text]

在成功生成视频总结、情绪分析、已记录行为和建议措施之后,我们将这些洞察存储在DynamoDB表中,并通过API Gateway在用户界面中更新。

下图显示了视频洞察与总结引擎的简单用户界面。前端构建在 Cloudscape 之上,是一个开源设计系统用于云计算。平均情况下,处理1小时视频的时间不超过5分钟,费用也不超过2美元,假定视频的转录内容大约包含8000个单词。

未来改进方向

本文展示的解决方案展示了如何利用AWS服务与Amazon Bedrock构建一个具有成本效益的强大生成式AI应用,帮助您分析视频内容并提取有助于提升团队效率的洞察。此解决方案只是您可用AWS生成式AI及更广泛的ML服务挖掘价值的开端。

例如,可以扩展此解决方案的范围,帮助处理某些通话中的已记录行为。加入如 Amazon Bedrock 智能体等服务,可以帮助自动化某些响应,例如转发相关文档如产品规范、价格清单或简单的回顾邮件。这些都能节省时间和精力,让您更专注于增值活动。

同样,中央集中的所有这些数据可以为您创建分析层,以更好地制定销售和支持策略。这些数据通常会在组织内部丢失或错误存放,因为人们偏好多种不同的笔记收集方式。提案的解决方案不仅使您能够集中存储数据,还能增强组织的数据,以客户的声音进行补充。例如,分析团队可以分析在正面情感通话中员工表现良好的做法,并提供培训或指导,帮助每个人实现更多积极的客户互动。

结论

在本文中,我们介绍了如何创建一个解决方案,该方案能够接收视频和音频文件,以便生成强大、可操作和准确的洞察,组织可以通过Amazon Bedrock的生成式AI能力利用这些洞察。这些洞察能减少客户接触团队所面临的重复性繁重工作,并提供一个集中的客户对话数据集,供组织进一步提升表现。

要了解更多有关如何将Amazon Bedrock应用到您的工作负载的信息,请访问 Amazon Bedrock。

关于作者

Simone Zucchet,AWS解决方案架构师经理,拥有超过6年的云架构师经验,热衷于参与创新项目,帮助组织解决商业问题。他支持AWS的大型企业客户,并且是机器学习技术支持团队的一员。工作外,他喜欢修理汽车和摄影。

Vu San Ha Huynh是AWS解决方案架构师,拥有计算机科学博士学位,喜欢参与不同的创新项目,以支持大型企业客户。

Adam Raffe是AWS首席解决方案架构师,拥有超过8年的云架构经验,帮助大型企业客户解决商业问题。

Ahmed Raafat是AWS首席解决方案架构师,拥有20年的现场经验,其中6年专注于AWS生态系统,专门从事