拟公示算法机制机理内容

算法名称 腾讯内容安全算法
算法基本原理 腾讯内容安全算法主要用到图像文字识别算法(OCR)、语音识别算法(ASR)以及语义概念识别算法(NLP)三种算法。OCR算法是将图像中的文本识别为可编辑的文字,以便于智能化处理的技 术。ASR算法是将语音中的说话内容识别为可编辑的文字,以便于智能化处理的技术。NLP算法是一种分类算法,输入为一段语言文字,输出为语义标签,代表是否是目标的语义类型。
算法运行机制 1、为了更精准地提升自然场景下的文字识别精准度,OCR算法会先检测普通图片或者视频拆帧图片中的文字,之后通过文字检测算法和文字识别算法来进行文本检测识别文字。
2、ASR算法一般会先对语音进行特征提取,然后使用事先训练好的声学模型和语言模型进行解码,识别出文字,再进行加标点等后处理。对于识别出的结果,结合关键词或NLP相关的技术,决定处理策略。
3、关于NLP算法,文本会先进入轻模型进行初筛,通过初筛的文本进一步进入重模型进行语义判断。
算法应用场景 微信、QQ、腾讯视频、腾讯新闻、微视等腾讯产品的图片、文字、语音、视频处理场景。
算法目的意图 更精准地进行图片中的文字信息识别、语音内的文字识别、和语义判断等。