tel:17340208223 QQ:229119353 微信:cdseo-seo 登陆 注册

关于头条优化的内容分析

日期: 2020-09-17 09:41:11 点击:135 栏目:网站优化
内容分析包括文本分析、图像分析和视频分析。 标题最初主要做信息,今天主要谈文本分析。 文本分析在推荐系统中的一个重要角色是用户对建...
内容分析包括文本分析、图像分析和视频分析。 标题最初主要做信息,今天主要谈文本分析。 文本分析在推荐系统中的一个重要角色是用户对建模感兴趣。 没有内容和文本标签,得不到用户的兴趣标签。 举个例子,用户仅知道文章标签是因特网,就能够看到因特网标签的文章,知道用户有因特网标签,其他关键字也是如此。   另一方面,文本内容标签可以直接用于推荐特征,例如,将感兴趣的内容推荐给感兴趣的用户,其是用户标签的匹配。 一旦在某个时间推荐主频道的效果不理想,且推荐的范围缩小,用户在阅读了某个特定频道推荐(例如,科技、体育、娱乐、军事等)之后返回至主馈以改进推荐效果。 由于整个模型都是透明的,所以子通道的搜索空间很小,很容易满足用户的需求。 仅靠单信道反馈难以提高推荐精度,重要的是要使子信道顺利进行。 这也需要好的内容分析。   上图是今天顶级的实际文本case。 可以看出这篇文章具有分类、关键词、topic、实体词等文本特征。 当然不是没有文本的特征,推荐系统不起作用。 推荐系统最早应用于Amazon,也处于沃尔玛时代。 包括Netfilx在内的视频推荐在没有文本特征的情况下共同过滤推荐。 但是,在信息系列产品中,消费当天的内容很多,没有文本特征的新内容的冷启动很困难,协作系列的特征不能解决文章的冷启动问题。   现今的顶级推荐系统主要提取的文本特征如下。 首先是语义标签类的特征,在文章中明确标注语义标签。 这部分的标签是人类定义的特征,每个标签都有明确的含义,标签体系是预先定义的。 另外,也有隐含的语义特征,主要是topic特征和关键词特征,其中topic特征是对词的概率分布的描述,没有明确意义的关键词特征是根据一些统计特征描述的,没有明确的集合。   此外,文本相似度的特征也很重要。 首先,用户提出的最大问题是为什么要推荐重复的内容。 这个问题的难点是每个人重复的定义不同。 举个例子,皇太子和巴萨的这篇报道,有人认为昨天看到过类似的内容,但是据说今天这两个队重复了。 但是,对于重度的粉丝来说,尤其是巴萨的粉丝,想看所有的报道。 为了解决这个问题,需要判断类似文章的主题、文章、主体等,并根据这些特点进行在线战略。   同样,也具有时空特征,分析了内容的发生地点和时效性。 比如武汉的限制事项被北京的用户推动也没有意义。 最后考虑质量相关特征,判断内容低俗、色情、软文、鸡汤   上图为顶层语义标签的特征及使用场景。 他们阶层不同,要求不同。   分类的目标通过复盖全面,各内容的各视频中希望有分类的实体体系是正确的,虽然要求能够明确区分同名和内容指的是哪个人和物品,但是不独占也足够了。 概念体系有责任解决比较准确和抽象的概念含义。 这是我们的第一个分类,在实践中发现分类和概念在技术上可以互动,后来统一了技术框架。   目前隐含的语义特征已经能够帮助推荐,语义标签需要不断标注,新名词的新概念不断出现,标注也需要不断重复。 其编制难度和资源投入远大于隐含意义特征。 为什么要有意义标签? 有一些产品上的需求。 例如,频道需要明确定义的分类内容和易于理解的文本标签体系。 语义标签的效果是检验某公司NLP技术水平的试金石。   现在顶级推荐系统的在线分类采用典型的分层文本分类算法。 最上层的Root,最下层的分类是科技、体育、财经、娱乐、体育等大类,再下层的分类是足球、篮球、乒乓球、网球、田径、游泳…,足球是国际足球、中国足球、中国足球是中甲、中超、国家队…,比单独的分类器分层 有些例外,要提高召回率,可以看到我们接了几个航班。 这个框架是共通的,但根据问题的难易度,各元分类器可以异构化。 例如,一个分类SVM效果好,应结合一个分类SNNN,一个分类应结合RNN来处理。   上图为实体词识别算法的case。 根据分词结果和词性标签选择候补,期间有可能需要基于知识库进行一些拼接,一些实体需要决定哪些单词可以结合在一起映射实体描述。 在结果映射了多个实体的情况下,进一步通过单词向量、topic分布以及词数本身等来消除歧义,最后计算相关模型。
头条优化