网站开发如何报价单,新华网,百度竞价点击价格,ps图做ppt模板下载网站有哪些内容文章目录1 概述2 词汇挖掘2.1 关键词提取2.1.1 基于特征统计2.1.2 基于主题模型2.1.3 Text-Rank算法提取2.2 同义词挖掘2.2.1 同义词类型2.2.2 挖掘2.3 缩略词挖掘2.4 新词挖掘3 实体识别(NER)3.1 基于概率图模型3.2 基于深度学习1 概述
实体#xff1a;是文本中的一些词汇或…
文章目录1 概述2 词汇挖掘2.1 关键词提取2.1.1 基于特征统计2.1.2 基于主题模型2.1.3 Text-Rank算法提取2.2 同义词挖掘2.2.1 同义词类型2.2.2 挖掘2.3 缩略词挖掘2.4 新词挖掘3 实体识别(NER)3.1 基于概率图模型3.2 基于深度学习1 概述
实体是文本中的一些词汇或者短语。例如清华大学、李白。 但有些词汇不是实体。例如鲜艳的守株待兔。 具体措施挖掘尽可能多高质量的词汇筛选目标知识图谱中的实体。
2 词汇挖掘
2.1 关键词提取
2.1.1 基于特征统计
词频TF-IDF位置特征词跨度词的固定属性词长、词性、是否全部大小写等
2.1.2 基于主题模型
主题模型的核心假设是存在隐含变量文本主题决定文本中词汇的出现情况。获取每个主题下的高频词作为关键词。
2.1.3 Text-Rank算法提取
基于PageRank
在文本中词与相邻词之间可以类比于有跳转关系的2个网页。
改进直接设窗口半径改进到从句法分析的角度定义链接关系。
2.2 同义词挖掘
2.2.1 同义词类型
1 不同国家的互译自行车、bike 2 相同含义的词花朵、花儿 3 不同称呼周董、周杰伦番茄、西红柿上海、沪
2.2.2 挖掘
1 字典wordnet、汉语大词典、大词林特点质量高、不完整 2 百科 3 基于模式匹配 X又称YX(Y);X简称YX亦称YX俗称Y等等 特点准确率高召回率低不能找到的同义词很多 4 基于bootstrapping自举法 模式匹配发现同义词对 根据同义词对发现更多的模式。 半监督模式可以自己学习到一些模式。
2.3 缩略词挖掘
缩略词可以说是一种特殊的同义词。 同义词的挖掘方式也可以用于缩略词挖掘但更多的还是要依靠人工。 缩略词有表音的Doctor 与Dr
有表意的北京大学与北大安全理事会与安理会。
2.4 新词挖掘
新词是指词库中不存在的词但还可能是一个词的词。 挖掘方法是先对文本进行分词。分词后根据词之间的凝固度还有词左右熵来确定一个词是不是新词。 首先新词可能是原来两个词三个词…组成一个新词。 第二看下候选词的凝固度。以两个词为例。如果x和y总是同时出现x与别的词一起出现的概率低y与别的词出现概率低那大概率x和y可以组成一个新词。 PMI(x,y)logP(x,y)P(x)∗P(y)PMI(x,y)log\dfrac{P(x,y)}{P(x)*P(y)}PMI(x,y)logP(x)∗P(y)P(x,y) 第三看下候选词左边相邻词右边相邻词的熵。表示了左右相邻词的丰富程度。越丰富表名候选词越可能成为一个词。 P(x,y)−∑w∈WP(w)logP(w)P(x,y)-\sum_{w\in W}P(w)logP(w)P(x,y)−∑w∈WP(w)logP(w)W是所有x,y组合左右相邻词的集合。
3 实体识别(NER)
3.1 基于概率图模型
3.2 基于深度学习