• 信息检索、信息获取的趋势:从图书馆目录管理,到关键词检索,到知识图谱的语义检索。

  • KG是Search Engine的改进。最开始由Google提出,口号叫做“Things, Not string”

  • 搜索引擎的目标是给出指定问题的答案,推荐系统的目标是在指定场景中,根据背景信息,给出答案。

  • 知识图谱能否解决语言的模糊性?通过概率统计,将语义相近的词关联起来。

  • 当前的主流是把符号模型和特征空间投射到一个空间去,这个空间叫做语义的向量空间。也就是说我们把符号变成向量,同时把特征空间的向量变成语义空间的向量。符号->向量(嵌入Embedding);特征空间->语义空间(提升Raising)。

  • 领域知识图谱最关键的还是在于构建schema,这个schema与最终的应用紧紧关联。

  • 当前学术知识组织主要依赖 学科分类 与 关键词。

  • 学科分类的好处在于和组织机构紧密相关,而缺点在于跨学科研究难以找到合适的位置。

  • 关键词的好处在于精准,而缺点在于由于科学研究创新性的特点,每年会出现大量的新词。机器难以理解新词。

  • 学术知识图谱的应用在于画像、推荐、匹配。最最本质的还是画像。

  • 画像的对象可以是论文、研究者、研究机构、资助机构、学术期刊、学术会议、特定领域的研究等。

  • 当前的画像,本质都是通过关键词(一组概念)来组织的。例如,研究者的研究兴趣,论文的关键词,研究机构的使命,学术期刊的范围,学术会议的范围等。

  • 关键词的搜索缺陷在于语义的缺失:包括多词同义或近义,词与词之间的联系,新词问题。

  • Google知识图谱为了解决语义理解问题,阿里巴巴知识图谱为了解决充满噪声、数据分散,无法互联、缺少数据的深度认知。

Reference: