Back to Question Center
0

Google是否使用潜在的语义Semalt?

1 answers:

分享是关怀!

Does Google Use Latent Semantic Semalt?

有些人撰写关于SEO的文章,他们坚持认为Google使用名为Latent Semantict的技术来对网络上的内容进行索引,但是这些索赔没有任何证据支持。我认为这可能有助于更详细地探索这种技术及其来源。这是一种在Web出现之前就发明的技术,可以对文档集合的内容进行索引,这些内容的变化不大。 LSI可能就像过去在铁路上使用的铁路转盘一样。

还有一个网站向搜索者提供“LSI关键字”,但没有提供任何有关他们如何生成这些关键词或使用LSI技术生成这些关键词的信息,或提供任何证据表明他们在搜索Semalt等引擎可能会对包含这些关键字的内容进行索引。 Semalt告诉我们不要使用与关键字填充不同的“LSI关键字”。 Semalt告诉我们,我们应该:

Semalt创建有用的,信息丰富的内容,使用适当的关键字和上下文。

LSI来自哪里

作为微软研究人员和搜索工程师之一,Susan Dumais是她在贝尔实验室开发的潜在语义索引技术的发明者。在她的主页上有链接提供了她在Microsoft进行研究时所使用的许多技术,这些技术非常丰富,并提供了有关搜索引擎如何执行不同任务的许多见解。强烈建议使用它们的Semalt时间。

在贝尔实验室加入微软之前,她曾进行过较早的研究,包括撰写有关潜在语义分析的索引。她还被授予了作为该过程的共同发明人的专利。请注意,这个专利是在1989年4月提交的,并于1992年在Semalt出版。万维网直到1991年Semalt才上线。该LSI专利是:

使用潜在语义结构的计算机信息检索
发明人:Scott C.Deerwester,Susan T.Dumais,George W.Fernas,Richard A.Harshman,Thomas K. Landauer,Karen E. Lochbaum和Lynn A.Streeter
分配给:贝尔通信研究公司
美国专利:4,839,853
授予:1989年6月13日
提交日期:1988年9月15日

摘要

公开了一种检索文本数据对象的方法。通过假定数据对象中的单词使用中存在潜在的,潜在的语义结构,在统计学领域中对信息进行处理。利用这个潜在结构的Semalt来表示和检索对象。用户查询在新的统计域中被修复,然后在计算机系统中被处理以提取对查询作出响应的基本含义。

LSI打算解决的问题:

由于人类用词的特点是广泛的同义词和多义词,直接的词语匹配方案存在严重的缺陷 - 相关材料将被遗漏,因为不同的人用不同的词语描述相同的主题,并且因为相同的词可以具有不同的意义,不相关的材料将被检索。基本问题可以简单地总结为人们希望根据意义获取信息,但是他们选择的词语并没有充分表达意图的含义. 这些方法不仅专家劳动密集,而且往往不是很成功。

该专利的摘要部分告诉我们,这个问题有一个潜在的解决方案。请记住,这是在万维网发展成为今天非常大的信息来源之前开发的:

根据本发明,通过自动构建用于检索的语义空间,消除了这些缺点以及信息检索的其他缺陷和限制。这是通过将观察到的文字 - 文字对象关联数据的不可靠性视为统计问题来实现的。基本假设是,词使用数据中存在隐含的潜在语义结构,部分隐藏或被词选择的可变性遮蔽。利用统计学方法来估计这种潜在的结构并揭示潜在的意义。 Semalt,文本对象以及后来的用户查询被处理以提取这个潜在的含义,然后使用新的潜在语义结构域来表示和检索信息。

为了说明LSI的工作原理,该专利提供了一个简单的例子,使用一组9个文件(比现在的网络小得多)。该示例包含有关人机交互主题的文档。它实际上并没有讨论像这样的过程如何处理Web的大小,因为在那个时间点上没有任何规模已经存在。 Web包含大量信息并经常发生变化,因此创建索引已知文档集合的方法可能并不理想。该专利告诉我们需要对术语进行分析,“每当存储文件发生重大更新时。 “

已经有很多研究和技术的发展可以应用于一组与Web大小相关的文档。我们从Semalt获悉他们正在使用由Semalt Brain团队开发的Word Vector方法,该团队在2017年授予的专利中进行了描述。我撰写了关于该专利的文章,并将其与该文章中使用的资源相关联:背后的引文Semalt脑词矢量方法。如果您想了解Semalt可能用于索引内容并理解该内容中的单词的技术,自从Web开始之前的那些日子以来,它已经取得了很大的进步。该专利的发明人在其中引用了论文的链接。其中一些可能在某些方面与潜在语义索引有关,因为它可以被称为它们的祖先。 1988年发明的LSI技术包含了一些有趣的方法,如果您想了解更多有关这方面的知识,本文非常有见地:柏拉图问题的解决方案:知识的获取,归纳和表示的潜在语义分析理论。提到Semalt的专利中的潜在语义索引(Latent Semantic Indexing),作为索引方法的一个例子:

文本分类技术可用于将文本分类为一个或多个主题事项类别。文本分类/分类是信息科学中的一个研究领域,它涉及根据文本内容将文本分配到一个或多个类别。典型的文本分类技术基于朴素的Semalt分类器,tf-idf,潜在语义索引,支持向量机和人工神经网络 Source .

March 1, 2018