第337章(1 / 2)

妹妹似乎也注意到林灰在同传方面这个善解人意的做法了。

伊芙·卡莉注意到米娜·卡莉有意无意地不知道撩动过几回头发了。

当然米娜的示好也可能仅仅是因为林灰的颜值。

按理说东方男性的外貌在西方人眼里是很难区分的。

但人帅到一定程度是超越地域局限的。

林灰似乎就是这种情况,哪怕以最苛刻的审美体系来评判,林灰的颜值也能打99分,满分10分。

第一眼看到林灰时,如果不是林灰主

动表露身份,伊芙·卡莉甚至觉得林灰的身份会是一个模特。

当然这些都是题外话了。

注意到林灰在细节方面有意无意释放的善意之后。

伊芙·卡莉在进行陈述的时候彻底放松了下来。

在向林灰着重介绍了这个时空里人们是如何评估文本相似度的。

伊芙·卡莉注意到林灰听说她的团队先前是利用基于网络知识的方法来评估文本相似度时眉毛蹙了一下。

莫非是林灰并不认同基于网络知识评估文本相似度的方法?

还是说林灰觉得有什么方法比这种方法更好呢?

伊芙·卡莉默默将这件事记在心里。

在伊芙·卡莉陈述完成后。

林灰领略到了她的意思。

不过却并没有正面回答伊芙·卡莉的问题。

而是反问伊芙·卡莉:“关于使用向量介入进行语义文本相似度计算你怎么看?”

虽然这是林灰在这次交流中提出的第一个问题。

但这个问题让伊芙·卡莉多少有点措手不及。

伊芙·卡莉不太清楚林灰为什么提出这个问题。

莫非可以不依靠向量来进行语义文本相似度计算吗?

可这怎么能做到呢?

机器识别文本时为了要机器识别自然语言,往往将自然语言数值化。

而将这些数值进行属性区分则必须进行向量化。

这种方法已经有很长时间历史了,伊芙·卡莉记得在1977年(这个时空)就有研究人员首次提出向量空间模型VSM了。

一经提出这种研究方法就比较受欢迎。

虽然很快这种方法就被发现了有不小的漏洞。

利用VSM方法的话,当文本量很大时,生成的文本向量是非常稀疏的,这就导致了空间和计算资源的浪费

另外VSM为达到简化模型的效果忽略了词语间的关系,而在很多情况下词语之间是存在联系的,因此简单地认为词语间相互独立是不合理的。

尽管有着明显的漏洞,但在之后近四十年的历史中,人们仍然要引入向量进行语义文本相似度分析。

以伊芙·卡莉先前的团队,虽然他们在先前用的是基于网络知识计算文本相似度的方法。

但本质上也只是将Wiki百科中的网页内容映射为高维向量,

再通过基于向量空间的方法进行语义文本相似度计算。

可以说依旧没能离开向量空间的壳子。

虽然四十年后,当年遇到的所谓的“空间和计算资源浪费”某种程度上可以通过硬堆计算力可以暴力解决。

但这仅仅是能解决当年遇到的难题而已。

现在文本处理时面对的信息量复杂程度和当年完全不可同日而语。

此时的向量化面对着全新的困难维度爆炸!

维度灾难(又名维度的诅咒)是一个最早由理查德·贝尔曼在考虑优化问题时首次提出来的术语,用来描述当数学空间维度增加

时,分析和组织高维空间(通常有成百上千