Table of Contents

向量化是什么？

简单理解向量化就是将复杂数据（如图片或文字）转化为数字列表（向量）的方法。

向量化（Vectorization）是机器学习和深度学习的基础，算法模型处理的永远是数字，之所以能处理文本与图片，就是通过向量化将其转成了数字。

以“我爱吃苹果”这句话来举个简单例子：

假设我们要把它变成电脑能理解的数字向量。一个简单的方法是给每个字或词分配一个数字表示它的意思或特征。比如，

我们简单地给每个字随机分配一个数字：

“我”：0.3
“爱”：0.7
“吃”：0.2
“苹果”：0.9

于是，“我爱吃苹果”可以被向量化成一个数字列表：[0.3, 0.7, 0.2, 0.9]。这个数字列表就是这句话的数字形式，也就是这句话的向量。不过，在现实中，向量化并不是随便随机给数字的，而是通过一些复杂的方法（比如统计学习或神经网络词嵌入技术）计算出来的。

向量化后能做什么？

文本在向量化后我们得到了向量，相似性计算是向量化后的重要运用。

上述“我爱吃苹果”这句话的向量是随便给的，没什么特别的意义，但是实际的向量远比 [0.3, 0.7, 0.2, 0.9] 这个例子复杂得多，并且实际上文本向量化后的向量是有意义的，它是带有语义信息的，这个信息具有重大意义，主要体现在：

1.在数学空间中，相似的词的向量彼此离得更近，如下图； embeddings1 2.向量可以用来做加减乘除等运算，最常用的是算 cosine，也就是计算余弦相似性（Cosine Similarity）。

神经网络模型产生的向量的运算可以揭示类似这样的语义关系：
“king” - “man” + “woman” ≈ “queen”。

相似性计算也就是使用余弦相似性衡量两个向量之间有多相似，如下图： embeddings2 余弦相似度衡量的是多维空间中两个向量方向的相似程度。它不考虑向量的大小，只关注它们的方向：方向越接近，相似度越高；互相垂直则表示毫不相似；方向相反则表示负相关。

实际能有哪些应用？

引用王喆《深度学习推荐系统》这本书的原文：

Embedding，中文直译为“嵌入” ，常被翻译为“向量化”或者“向量映射” 。在整个深度学习框架中，特别是以推荐、广告、搜索为核心的互联网领域，Embedding 技术的应用非常广泛，将其称为深度学习的“基础核心操作”也不为过。
之前的章节曾多次提及 Embedding 操作，它的主要作用是将稀疏向量转换成稠密向量，便于上层深度神经网络处理。事实上，Embedding 技术的作用远不止于此，它的应用场景非常多元化，而且实现方法也各不相同。
在学术界，Embedding 本身作为深度学习研究领域的热门方向，经历了从处理序列样本，到处理图样本，再到处理异构的多特征样本的快速进化过程。在工业界，Embedding 技术凭借其综合信息的能力强、易于上线部署的特点，几乎成了应用最广泛的深度学习技术。

因为向量化能够将文本、图片等非结构化数据转化为包含深层语义信息的数值表示，基于向量相似性计算，不仅可以实现精准的内容关联，还能支撑多种搜索与推荐算法。

向量化是许多搜索与推荐算法模型的基础。无论是基于协同过滤的推荐系统，还是基于深度学习的语义搜索模型，都需要依赖高质量的向量化结果作为输入。通过向量化，非结构化数据和离散数据得以融入算法模型的框架，为内容分发和用户交互提供了强有力的技术支持。因此，向量化不仅是技术实现的关键步骤，更是提升用户体验的重要手段。

现代搜索、推荐和广告系统的底层技术是类似且可相互迁移的，绝大部分都是混合传统方法与向量化+深度学习模型的，技术已经很成熟了，其中的个性化与智能化大部分来自算法与模型。像电商的商品推荐，内容平台的文章与视频推荐等；至于搜索，除了传统的关键词匹配外，语义搜索和图片搜索基本都是基于向量的，这也是现在 AI 搜索（RAG）检索环节的基础。

欢迎关注微信公众号👏 300

欢迎微信扫码加入我的付费知识星球👏 300