0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Annoy:用于搜索空间中给定查询点的近邻点

科技绿洲 ? 来源:Python实用宝典 ? 作者:Python实用宝典 ? 2023-10-17 11:32 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Annoy 是由 spotify 开源的一个Python第三方模块,它能用于搜索空间中给定查询点的近邻点。

此外,众所周知,Python由于GIL的存在,它的多线程最多只能用上一个CPU核的性能。如果你想要做性能优化,就必须用上多进程。

但是多进程存在一个问题,就是所有进程的变量都是独立的,B进程访问不到A进程的变量,因此Annoy为了解决这个问题,增加了一个静态索引保存功能,你可以在A进程中保存Annoy变量,在B进程中通过文件的形式访问这个变量。

1.准备

开始之前,你要确保Python和pip已经成功安装在电脑上,如果没有,可以访问这篇文章:超详细Python安装指南 进行安装。

**(可选1) **如果你用Python的目的是数据分析,可以直接安装Anaconda:Python数据分析与挖掘好帮手—Anaconda,它内置了Python和pip.

**(可选2) **此外,推荐大家用VSCode编辑器,它有许多的优点:Python 编程的最好搭档—VSCode 详细指南

请选择以下任一种方式输入命令安装依赖

  1. Windows 环境 打开 Cmd (开始-运行-CMD)。
  2. MacOS 环境 打开 Terminal (command+空格输入Terminal)。
  3. 如果你用的是 VSCode编辑器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install annoy

2.基本使用

Annoy使用起来非常简单,学习成本极低。比如我们随意生成1000个0,1之间的高斯分布点,将其加入到Annoy的索引,并保存为文件:

# 公众号:Python 实用宝典
from annoy import AnnoyIndex
import random

f = 40
t = AnnoyIndex(f, 'angular') # 用于存储f维度向量
for i in range(1000):
    v = [random.gauss(0, 1) for z in range(f)]
    t.add_item(i, v)

t.build(10) # 10 棵树,查询时,树越多,精度越高。
t.save('test.ann')

这样,我们就完成了索引的创建及落地。Annoy 支持4种距离计算方式:
"angular","euclidean","manhattan","hamming",或"dot",即余弦距离、欧几里得距离、曼哈顿距离、汉明距离及点乘距离。

接下来我们可以新建一个进程访问这个索引:

from annoy import AnnoyIndex

f = 40
u = AnnoyIndex(f, 'angular')
u.load('test.ann')
print(u.get_nns_by_item(1, 5))
# [1, 607, 672, 780, 625]

其中,**u.get_nns_by_item(i, n, search_k=-1, include_distances=False) **返回第 i 个 item 的n个最近邻的item。在查询期间,它将检索多达search_k(默认n_trees * n)个点。

如果设置include_distances为True,它将返回一个包含两个列表的元组,第二个列表中包含所有对应的距离。

3.算法原理

构建索引 :在数据集中随机选择两个点,用它们的中垂线来切分整个数据集。再随机从两个平面中各选出一个顶点,再用中垂线进行切分,于是两个平面变成了四个平面。以此类推形成一颗二叉树。当我们设定树的数量时,这个数量指的就是这样随机生成的二叉树的数量。所以每颗二叉树都是随机切分的。

查询方法

  1. 将每一颗树的根节点插入优先队列;
  2. 搜索优先队列中的每一颗二叉树,每一颗二叉树都可以得到最多 Top K 的候选集;
  3. 删除重复的候选集;
  4. 计算候选集与查询点的相似度或者距离;
  5. 返回 Top K 的集合。

4.附录

下面是Annoy的所有函数方法:

1.** AnnoyIndex(f, metric) **返回可读写的新索引,用于存储f维度向量。metric 可以是 "angular","euclidean","manhattan","hamming",或"dot"。2. a.add_item(i, v) 用于给索引添加向量v,i 是指第 i 个向量。

3.** a.build(n_trees) ** 用于构建 n_trees 的森林。查询时,树越多,精度越高。在调用build后,无法再添加任何向量。

4.** a.save(fn, prefault=False) **将索引保存到磁盘。保存后,不能再添加任何向量。

5.** a.load(fn, prefault=False) ** 从磁盘加载索引。如果prefault设置为True,它将把整个文件预读到内存中。默认值为False。

6.** a.unload() **释放索引。

7.** a.get_nns_by_item(i, n, search_k=-1, include_distances=False) **返回第 i 个item的 n 个最近邻的item。

8.** a.get_nns_by_vector(v, n, search_k=-1, include_distances=False) **与上面的相同,但按向量v查询。

  1. **a.get_item_vector(i) **返回第i个向量。

10.** a.get_distance(i, j) ** 返回向量i和向量j之间的距离。

11.** a.get_n_items() **返回索引中的向量数。

12.** a.get_n_trees() **返回索引中的树的数量。

13.** a.on_disk_build(fn) **用以在指定文件而不是RAM中建立索引(在添加向量之前执行,在建立之后无需保存)。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电脑
    +关注

    关注

    16

    文章

    1786

    浏览量

    70576
  • 文件
    +关注

    关注

    1

    文章

    585

    浏览量

    25434
  • 编辑器
    +关注

    关注

    1

    文章

    823

    浏览量

    32132
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    怎么测量空间中的电磁功率(功率密度)?

    怎么测量天线辐射下空间中的电磁功率(功率密度)?
    发表于 10-16 16:32

    核仿射子空间最近分类算法

    受支持向量机的几何解释和最近问题启发,提出一种新型的模式分类算法——核仿射子空间最近分类算法。该算法在核空间中,将支持向量机几何模型中的最近
    发表于 04-16 11:38 ?11次下载

    基于Hilbert曲线的近似k-最近邻查询算法

    在低维空间中R树的查询效率较高,而在高维空间中其性能急剧恶化,降维成为解决问题的关键。利用Hilbert曲线的降维特性,该文提出基于Hilbert曲线近似k-最近邻
    发表于 04-20 08:53 ?18次下载

    Banach空间中非扩张非自映象不动的粘滞迭代逼近

    Banach空间中非扩张非自映象不动的粘滞迭代逼近:在具有弱序列连续对偶映象的自反Banach 空间中利用太阳非扩张收缩映象研究了非扩张非自映象不动的粘滞迭代逼近. 证明了此映
    发表于 10-25 12:16 ?10次下载

    基于KL散度和近邻间距离的球面嵌入算法

    适合原始数据分布的球面半径。该算法从一个随机产生的球面分布开始,利用KL散度衡量每对近邻间的归一化距离在原始空间和球面空间中的差异,并基于此差异构建出目标函数,然后再用带有动量的随机
    发表于 12-05 11:55 ?0次下载

    激光散乱云K最近邻搜索算法

    针对激光散乱云的数据量大,且具有面型的特点,为降低存储器使用量,提高散乱云的处理效率,提出了一种散乱云K最近邻(KNN)搜索算法。首先
    发表于 12-11 14:09 ?1次下载

    路网环境下的最近邻查询技术

    近邻查询作为基于位置服务的重要支持性技术之一,引起了众多学者的广泛关注和深入研究,相对于欧式空间而言,路网环境下的最近邻查询更贴近人们的生
    发表于 12-18 14:14 ?0次下载
    路网环境下的最<b class='flag-5'>近邻</b><b class='flag-5'>查询</b>技术

    近邻的随机非线性降维

    针对线性降维技术应用于具有非线性结构的数据时无法得到令人满意的结果的问题,提出一种新的着重于保持高维空间局部最近邻信息的非线性随机降维算法( NNSE)。该算法首先在高维空间中通过计算
    发表于 12-23 11:45 ?0次下载

    高维空间逼近最近邻评测

    近邻方法是机器学习中一个非常流行的方法,它的原理很容易理解:邻近的数据点是相似的数据点,更可能属于同一分类。然而,在高维空间中快速地应用最近邻方法,却是非常有挑战性的工作。
    的头像 发表于 05-29 08:33 ?5229次阅读
    高维<b class='flag-5'>空间</b>逼近最<b class='flag-5'>近邻</b>评测

    如何在障碍空间中基于并行蚁群算法进行k近邻查询

    为解决障碍空间中的后近邻查询问题,提出一种基于改进的并行蚁群算法的五近邻查询方法( PAQ)。首先,利用不同信息素种类的蚁群实现并行
    发表于 03-27 13:39 ?12次下载
    如何在障碍<b class='flag-5'>空间中</b>基于并行蚁群算法进行k<b class='flag-5'>近邻</b><b class='flag-5'>查询</b>

    一种采用空间投影的RGB-D云分割技术

    摄像机数学模型采用小孔成像的原理,在笛卡儿空间中建立景物与成像之间的映射关系。令P=(Xw,Yw,Zw)为像素p(u,v)投射在世界坐标系中的
    的头像 发表于 06-18 11:30 ?3295次阅读
    一种采用<b class='flag-5'>点</b>云<b class='flag-5'>空间</b>投影的RGB-D<b class='flag-5'>点</b>云分割技术

    基于嵌入向量的全新设备端搜索

    搜索库通过使用模型,将搜索查询嵌入到表示查询语义的高维向量中来执行搜索。随后搜索库使用 Sca
    的头像 发表于 06-02 11:30 ?2377次阅读

    Annoy求近似最近邻的库

    ./oschina_soft/annoy.zip
    发表于 06-21 14:14 ?1次下载
    <b class='flag-5'>Annoy</b>求近似最<b class='flag-5'>近邻</b>的库

    介绍当前比较常见的几种近邻搜索算法

    随着深度学习的发展和普及,很多非结构数据被表示为高维向量,并通过近邻搜索来查找,实现了多种场景的检索需求,如人脸识别、图片搜索、商品的推荐搜索等。
    的头像 发表于 09-29 17:11 ?2865次阅读

    激光雷达SLAM中高效的云数据结构

    k-d树是一种常用的多维数据结构,它可以用于范围搜索、最近邻搜索等问题。但是,在实际应用中,我们经常需要对动态数据进行查询和修改操作。
    的头像 发表于 05-09 09:07 ?1354次阅读
    激光雷达SLAM中高效的<b class='flag-5'>点</b>云数据结构