Nebula分布式集群

news2025/1/11 2:14:32
2022年9月15日18:47:38

文章目录

  • Nebula
    • 1.安装:
    • 2.数据模型
    • 3.NebulaGraph 架构总览
    • 4.基本命令文档
      • 4.0 数据类型
      • 4.1 spaces图空间
        • CREATE SPACE
        • DROP SPACE
        • CLEAR SPACE
        • SHOW SPACES
        • DESC SPACE
      • 4.2 Tag
      • 4.3 edge
      • 4.4 点语句
        • INSERT VERTEX
        • DELETE VERTEX
        • UPDATE VERTEX
        • UPSERT VERTEX
      • 4.5 边语句
        • INSER EDGE
        • DELETE EDGE
        • UPDATE EDGE
        • UPSERT EDGE
      • 4.6 通用查询
        • MATCH
          • 匹配连接的点
          • 匹配路径
          • 匹配边
          • 匹配 Edge type
          • 匹配边的属性
          • 匹配多条边
          • 匹配定长路径
          • 匹配变长路径
          • 匹配最短路径
          • 多MATCH检索
        • LOOKUP
          • 检索点
          • 检索边
          • 通过 Tag 列出所有的对应的点/通过 Edge type 列出边
          • 统计点或边
        • GO
        • FETCH
          • 获取点的属性值
          • 获取边的属性值
      • 4.7 状态查询
        • 集群信息
        • 图空间信息
        • 索引信息
        • 分片信息
        • 统计信息
        • 查询 TAG、EDGE
        • 查询创建索引状态
        • 查询快照
    • 5.索引介绍:
      • 创建索引
      • 查询索引
      • 重建索引
      • 删除索引
    • 6.数据压力测试
    • 7.集群的搭建

Nebula

​ NebulaGraph 是一款开源的、分布式的、易扩展的原生图数据库,能够承载包含数千亿个点和数万亿条边的超大规模数据集。

​ 从设计上来看,没有做设计约束。也就是理论上点边可以更大,当然也不太好说无限,毕竟真到了无限,肯定会受制于某个系统中的短板,如存储、网络、数据长度等等。我们在文档中描述的千亿点,万亿边,是客户已经有到了这个量级的系统规模。如果再上个量级,支持起来问题也不大。从目前客户遇到的规模来看,千亿点,万亿边已经属于很大的集群了,基本都能满足大部分客户的规模诉求!

https://discuss.nebula-graph.com.cn/t/topic/7220

文档手册:https://docs.nebula-graph.com.cn/3.2.0/

NebulaGraph 是针对 NVMe SSD 进行设计和实现的,所有默认参数都是基于 SSD 设备进行调优,要求极高的 IOPS 和极低的 Latency。

  • 不建议使用 HDD;因为其 IOPS 性能差,随机寻道延迟高;会遇到大量问题。(storage 的 rocksdb_block_cache,可以调整到内存的 1/3,让读的话少走磁盘,尽量走缓存)

  • 不要使用远端存储设备(如 NAS 或 SAN),不要外接基于 HDFS 或者 Ceph 的虚拟硬盘。

  • 不要使用磁盘阵列(RAID)。

  • 使用本地 SSD 设备;或 AWS Provisioned IOPS SSD 或等价云产品。

1.安装:

NebulaGraph:

下载地址:https://nebula-graph.com.cn/download

下载安装包:
centos8
wget https://oss-cdn.nebula-graph.com.cn/package/3.2.1/nebula-graph-3.2.1.el8.x86_64.rpm

sudo rpm -ivh nebula-graph-3.2.0.el7.x86_64.rpm

NebulaGraph Studio:

#默认安装路径为/usr/local/nebula-graph-studio
wget https://oss-cdn.nebula-graph.com.cn/nebula-graph-studio/3.4.1/nebula-graph-studio-3.4.1.x86_64.rpm
 sudo rpm -i nebula-graph-studio-3.4.1.x86_64.rpm 
 
 sudo rpm -i nebula-graph-studio-3.4.1.x86_64.rpm   --prefix=<path> 
# 不要用127.0.0.1和localhost
http://<ip address>:7001

NebulaGraph Console:

wget https://github.com/vesoft-inc/nebula-console/releases/download/v3.2.0/nebula-console-linux-amd64-v3.2.0

./nebula-console -addr 192.168.10.8 -port 9669 -u root -p Joespassword

NebulaGraph Importer:

docker run --rm -ti  --privileged=true  \
    --network=host \
    -v /usr/local/nebula/tools/loadcsv/:/usr/local/nebula/tools/loadcsv/ \
    -v /usr/local/nebula/tools/loadcsv/:/usr/local/nebula/tools/loadcsv/ \
    vesoft/nebula-importer
    --config  /usr/local/nebula/tools/loadcsv/config.yaml

config.yaml配置模板

# 连接的 NebulaGraph 版本,连接 3.x 时设置为 v3。
version: v3

# 是否删除临时生成的日志和错误数据文件。
removeTempFiles: false

clientSettings:
  # nGQL 语句执行失败的重试次数。
  retry: 3

  # NebulaGraph 客户端并发数。
  concurrency: 10

  # 每个 NebulaGraph 客户端的缓存队列大小。
  channelBufferSize: 128

  # 指定数据要导入的 NebulaGraph 图空间。
  space: neo4j

  # 连接信息。
  connection:
    user: root
    password: nebula
    address: 127.0.0.1:9669

  postStart:
    # 配置连接 NebulaGraph 服务器之后,在插入数据之前执行的一些操作。
    commands: |
      UPDATE CONFIGS storage:wal_ttl=3600;
      UPDATE CONFIGS storage:rocksdb_column_family_options = { disable_auto_compactions = true };
      DROP SPACE IF EXISTS neo4j;
      CREATE SPACE IF NOT EXISTS neo4j(partition_num=5, replica_factor=1, vid_type=FIXED_STRING(64));
      USE neo4j;
      DROP TAG IF EXISTS person;
      CREATE TAG IF NOT EXISTS person(name string,is_comfirmaed bool);
      DROP EDGE IF EXISTS 同居;
      CREATE EDGE  IF NOT EXISTS 同居(start_time float, end_time float);

    # 执行上述命令后到执行插入数据命令之间的间隔。
    afterPeriod: 8s
  preStop:
    # 配置断开 NebulaGraph 服务器连接之前执行的一些操作。
    commands: |
       UPDATE CONFIGS storage:rocksdb_column_family_options = { disable_auto_compactions = false };
       UPDATE CONFIGS storage:wal_ttl=86400;
    

# 错误等日志信息输出的文件路径。
logPath: ./err/import.log

# CSV 文件相关设置。
files:
  # 数据文件的存放路径,如果使用相对路径,则会将路径和当前配置文件的目录拼接。本示例第一个数据文件为点的数据。
  - path: ./person.csv

    # 插入失败的数据文件存放路径,以便后面补写数据。
    failDataPath: ./err/

    # 单批次插入数据的语句数量。
    batchSize: 100

    # 读取数据的行数限制。
    limit: null

    # 是否按顺序在文件中插入数据行。如果为 false,可以避免数据倾斜导致的导入速率降低。
    inOrder: true

    # 文件类型,当前仅支持 csv。
    type: csv

    csv:
      # 是否有表头。
      withHeader: false

      # 是否有 LABEL。
      withLabel: false

      # 指定 csv 文件的分隔符。只支持一个字符的字符串分隔符。
      #delimiter: ","

    schema:
      # Schema 的类型,可选值为 vertex 和 edge。
      type: vertex

      vertex:
        # 点 ID 设置。
        vid:
          # 点 ID 对应 CSV 文件中列的序号。CSV 文件中列的序号从 0 开始。
          index: 0
          # 点 ID 的数据类型,可选值为 int 和 string,分别对应 NebulaGraph 中的 INT64 和 FIXED_STRING。
          type: string

        # Tag 设置。
        tags:
          # Tag 名称。
          - name: person

            # Tag 内的属性设置。
            props:
              # 属性名称。
              - name: name
                # 属性数据类型。
                type: string
                # 属性对应 CSV 文件中列的序号。
                index: 1

              - name: is_comfirmaed
                type: bool
                index: 2
    # 本示例第二个数据文件为边的数据。
  - path: ./person_livewith.csv
    failDataPath: ./err/
    batchSize: 100
    limit: null
    inOrder: true
    type: csv
    csv:
      withHeader: false
      withLabel: false
      #delimiter: ","
    schema:
      # Schema 的类型为 edge。
      type: edge
      edge:
        # Edge type 名称。
        name: 同居
        # 是否包含 rank。
        withRanking: false

        # 起始点 ID 设置。
        srcVID:
          # 数据类型。
          type: string
          # 起始点 ID 对应 CSV 文件中列的序号。
          index: 0
        # 目的点 ID 设置。
        dstVID:
          type: string
          index: 1
        rank: null
        # Edge type 内的属性设置。
        props:
          # 属性名称。
          - name: start_time
            # 属性数据类型。
            type: float
            # 属性对应 CSV 文件中列的序号。
            index: 2
          - name: end_time
            type: float
            index: 3

2.数据模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0zzPat9H-1686046185434)(image/dataset-for-crud.png)]

  • 图空间(Space)

    图空间用于隔离不同团队或者项目的数据。不同图空间的数据是相互隔离的,可以指定不同的存储副本数、权限、分片等。

    如 mysql 的数据库概念, use xxx;

  • 点(Vertex)

    点用来保存实体对象,特点:

    • 点是用点标识符(VID)标识的。VID在同一图空间中唯一。VID 是一个 int64,或者 fixed_string(N)。
    • 点可以有 0 到多个 Tag。

    如 neo4j 的 node 概念

  • 边(Edge)

    • 两点之间可以有多条边。
    • 边是有方向的,不存在无向边。
    • 四元组 <起点 VID、Edge type、边排序值 (rank)、终点 VID> 用于唯一标识一条边。边没有 EID。
    • 一条边有且仅有一个 Edge type。
    • 一条边有且仅有一个 Rank,类型为 int64,默认值为 0。

Rank 可以用来区分 Edge type、起始点、目的点都相同的边。该值完全由用户自己指定。

  • 标签(Tag) (点的 table schema)
    • Tag 由一组事先预定义的属性构成。
  • 边类型(Edge type) 边的 table schema
    • Edge type 由一组事先预定义的属性构成。
  • 属性(Property)
    • 属性是指以键值对(Key-value pair)形式表示的信息

Note:

​ NebulaGraph 中没有无向边,只支持有向边。(边需要有方向)

3.NebulaGraph 架构总览

​ NebulaGraph 由三种服务构成:Graph 服务、Meta 服务和 Storage 服务,是一种存储与计算分离的架构。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BRnKhfy9-1686046185435)(image/nebula-graph-architecture_3.png)]

Meta 服务:

​ 负责数据管理,如Schema操作,集群管理,和用户权限管理

Graph服务:

​ Graph 服务主要负责处理查询请求,包括解析查询语句、校验语句、生成执行计划以及按照执行计划执行四个大步骤

Storage服务:

具体数据相关的存储

数据分片:

​ NebulaGraph 采用边分割的方式。并存储在不同逻辑分片(Partition)上,会发生切边与存储放大.

角色: 基于 Raft 协议的集群 leader follower

leader 是由多数派选举出来,只有 leader 能够对客户端或其他组件提供服务,其他 follower 作为候补,如果 leader 出现故障,会在所有 follower 中选举出新的 leader。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w9g9qY0x-1686046185436)(image/edge-division.png)]

分片算法:

​ 分片策略采用静态 Hash 的方式,即对点 VID 进行取模操作,同一个点的所有 Tag、出边和入边信息都会存储到同一个分片,这种方式极大地提升了查询效率。

创建图空间时需指定分片数量,分片数量设置后无法修改,建议设置时提前满足业务将来的扩容需求。

vid = hash(id.data()); # 将vid字符串求哈希
pId = vid % numParts + 1;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ftT5P0Nn-1686046185437)(image/image-20220919101553393.png)]

例如有 100 个分片,VID为 1、101 和 1001 的三个点将会存储在相同的分片。分片 ID 和机器地址之间的映射是随机的,所以不能假定任何两个分片位于同一台机器上。

4.基本命令文档

https://docs.nebula-graph.com.cn/3.2.1/2.quick-start/6.cheatsheet-for-ngql-command/#_7

4.0 数据类型

数值:

​ 整数: INT64(INT)、INT32、INT16 和INT8。

​ 浮点数: 精度浮点(FLOAT)和双精度浮点(DOUBLE),不支持 MySQL 中的 DECIMAL 数据类型。

​ 当使用 nGQL 语句读取整形类型的属性时,获取到的值的类型是 INT64 ,读取浮点数,都被转为 DOUBLE

布尔:

​ true 或 false

字符串:

​ STRING变长字符串,FIXED_STRING() 定长字符串

日期和时间类型:

​ DATE、TIME、DATETIME、TIMESTAMP 和 DURATION

NULL:

​ 插入点或边时,属性值可以为NULL,用户也可以设置属性值不允许为NULL(NOT NULL)

复合数据类型(例如 List、Set、Map)不能存储为点或边的属性。

列表:

​ 数组 [1,2,3]

集合(Set):

​ 集合中的元素是无序的,且不允许重复。 set{1, 2, 1}

映射 (Map):

​ 一个映射是一组键值对(Key-Value)的无序集合,Key 是字符串类型,Value 可以是任何数据类型。map{key1: ‘Value1’, Key2: ‘Value2’}

地理位置:

​ Point、LineString 和 Polygon 三种地理形状。

4.1 spaces图空间

创建 spaces

CREATE SPACE

CREATE SPACE IF NOT EXISTS neo4j (partition_num=15, replica_factor=1,vid_type=FIXED_STRING(30)) comment="测试图空间";

graph_space_name, partition_num, replica_factor, vid_type, comment 设置后就无法改变。要想改变就先删除在创建

删除 SPASCE

DROP SPACE

DROP SPACE IF EXISTS SPACE_NAME

删除 spaces 的点和边 (不包括 tag、edge schema信息)

CLEAR SPACE

下面信息不会被删除:

  • Tag 信息。
  • Edge type 信息。
  • 原生索引和全文索引的元数据。

但所有的点和边都没了。

CLEAR  SPACE IF EXISTS SPACE_NAME

查询 spaces

SHOW SPACES

DESC SPACE

# 查看所有数据库   show databases;
show spaces;

# 查看指定数据库   
DESC SPACE <graph_space_name>;

# 查看创建图空间语句
SHOW CREATE SPACE <graph_space_name>;


4.2 Tag

创建 tag

# 创建有 name,age属性的tag
create tag if not exists tag_name (name string,age int)

# 创建没有属性的 Tag。
 CREATE TAG IF NOT EXISTS tag_name();
 
 # 创建包含默认值的 Tag。
 CREATE TAG IF NOT EXISTS tag_name(name string, age int DEFAULT 20);
 

删除 tag

删除 Tag 操作仅删除 Schema 数据,硬盘上的文件或目录不会立刻删除,而是在下一次 Compaction 操作时删除。

确保 Tag 不包含任何索引,否则DROP TAG时会报冲突错误 [ERROR (-1005)]: Conflict!

DROP TAG tag_name

修改 tag

nebula> CREATE TAG IF NOT EXISTS t1 (p1 string, p2 int);
nebula> ALTER TAG t1 ADD (p3 int, p4 string);
nebula> ALTER TAG t1 TTL_DURATION = 2, TTL_COL = "p2";
nebula> ALTER TAG t1 COMMENT = 'test1';
nebula> ALTER TAG t1 ADD (p5 double NOT NULL DEFAULT 0.4 COMMENT 'p5') COMMENT='test2';

查询 tag

# 显示图空间的 tag
SHOW TAGS;

# 显示指定 Tag 的详细信息,例如字段名称、数据类型等。
DESCRIBE TAG tag_name;

删除指定点上的指定 Tag

DELETE TAG <tag_name_list> FROM <VID>;

+------------------------------------------------------------+
| v                                                          |
+------------------------------------------------------------+
| ("test" :test1{p1: "123", p2: 1} :test2{p3: "456", p4: 2}) |
+------------------------------------------------------------+


nebula> DELETE TAG test1 FROM "test";
nebula> FETCH PROP ON * "test" YIELD vertex AS v;

+-----------------------------------+
| v                                 |
+-----------------------------------+
| ("test" :test2{p3: "456", p4: 2}) |
+-----------------------------------+


# 对应的neo4j
remove v:label 

4.3 edge

edge和tag类似

nebula> CREATE EDGE IF NOT EXISTS edge_name(degree int);

# 创建没有属性的 Edge type。
nebula> CREATE EDGE IF NOT EXISTS edge_name();

# 创建包含默认值的 Edge type。
nebula> CREATE EDGE IF NOT EXISTS edge_name(degree int DEFAULT 20);

# 对字段 p2 设置 TTL 为 100 秒。
nebula> CREATE EDGE IF NOT EXISTS edge_name(p1 string, p2 int, p3 timestamp) \
        TTL_DURATION = 100, TTL_COL = "p2";

SHOW PARTS语句显示图空间中指定分片或所有分片的信息。

SHOW PARTS 

4.4 点语句

INSERT VERTEX

指定图空间中插入一个或多个点。

# 正常插入
INSERT VERTEX person (name, age) VALUES "t_1":("肖在毅", 18);
# 一次插入 2 个点。
INSERT VERTEX person (name, age) VALUES "t_2":("肖在毅", 18),"t_3":("小明",18);


# 插入不包含 Tag 的点。
INSERT VERTEX  VALUES "t_4'":();

# 插入不包含属性的点。
INSERT VERTEX person () VALUES "t_5":(),"t_6":()

  • IF NOT EXISTS 仅检测 VID + Tag 的值是否相同,不会检测属性值。
  • IF NOT EXISTS 会先读取一次数据是否存在,因此对性能会有明显影响。

插入相同的语句,以最后一次为准 (后面把前面覆盖)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vGEkXfSK-1686046185437)(image/image-20220921183819864.png)]

DELETE VERTEX

可以删除点,但是默认不删除该点关联的出边和入边。此时将默认存在悬挂边。

悬挂边:起点或者终点不存在与数据库中的边

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EvbRpuna-1686046185438)(image/image-20220921185118151.png)]

# 删除 VID 为 `t_5` 的点,不删除该点关联的出边和入边。
DELETE VERTEX "t_5"

# 删除 VID 为 `t_6` 的点,并删除该点关联的出边和入边。
DELETE VERTEX "t_6" WITH EDGE;

# 结合管道符,删除符合条件的点。可以一次删除多个点

UPDATE VERTEX

可以修改点上 Tag 的属性值。

# 无条件
UPDATE VERTEX ON person "t_1"  SET  age = age + 1

# 有条件
UPDATE VERTEX ON person "t_1"  SET  age = age + 1 WHEN name == "肖xxx"

# 修改并指定输出内容
UPDATE VERTEX ON person "t_1"  SET  age = age + 1 WHEN name == "肖xxx" YIELD name as name,age as age

UPSERT VERTEX

结合UPDATEINSERT,如果点存在,会修改点的属性值;如果点不存在,会插入新的点。

UPSERT VERTEX ON person "t_7" SET age = 30,name = "小红"  YIELD name AS Name, age AS Age;

4.5 边语句

INSER EDGE

在图空间中插入一条或多条边。边是有方向的,从起始点(src_vid)到目的点(dst_vid)。行方式为覆盖式插入。如果已有 Edge type、起点、终点、rank 都相同的边,则覆盖原边。

rank:可选项。边的 rank 值。默认值为0

# 插入不包含属性的边。
CREATE EDGE IF NOT EXISTS e1(); 
INSERT EDGE e1 () VALUES "10"->"11":();  

# 插入 rank 为 1 的边。
INSERT EDGE e1 () VALUES "10"->"11"@1:(); 

#属性
CREATE EDGE IF NOT EXISTS e2 (name string, age int); 
INSERT EDGE e2 (name, age) VALUES "11"->"13":("n1", 1);

# 一次插入 2 条边。
 INSERT EDGE e2 (name, age) VALUES  "12"->"13":("n1", 1), "13"->"14":("n2", 2); 


  • NebulaGraph 3.2.1 允许存在悬挂边(Dangling edge)。可以在起点或者终点存在前,先写边;此时就可以通过 <edgetype>._src<edgetype>._dst获取到(尚未写入的)点 VID(不建议这样使用)。

DELETE EDGE

删除边。一次可以删除一条或多条边。

  DELETE EDGE e1 "10"->"11"@0;
  #多条删除
  DELETE EDGE e1 "10"->"11"@1,"11"->"12"@0;

如果不指定 rank,则仅仅删除 rank 为 0 的边。

UPDATE EDGE

可以修改边上 Edge type 的属性。

UPDATE EDGE ON e1 "10"->"11"@0
SET start_year = start_year + 1
WHEN end_year > 2010
YIELD start_year, end_year;

UPSERT EDGE

结合UPDATE和INSERT,如果边存在,会更新边的属性;如果边不存在,会插入新的边。

UPDATE EDGE ON e1 "10"->"11"@0
SET start_year = start_year + 1
WHEN end_year > 2010
YIELD start_year, end_year;

插入不存在的边

​ 如果边不存在,无论WHEN子句的条件是否满足,都会插入边,同时执行SET子句,因此新插入的边的属性值取决于:1.SET子句 2.属性是否有默认值。

4.6 通用查询

MATCH

注意: 以下三种情况之外,请确保 MATCH 语句有至少一个索引可用。

​ 1.WHERE 子句使用 id() 函数指定了点的 VID

​ 2.遍历所有点边时,例如 MATCH (v) RETURN v LIMIT N使用LIMIT限制输出结果数量

​ 3.遍历指定 Tag 的点或指定 Edge Type 的边时,MATCH (v:player) RETURN v LIMIT N,使用LIMIT限制输出结果数量

目前 MATCH 语句无法查询到悬挂边。

# 匹配点
 MATCH (v) RETURN  v  LIMIT 3;
 
# 匹配 Tag
MATCH (v:person)  RETURN v   LIMIT 3;
MATCH (v:player:person)  RETURN v   LIMIT 3;

# 匹配Tag的属性, 此操作需要先建立索引
MATCH (v:person{name:"肖xxx"}) RETURN v;
	("t_1" :person{age: 22, name: "肖xxx"})

# 匹配点id
MATCH (v)  WHERE id(v) == 't_1' RETURN v;
	("t_3" :person{age: 18, name: "小明"})
	
# 匹配多个点的 ID  --符号表示出边或入边
 MATCH (v:person { name: '小明' })--(v2) WHERE id(v2) IN ["t_1", "t_2"] RETURN v2;
匹配连接的点

--符号表示两个方向的边,< > 符号指定边的方向。 与 neo4j 语法一致

MATCH (v:person { name: '小明' })--(v2) RETURN v2;

MATCH (v:person{name: '小明'})-->(v2:player) RETURN v2.player.name AS Name;

MATCH (v:person{name:"小明"})-->(v2)<--(v3) RETURN v3.player.name AS Name;
匹配路径

与 neo4j 语法一致

MATCH p=(v:person{name:"小明"})-->(v2) RETURN p;
匹配边
MATCH ()<-[e]-() RETURN e  LIMIT 3;
匹配 Edge type
 MATCH ()-[e:follow]->() RETURN e limit 3;
匹配边的属性
MATCH (v:person{name:"小明"})-[e:like{likeness:95.0}]->(v2) RETURN e;

# 匹配多个 Edge type,同时匹配多个 Tag 和多个 Edge type 时,不支持进行属性过滤。
MATCH (v:person{name:"小明"})-[e: like|:serve ]->(v2) RETURN e;
匹配多条边
MATCH (v:person{name:"小明"})-[]->(v2)<-[e:like]-(v3) RETURN v2, v3;
匹配定长路径

可以在模式中使用:<edge_type>*匹配定长路径。hop必须是一个非负整数。

MATCH p=(v:person{name:"陈凤英"})-[e:同居*2]->(v2) RETURN  e 

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tDwh7qkB-1686046185439)(image/image-20220921223314682.png)]

匹配变长路径

可以在模式中使用:<edge_type>*[minHop…maxHop]匹配变长路径。

如果未指定minHopmaxHop,仅设置了:<edge_type>*,则二者都应用默认值,即minHop为 1,maxHop为无穷大。

如果未设置 maxHop 可能会导致 graph 服务 OOM

MATCH p=(v:person{name:"陈凤英"})-[e:同居*]->(v2) RETURN  e 
#等价于
MATCH p=(v:person{name:"陈凤英"})-[e:同居*1..]->(v2) RETURN  e 

MATCH p=(v:person{name:"陈凤英"})-[e:同居*1..3]->(v2) RETURN  e 

# 可以使用 DISTINCT 关键字聚合重复结果。
MATCH p=(v:person{name:"陈凤英"})-[e:同居*1..3]->(v2) RETURN DISTINCT e, count(v2);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mzjmCf7a-1686046185439)(image/image-20220921224625254.png)]

# 匹配多个 Edge type 的变长路径
MATCH p=(v:person{name:"陈凤英"})-[e:同居|密接*1..3]->(v2) RETURN DISTINCT e, count(v2);

匹配多个模式

 MATCH (v1:person{name:"陈凤英"}), (v2:student{name:"Spurs"}) RETURN v1,v2;
匹配最短路径
MATCH p = shortestPath( (v:person{name:"陈凤英"})-[e:同居*1..3]-(v2) )  RETURN p;
多MATCH检索
MATCH (m)-[]->(n) WHERE id(m)=="p_2114"
MATCH (n)-[]->(l) WHERE id(n)=="p_9863"
RETURN id(m),id(n),id(l);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Wt2XhpHm-1686046185440)(image/image-20220921231036548.png)]

MATCH总结:

NebulaGraph 3.2.1 中MATCH语句的性能和资源占用得到了优化.但对性能要求较高时,仍建议使用 GO, LOOKUP, | 和 FETCH 等来替代MATCH。

LOOKUP

LOOKUP根据索引遍历数据。使用LOOKUP实现如下功能:

  • 根据WHERE子句搜索特定数据。

  • 通过 Tag 列出点:检索指定 Tag 的所有点 ID。

  • 通过 Edge type 列出边:检索指定 Edge type 的所有边的起始点、目的点和 rank。

  • 统计包含指定 Tag 的点或属于指定 Edge type 的边的数量。

条件:

​ 确保LOOKUP语句有至少一个索引可用。

​ 如果已经存在相关的点、边或属性,必须在新创建索引后重建索引,才能使其生效。

检索点
LOOKUP ON person WHERE person.name == "Tony Parker"  YIELD id(vertex);

LOOKUP ON person WHERE person.name == "韦超" 
YIELD properties(vertex).name AS name, properties(vertex).age AS age;
检索边
LOOKUP ON 同居 WHERE 同居.degree == 90 YIELD edge AS e;

LOOKUP ON follow  WHERE follow.degree == 90 YIELD properties(edge).degree;
通过 Tag 列出所有的对应的点/通过 Edge type 列出边
 LOOKUP ON person YIELD id(vertex),properties(vertex);
 
 LOOKUP ON e1 YIELD edge AS e;
统计点或边

统计 Tag 为 person 的点和 Edge type 为 e1 的边。

LOOKUP ON person YIELD id(vertex) |  YIELD COUNT(*) AS personr_Number;
 
LOOKUP ON e1 YIELD edge  as e |  YIELD COUNT(*) AS e1_Number;

SHOW STATS

GO

GO从给定起始点开始遍历图。GO语句采用的路径类型是walk,即遍历时点和边都可以重复。

  • REVERSELY | BIDIRECT:默认情况下检索的是<vertex_list>的出边(正向),REVERSELY表示反向,即检索入边;BIDIRECT 为双向,即检索正向和反向,通过返回 <edge_type>._type 字段判断方向,其正数为正向,负数为反向。

# 返回 player102 所属队伍。

GO FROM "player102" OVER serve YIELD dst(edge);

# 返回距离 p_1008 5 跳的朋友。

GO 5 STEPS FROM "p_1008" OVER 同居 yield dst(edge),properties(edge)

#添加过滤条件
GO 2 STEPS FROM "p_1008","p_6234" OVER 同居 
WHERE properties(edge).start_time > 0.642652416e+09
yield dst(edge),properties(edge) 
# 返回 p_1008 入方向的邻居点。
GO FROM "p_1008" OVER 同居 REVERSELY YIELD src(edge) AS destination;

#等价于
MATCH (v)<-[e:同居]-(v2) WHERE id(v) == 'p_1008' 
RETURN id(v2) AS destination;
# 查询 p_1008 的同居的同居。

GO FROM "p_1008" OVER 同居 REVERSELY 
YIELD src(edge) AS id | 
GO FROM $-.id OVER 同居 
YIELD properties($^).name  AS Start, properties($$).name  AS End;

等价于
MATCH (v)<-[e:同居]-(v2)-[e2:同居]->(v3) 
WHERE id(v) == 'p_1008' 
RETURN v2.person.name AS Start, v3.person.name AS End;
# 查询 p_1008 1~2 跳内的同居。
GO 1 TO 2 STEPS FROM "p_1008" OVER 同居
YIELD dst(edge) AS destination;


# 该 MATCH 查询与上一个 GO 查询具有相同的语义。
MATCH (v) -[e:同居*1..2]->(v2)
WHERE id(v) == "p_1008" 
RETURN id(v2) AS destination;



# 复合查询
LOOKUP ON person WHERE person .name == "刘建华" YIELD id(vertex) as verID |
GO FROM $-.verID over 同居 where 同居.start_time == 1643256418.0   YIELD  edge as e ;

FETCH

FETCH可以获取指定点或边的属性值。

获取点的属性值
# 基于 Tag 获取点的属性值
FETCH PROP ON person "p_1" YIELD properties(vertex);

# 获取点的指定属性值
FETCH PROP ON  person "p_1"
YIELD properties(vertex).name AS name;

# 获取多个点的属性值
FETCH PROP ON  person "p_1","p_2"
YIELD properties(vertex).name;

# 基于 Tag person 和 person1 获取点 p_1 上的属性值。
FETCH PROP ON person, person1 "p_1" YIELD vertex AS v;

+----------------------------------------------------------------------------+
| v                                                                          |
+----------------------------------------------------------------------------+
| ("player100" :player{age: 42, name: "Tim Duncan"} :t1{a: "Hello", b: 100}) |
+----------------------------------------------------------------------------+

# 在所有标签中获取点的属性值,在FETCH语句中使用*获取当前图空间所有标签里,点的属性值。
 FETCH PROP ON * "p_1", "p_2", "c_1" YIELD vertex AS v;
 
获取边的属性值
 # 获取边的所有属性值
 FETCH PROP ON 同居 "p1" -> "p3" YIELD properties(edge);
 
 # 获取边的指定属性值
 FETCH PROP ON 同居 "p1" -> "p3" YIELD properties(edge).start_time;
 
 # 获取多条边的属性值
 FETCH PROP ON 同居 "p1" -> "p3", "p3" -> "p4" YIELD edge AS e;
 
 # 基于 rank 获取属性值
 # 默认返回 rank 为 0 的边。
 FETCH PROP ON 同居 "p1" -> "p3" YIELD edge AS e;
 
 # rank 为 10 的边。
 FETCH PROP ON 同居 "p1" -> "p3"@10 YIELD edge AS e;

总结:

基本 nGQL 查询

  • GO ,沿着给定的点进行一步或者多步拓展,返回最后一跳的起点,或者终点
  • LOOKUP,从属性的条件反查或者,相应地,需要创建对应的点或者边上对应属性的的索引才行
  • FETCH,直接取给定的点、边上的属性

路径子图 nGQL

  • FIND PATH,查找两点间的路径
  • GET SUBGRAPH,从一个点出发获得子图

Cypher DQL

  • MATCH, 按照模式去查询,如果模式的起点条件里不能得出给定的 VID,大多数情况下像 LOOKUP 一样需要索引

4.7 状态查询

集群信息

SHOW HOSTS 语句可以显示集群信息,包括端口、状态、leader、分片、版本等信息,或者指定显示 Graph、Storage、Meta 服务主机信息。

SHOW HOSTS [GRAPH | STORAGE | META];

图空间信息

SHOW CREATE SPACE语句显示指定图空间的创建语句。

SHOW CREATE SPACE <space_name>;

SHOW CREATE {TAG <tag_name> | EDGE <edge_name>};

SHOW SPACES语句显示现存的图空间。

SHOW SPACES;

索引信息

SHOW INDEXES语句可以列出当前图空间内的所有 Tag 和 Edge type(包括属性)的索引。

SHOW {TAG | EDGE} INDEXES;

分片信息

SHOW PARTS语句显示图空间中指定分片或所有分片的信息。

SHOW PARTS [<part_id>];

统计信息

SHOW STATS 查询图空间统计信息

条件:

​ 在需要查看统计信息的图空间中先执行 SUBMIT JOB STATS

SUBMIT JOB STATS #会返回作业 id 号
SHOW JOB ID;
SHOW STATS;

查询 TAG、EDGE

SHOW {TAGS | EDGES};

查询创建索引状态

SHOW INDEX STATUS 语句显示重建原生索引的作业状态,以便确定重建索引是否成功。

SHOW {TAG | EDGE} INDEX STATUS;

查询快照

SHOW SNAPSHOTS语句显示所有快照信息。

SHOW SNAPSHOTS;

5.索引介绍:

NebulaGraph 支持两种类型索引:原生索引 和 全文索引。索引会导致写性能大幅下降

索引并不用于查询加速。只用于:根据属性定位到点或边,或者统计点边数量。

长索引会降低 Storage 服务的扫描性能,以及占用更多内存。建议将索引长度设置为和要被索引的最长字符串相同。索引长度最长为 256。

介绍文档:https://www.siwei.io/nebula-index-explained/#%E5%88%B0%E5%BA%95-nebula-graph-%E7%B4%A2%E5%BC%95%E6%98%AF%E4%BB%80%E4%B9%88

使用索引步骤:

​ 1.初次导入数据至 NebulaGraph。

​ 2.创建索引。

​ 3.重建索引。 (REBUILD {TAG | EDGE} INDEX [<index_name_list>]😉

​ 4.使用 LOOKUP 或 MATCH 语句查询数据。

创建索引,或者删除并再次创建同名索引后,必须 REBUILD INDEX。否则无法在 MATCH 和 LOOKUP 语句中返回这些数据。

创建索引

CREATE INDEX 语句用于对 Tag、EdgeType 或其属性创建原生索引。通常分别称为“Tag 索引”、“Edge type 索引”和“属性索引”。

# Tag 索引
CREATE TAG INDEX IF NOT EXISTS person_index on person();

# Tag 属性索引
CREATE TAG INDEX IF NOT EXISTS person_name_index on person(name(20));

# Edge type 索引
CREATE EDGE INDEX IF NOT EXISTS follow_index on follow();

# Edge type 属性索引
CREATE EDGE INDEX IF NOT EXISTS follow_time_index on follow(time(10));

#创建复合索引
CREATE TAG INDEX IF NOT EXISTS person_name_age_index on person(name(20),age);

查询索引

SHOW {TAG | EDGE} INDEXES;

DESCRIBE {TAG | EDGE} INDEX <index_name>;

重建索引

为什么要重建索引?

原因:

​ 1.索引功能不会自动对其创建之前已存在的存量数据生效

​ 2.索引的重建未完成时,依赖索引的查询仅能使用部分索引,因此不能获得准确结果。

REBUILD {TAG | EDGE} INDEX [<index_name_list>];

例如:
REBUILD TAG  INDEX person_index
REBUILD EDGE  INDEX follow_index

# 查看是否执行成功
SHOW {TAG | EDGE} INDEX STATUS

可以一次重建多个索引,索引名称之间用英文逗号(,)分隔。如果没有指定索引名称,将会重建所有索引。

通过修改配置文件中的rebuild_index_part_rate_limitsnapshot_batch_size 两个参数,可优化重建索引的速度,另外,更大参数可能会导致更高的内存和网络占用

删除索引

 DROP TAG INDEX IF EXISTS person_index;

6.数据压力测试

导入数据

使用 LDBC 数据集

地址:https://github.com/vesoft-inc/nebula-bench/blob/master/README_cn.md

git clone https://github.com/vesoft-inc/nebula-bench.git 
cd nebula-bench
pip3 install -r requirements.txt
python3 run.py --help


# 生成 LDBC 数据
python3 run.py data 

会自动下载 Hadoop,然后使用 ldbc_snb_datagen 生成数据。 为了方便 importer 导入,将生成后的文件拆分了一个带头的 header 文件,再去掉原有文件第一行。 默认生成的文件在 ${PWD}/target/data/test_data/

7.集群的搭建

192.168.0.186 192.168.0.187 192.168.0.188

免密配置:

ssh-keygen -t rsa

将公钥拷贝到要免密登录的目标机器上

ssh-copy-id 192.168.0.186

ssh-copy-id 192.168.0.187

ssh-copy-id 192.168.0.188

文件分发配置

#!/bin/bash
if [ $# -lt 1 ]
then
        echo Not Enough Arguement!
        exit;
fi
for host in 192.168.0.186 192.168.0.187 192.168.0.188   # 循环读取主机
do
        echo ==================== $host ====================  # 得到主机名
        for file in $@ #遍历所有目录,挨个发送
        do
                #  判断文件是否存在
                if [ -e $file ]
                   then
                         # 获取父目录
                        pdir=$(cd -P $(dirname $file); pwd)
                        # 获取当前文件的名称
                        fname=$(basename $file)
                        ssh $host "mkdir -p $pdir"
                        rsync -av $pdir/$fname $host:$pdir
                else
                        echo $file does not exists!
                fi
        done
done
                 

下载安装包:

wget https://oss-cdn.nebula-graph.com.cn/package/3.3.0/nebula-graph-3.3.0.el7.x86_64.tar.gz

安装:注意相关版本更新

tar -xvzf nebula-graph-3.3.0.el7.x86_64.tar.gz -C /usr/local
mv nebula-graph-3.3.0.el7.x86_64 nebula

修改配置文件 nebula-graphd.conf , nebula-storaged.conf , nebula-metad.conf

--meta_server_addrs=192.168.0.186:9559,192.168.0.187:9559,192.168.0.188:9559 
--local_ip=192.168.0.186

分别启动三台服务

nebula.service start all
nebula.service start all

nebula.service status all

操作ADD HOSTS

ADD HOSTS 192.168.0.186:9779,192.168.0.187:9779,192.168.0.188:9779 

show HOSTS

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LkoNXt5G-1686046185440)(image/image-20230201104638239.png)]

进行密码修改:

ALTER USER root WITH PASSWORD 'xxxx.111';
scp -r twitter root@192.168.0.186:/usr/local/nebula/importcsv
xxxwxxcl.D11

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/616380.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

day11 -- 存储过程+触发器+事物处理

学习内容 什么是存储过程 如何使用存储过程 学习记录 存储过程 经常会有一个完整的操作需要多条语句才能完成。 此外&#xff0c;需要执行的具体语句及其次序也不是固定的&#xff0c;它们可能会根据条件而选择性的执行。 那应该怎么办呢&#xff1f;可以创建存储过程。 存储…

工业镜头分类、相关参数含义

一、工业镜头参数 1、焦距/后焦距 焦距是像方主面到像方焦点的距离。后焦距指光线离开镜头最后一片镜片表面到sensor感光面的距离&#xff0c;如8mm&#xff0c;16mm&#xff0c;25mm等&#xff1b; 焦距的大小决定着视角大小&#xff0c;焦距数值小&#xff0c;视角大&#…

4个月完成职位申请并CSC改派出国|新加坡南洋理工大学访学申请记

由于原访学国家签证被拒&#xff0c;O老师期望能申请手续便捷且容易通过签证的国家&#xff0c;最终我们成功申请到世界名校新加坡南洋理工大学的国家教育研究学院。从获得邀请函、办理CSC改派及派出、顺利签证直至出国等全套手续&#xff0c;仅仅4个月。 O老师背景&#xff1a…

腾讯应用宝 - 微下载

首次接触微下载这个概念&#xff0c;故简单记录一下 产品&#xff1a;微下载配置好了吗&#xff1f; Me&#xff1a; 嗯&#xff1f;什么微下载&#xff1f; 基础认知微下载是什么&#xff1f;微下载在哪里使用&#xff1f;微下载链接获取方式&#xff1f;个性化功能&#xff…

搜索引擎召回策略总结

一、搜索引擎召回策略的方法和注意事项(自己能想到的&待补充) 二、相关资料 同义变换在百度搜索广告中的应用 https://mp.weixin.qq.com/s/ybkbU8p_3jgKuCGdNWeG8w 2020年kdd Facebook搜索向量召回读后感【小红书MXie】 https://zhuanlan.zhihu.com/p/184920498 美团搜…

一键安装 HomebrewCN

一键安装 HomebrewCN Brew介绍Homebrew 能干什么?Homebrew自身如何使用安装Homebrew国内源安装 Homebrew(github源) Brew介绍 macOS 和 Linux 缺失软件包的管理器 Homebrew 能干什么? 使用 Homebrew 安装 Mac&#xff08;或Linux&#xff09;没有预装但你需要的东西。 Ho…

python 第三章 基础语句

系列文章目录 第一章 初识python 第二章 变量 文章目录 3.1 输出格式化输出格式化符号格式化字符串扩展f-格式化字符串转义字符结束符 3.2 输入3.3 数据类型转换转换数据类型的函数 3.4 PyCharm交互式开发3.5 运算符运算符的分类算数运算符赋值运算符复合赋值运算符比较运算符逻…

java设计模式之:工厂模式详解(简单工厂+工厂方法+抽象工厂)

文章目录 简单工厂实现应用场景 工厂方法实现适用场景缺点 抽象工厂实现缺点 在面向对象编程中&#xff0c;创建对象实例最常用的方式就是通过 new 操作符构造一个对象实例&#xff0c;但在某些情况下&#xff0c;new 操作符直接生成对象会存在一些问题。举例来说&#xff0c;对…

软件测试2023年行情怎么样?仔细讲解!

目录 前言&#xff1a; 普通功能测试人员不建议跳槽 还有一个要求就是要对业务的极致理解 那么产业互联网趋势会导致什么呢&#xff1f; 现在跳槽涨薪需要掌握到什么样的技术呢&#xff1f; 给大家一些跳槽建议 前言&#xff1a; 软件测试是为了发现程序中的错误而执行程序的…

Keil5新建工程

STM32新建工程 1、基于寄存器、基于库函数、基于HAL2、基于标准库的工程3、工程架构4、基于库函数点灯实验 1、基于寄存器、基于库函数、基于HAL 1、基于寄存器&#xff1a;与51单片机开发案方式一样&#xff0c;是用程序直接配置寄存器&#xff0c;来达到我们想要的功能&…

基于NE555芯片的简单延时电路和方波信号发生器

简单延时电路 NE555芯片是一种经典的计时器集成电路&#xff0c;常用于电子设计中的定时和延时功能。下面是一个简单的NE555延时电路的详细分析和讲解&#xff1a; NE555芯片是一个多功能的集成电路&#xff0c;主要由比较器、RS触发器、RS锁存器以及输出驱动器等组成。它可以工…

CLIP对比语言-图像预训练算法

本文参考&#xff1a;AIGC神器CLIP&#xff1a;技术详解及应用示例_Baihai IDP的博客-CSDN博客 一、CLIP概述 CLIP&#xff1a;Constastive Language-Image Pretraining。它是一个开源的、多模式的、zero-shot的模型。如果提供一张图像和一段文本描述&#xff0c;该模型可以预…

requestAnimationFrame() 方法

[TOC](requestAnimationFrame() 方法) 一、基本使用 1.基本介绍 window.requestAnimationFrame() 主要是用来实现动画的时候使用的&#xff0c;不管是移动动画还是数字增长动画&#xff0c;使用这个api可以让你的动画看起来非常平滑&#xff0c;因为它是要求浏览器在下次重绘…

【C++ 基础篇:22】:类的 const 对象 与 const 成员函数/方法 以及 类中涉及 const 的常见问题!

本系列 C 相关文章 仅为笔者学习笔记记录&#xff0c;用自己的理解记录学习&#xff01;C 学习系列将分为三个阶段&#xff1a;基础篇、STL 篇、高阶数据结构与算法篇&#xff0c;相关重点内容如下&#xff1a; 基础篇&#xff1a;类与对象&#xff08;涉及C的三大特性等&#…

基于html+css的图展示111

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

软件测试基础教程学习2

文章目录 软件测试基础2.1 软件测试模型2.2 确认和验证2.3 软件测试分类2.4软件测试流程概述 软件测试基础 2.1 软件测试模型 2.2 确认和验证 软件确认&#xff08;Validation&#xff09;和验证&#xff08;Verification&#xff09;&#xff0c;简称V&V或V2。 确认是指…

python基于yolov7开发构建手写甲骨文检测识别系统

在我之前的文章中&#xff0c;关于手写文字、手写数字、手写字母的检测识别相关的项目都有了不少的实践了&#xff0c;这里就不在赘述了&#xff0c;感兴趣的话可以自行移步阅读即可。 《基于轻量级目标检测模型实现手写汉字检测识别计数》 《python开发构建基于机器学习模型…

Nginx+Tomcat(多实例)实现动静分离和负载均衡四层、七层(总有些惊奇的际遇,比方说当我遇见你)

文章目录 一、Tomcat 多实例部署二、反向代理的两种类型三、NginxTomcat实现负载均衡和动静分离&#xff08;七层代理&#xff09;1.动静分离和负载均衡原理2.实现方法3.部署实例&#xff08;1&#xff09;部署Nginx负载均衡服务器&#xff08;2&#xff09;配置Tomcat多实例服…

【SpringCloud——Sentinel】

一、什么是雪崩&#xff1f; 微服务调用链路中的某个服务发生故障&#xff0c;引起整个链路中的所有微服务都不可用&#xff0c;这就是雪崩。 二、解决雪崩问题的常见措施 1、超时处理 设定超时时间&#xff0c;请求超过一定时间没有响应就返回错误信息&#xff0c;不会无休…

vue 3 第三十三章:自定义 hooks

文章目录 1. vue 2 中mixins1.1. mixins 的缺点&#xff1a; 2. 自定义 hooks2.1. 创建自定义Hook2.2. 在组件中使用自定义Hook 2. 总结 1. vue 2 中mixins 在Vue.js 2.x版本中&#xff0c; mixin 被广泛用于将组件的逻辑、计算属性和方法复用到其他组件中。然而&#xff0c;使…