Hive3：常用的虚拟列(Virtual Columns)

news2025/4/16 7:32:18

一、作用

虚拟列是Hive内置的可以在查询语句中使用的特殊标记，可以查询数据本身的详细参数。

Hive目前可用3个虚拟列：

INPUT__FILE__NAME：显示数据行所在的具体文件
BLOCK__OFFSET__INSIDE__FILE：显示数据行所在文件的偏移量
ROW__OFFSET__INSIDE__BLOCK：显示数据所在HDFS块的偏移量
此虚拟列需要设置：SET hive.exec.rowoffset=true 才可使用

二、实操

INPUT__FILE__NAME：通过这个虚拟列，我们可以确定数据所在文件位置（HDFS中的位置）

SET hive.exec.rowoffset=true
SELECT orderid , INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE, ROW__OFFSET__INSIDE__BLOCK FROM itheima.orders o ;

在这里插入图片描述

BLOCK__OFFSET__INSIDE__FILE：偏移量，就是每条数据，在文件中的起始index下标。
比如上图的第302条数据，显示，165。
这里我用Java程序验证一下order2.txt文件的偏移量：
代码

package com.atguigu.mapreduce.test;

import java.io.IOException;
import java.io.RandomAccessFile;

public class FileOffsetReader {
	public static void main(String[] args) {
		String filePath = "C:\\Users\\admin\\Desktop\\orders\\order2.txt";
		int offset = 0; // 指定偏移量

		try (RandomAccessFile file = new RandomAccessFile(filePath, "r")) {
			// 将文件指针移动到指定偏移量
			while (true && offset<=200){
				file.seek(offset);
				int ch = file.read(); // 读取偏移量处的字符（或使用readByte()读取字节）
				if (ch != -1) {
					System.out.println("字符偏移量 " + offset + " 处的字符: " + (char) ch);
					offset++;
				} else {
					System.out.println("已到达文件末尾");
					break;
				}
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}