第二章 自然语言处理与单词的分布式表示

news2025/1/24 22:54:02

目录

  • 2.1 自然语言处理(Natural Language Processing,NLP)
  • 2.2 同义词词典
    • 2.2.1 WordNet
    • 2.2.2 同义词词典的问题
  • 2.3 基于计数的方法
    • 2.3.1 基于 Python的语料库的预处理
    • 2.3.2 单词的分布式表示
    • 2.3.3 分布式假设
    • 2.3.4 共现矩阵
    • 2.3.5 向量间的相似度
    • 2.3.6 相似单词的排序
  • 2.4 基于计数的方法的改进
    • 2.4.1 点互信息
    • 2.4.2 降维
    • 2.4.3 基于 SVD 的降维
    • 2.4.4 PTB数据集

2.1 自然语言处理(Natural Language Processing,NLP)

自然语言定义:它是一种能够让计算机理解人类语言的技术。换言之,自然语言处理的目标就是让计算机理解人说的话,进而完成对我们有帮助的事情。

单词定义:我们的语言是由文字构成的,而语言的含义是由单词构成的,单词是含义的最小单位。

为了让计算机理解自然语言,让它理解 单词含义可以说是最重要的事情了。

让计算机理解单词含义的方法,或者说单词含义的表示方法

  • 基于同义词词典的方法

  • 基于计数的方法

  • 基于推理的方法(word2vec)

2.2 同义词词典

要表示单词含义,首先可以考虑通过人工方式来定义单词含义。有两种方法:

  • 一种方法是像《新华字典》那样,一个词一个词地说明单词含义。

  • 一种被称为同义词词典(thesaurus)的词典。在同义词词 典中,具有相同含义的单词(同义词)或含义类似的单词(近义词)被归 类到同一个组中。

两种方法都是为了是计算机理解单词含义,但是第二种方法使用更加广泛。此外,在自然语言处理中用到的同义词词典有时会定义单词之间的粒度更细的关系,比如 “上位 - 下位” 关系、“整体 - 部分” 关系。

在这里插入图片描述

通过对所有单词创建近义词集合,并用图表示各个单词的关系,可以定义单词之间的联系,计算单词之间的相似度等。利用这个“单词网络”,可以教会计算机单词之间的相关性。也就是说,我们可以将单词含义(间接地)教给计算机, 然后利用这一知识,就能让计算机做一些对我们有用的事情。

2.2.1 WordNet

在自然语言处理领域,最著名的同义词词典是 WordNet(感兴趣参考附录B)。

2.2.2 同义词词典的问题

WordNet 等同义词词典中对大量单词定义了同义词和层级结构关系等。 利用这些知识,可以(间接地)让计算机理解单词含义。不过,人工标记也存在一些较大的缺陷。

  • 难以顺应时代变化

  • 人力成本高

  • 无法表示单词的微妙差异

2.3 基于计数的方法

语料库(corpus):语料库就是大量用于自然语言处理研究和应用的文本数据。其实语料库只是一些文本数据而已。

基于计数的方法的目标就是从这些富有实践知识的语料库中,自动且高效地提取本质。

2.3.1 基于 Python的语料库的预处理

自然语言处理领域存在各种各样的语料库。说到有名的语料库,有 Wikipedia 和 Google News 等。

这里,先使用仅包含一个句子的简单文本作为语料库,然后再处理更实用的语料库。

使用的语料库:You say goodbye and I say hello.

分词操作:

text = 'You say goodbye and I say hello.'
text = text.lower()
text = text.replace('.', ' .')
words = text.split(' ')

words 的结果为:['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']

上述操作也可以使用正则表达式进行分词,在python中导入re模块,使用 re.split('(\W+)?', text) 也可以进行分词。

下面,为方便后续处理,进一步给单词标上 ID,以便使用单词 ID 列表。

word_to_id = {}
id_to_word = {}
for word in words:
	if word not in word_to_id:
	new_id = len(word_to_id)
	word_to_id[word] = new_id
	id_to_word[new_id] = word

字典 id_to_word 内容:{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6:'.'}

字典 word_to_id 内容:{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

最后,将单词列表转化为单词 ID 列表。

corpus = [word_to_id[w] for w in words]
corpus = np.array(corpus)

corpus 中内容:array([0, 1, 2, 3, 4, 1, 5, 6])

到此,就完成了利用语料库的准备工作。可以将上述操作封装为一个函数 preprocess():

def preprocess(text):
	text = text.lower()
	text = text.replace('.', ' .')
	words = text.split(' ')
	
	word_to_id = {}
	id_to_word = {}
	for word in words:
		if word not in word_to_id:
		new_id = len(word_to_id)
		word_to_id[word] = new_id
		id_to_word[new_id] = word
	
	corpus = np.array([word_to_id[w] for w in words])
	
    return corpus, word_to_id, id_to_word

2.3.2 单词的分布式表示

在自然语言处理领域,单词含义的向量表示,被称为分布式表示。

单词的分布式表示将单词表示为固定长度的向量。这种向量的特征在于它是用密集向量表示的。密集向量的意思是,向量的各个元 素(大多数)是由非 0 实数表示的。

2.3.3 分布式假设

在自然语言处理的历史中,用向量表示单词的研究有很多。如果仔细看一下这些研究,就会发现几乎所有的重要方法都基于一个简单的想法,这个想法就是“某个单词的含义由它周围的单词形成”,称为分布式假设(distributional hypothesis)。单词本身没有含义,单词含义由它所在的上下文(语境)形成。的确,含义相同的单词经常出现在相同的语境中。

在这里插入图片描述

如图上图所示,上下文是指某个居中单词的周围词汇。这里,我们将上下文的大小(即周围的单词有多少个)称为窗口大小(window size)。窗口 大小为 1,上下文包含左右各 1 个单词;窗口大小为 2,上下文包含左右各 2 个单词,以此类推。

注意,我们将左右两边相同数量的单词作为上下文。但是,根据具体情况,也可以仅将左边的单词或者右边的单词作为上下文。 此外,也可以使用考虑了句子分隔符的上下文。

2.3.4 共现矩阵

下面,考虑如何基于分布式假设使用向量表示单词,最直截了当的实现方法是对周围单词的数量进行计数。具体来说,在关注某个单词的情况 下,对它的周围出现了多少次什么单词进行计数,然后再汇总。这里,我们将这种做法称为“基于计数的方法”,在有的文献中也称为“基于统计的方法”。

现在,对基于技术的方法,如何实现。先使用函数 preprocess() 对语料进行预处理:

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)

print(corpus)
# [0 1 2 3 4 1 5 6]

print(id_to_word)
# {0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

从上面的结果可以看出,词汇总数为 7 个。下面,我们计算每个单词的上下文所包含的单词的频数。在这个例子中,我们将窗口大小设为 1,从单词 ID 为 0 的 you 开始。

从下图可以清楚地看到,单词 you 的上下文仅有 say 这个单词。用表格表示如图。

在这里插入图片描述

图 2-5 表示的是作为单词 you 的上下文共现的单词的频数。同时,这也意味着可以用向量 [0, 1, 0, 0, 0, 0, 0] 表示单词 you。

接着对单词 ID 为 1 的 say 进行同样的处理,结果如图 2-6 所示。

在这里插入图片描述

从上面的结果可知,单词 say 可以表示为向量 [1, 0, 1, 0, 1, 1, 0]。 对所有的 7 个单词进行上述操作,会得到如图 2-7 所示的结果。

在这里插入图片描述

图 2-7 是汇总了所有单词的共现单词的表格。这个表格的各行对应相应单词的向量。因为图 2-7 的表格呈矩阵状,所以称为共现矩阵(co-occurence matrix)。

至此,我们通过共现矩阵成功地用向量表示了单词。

下面是实现从语料库直接生成共现矩阵的代码,分装在函数 create_co_matrix(corpus, vocab_size, window_size=1),其中参数 corpus 是单词 ID 列表,参数 vocab_ size 是词汇个数,window_size 是窗口大小。

def create_co_matrix(corpus, vocab_size, window_size=1):
	corpus_size = len(corpus)  # 语料库长度
	co_matrix = np.zeros((vocab_size, vocab_size), dtype=np.int32)  # 初始化共现矩阵
	
	for idx, word_id in enumerate(corpus):  # 遍历语料库
		for i in range(1, window_size + 1):
			left_idx = idx - i
			right_idx = idx + i
			
			if left_idx >= 0:
				left_word_id = corpus[left_idx]
				co_matrix[word_id, left_word_id] += 1
			
			if right_idx < corpus_size:
				right_word_id = corpus[right_idx]
				co_matrix[word_id, right_word_id] += 1
                
	return co_matrix

2.3.5 向量间的相似度

测量向量间的相似度有很多方法,其中具有代表性的方法有向量内积或欧式距离等。虽然除此之外还有很多方法,但是在测量单词的向量表示的相似度方面,余弦相似度(cosine similarity)是很常用的。

假设 x = ( x 1 , x 2 , x 3 , … , x n ) x = (x_1, x_2, x_3, \dots, x_n) x=(x1,x2,x3,,xn) y = ( y 1 , y 2 , y 3 , … , y n ) y = (y_1, y_2, y_3, \dots, y_n) y=y1,y2,y3,,yn) 两个向量,它们之间的余弦相似度定义如下:
s i m i l a r i t y ( x , y ) = x ⋅ y ∣ ∣ x ∣ ∣   ∣ ∣ y ∣ ∣ = x 1 y 1 + ⋯ + x n y n x 1 2 + ⋯ + x n 2 y 1 2 + ⋯ + y n 2 similarity(x, y) = \frac{x \cdot y}{||x|| \ ||y||} = \frac{x_1y_1 + \dots + x_ny_n}{\sqrt{x_1^2 + \dots + x_n^2} \sqrt{y_1^2 + \dots + y_n^2}} similarity(x,y)=∣∣x∣∣ ∣∣y∣∣xy=x12++xn2 y12++yn2 x1y1++xnyn
分子是向量内积,分母是各个向量的范数。范数表示向量的大小,这里计算的是 L2 范数(即向量各个元素的平方和的平方根)。

注意上式中的内积,要先对向量进行正规化,再求它们的内积。

余弦相似度直观地表示了“两个向量在多大程度上指向同一方向”。 两个向量完全指向相同的方向时,余弦相似度为 1;完全指向相反 的方向时,余弦相似度为 −1。

余弦相似度代码实现:

def cos_similarity(x, y):
	nx = x / np.sqrt(np.sum(x**2)) # x的正规化
	ny = y / np.sqrt(np.sum(y**2)) # y的正规化
	return np.dot(nx, ny)

这里余弦相似度的实现虽然完成了,但是还有一个问题。那就是当零向量(元素全部为 0 的向量)被赋值给参数时,会出现 “除数为 0”(zero division)的错误。

解决此类问题的一个常用方法是,在执行除法时加上一个微小值。这里,通过参数指定一个微小值 eps(eps 是 epsilon 的缩写),并默认 eps=1e-8 (= 0.000 000 01)。这样修改后的余弦相似度的实现如下所示:

def cos_similarity(x, y, eps=1e-8):
	nx = x / (np.sqrt(np.sum(x ** 2)) + eps)
	ny = y / (np.sqrt(np.sum(y ** 2)) + eps)
	return np.dot(nx, ny)

下面是求 you 和 i(= I)的相似度:

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id)
C = create_co_matrix(corpus, vocab_size)  # 创建共现矩阵
c0 = C[word_to_id['you']]  # you的单词向量
c1 = C[word_to_id['i']]  # i的单词向量
print(cos_similarity(c0, c1))
# 0.7071067691154799

2.3.6 相似单词的排序

实现函数 most_similar(query, word_to_id, id_to_word, word_matrix, top=5),其中参数如下所示:

参数名说明
query查询词
word_to_id单词到单词 ID 的字典
id_to_word单词 ID 到单词的字典
word_matrix汇总了单词向量的矩阵,假定保存了与各行对应的单词向量
top显示到最相似的前几位

代码实现:

def most_similar(query, word_to_id, id_to_word, word_matrix, top=5):
	# 取出查询词
	if query not in word_to_id:
		print('%s is not found' % query)
 		return
 	
	print('\n[query] ' + query)
	query_id = word_to_id[query]
	query_vec = word_matrix[query_id]  # 查询词的词向量
	
	# 计算余弦相似度
	vocab_size = len(id_to_word)
 	similarity = np.zeros(vocab_size)
 	for i in range(vocab_size):
 		similarity[i] = cos_similarity(word_matrix[i], query_vec)
 	
 	# 基于余弦相似度,按降序输出值
	count = 0
	for i in (-1 * similarity).argsort():
        if id_to_word[i] == query:
            continue
        print(' %s: %s' % (id_to_word[i], similarity[i]))
        
        count += 1
        if count >= top:
            return

这里使用 argsort() 方法对数组的索引进行了重排。这个 argsort() 方法可以按升序对 NumPy 数组的元素进行排序(不过,返回值是数组的索引)。

将 you 作为查询词, 显示与其相似的单词,代码如下所示:

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id)
C = create_co_matrix(corpus, vocab_size)
most_similar('you', word_to_id, id_to_word, C, top=5)

执行代码后,会得到如下结果。

[query] you
goodbye: 0.7071067691154799
i: 0.7071067691154799
hello: 0.7071067691154799
say: 0.0
and: 0.0

这个结果只按降序显示了 you 这个查询词的前 5 个相似单词,各个单 词旁边的值是余弦相似度。

2.4 基于计数的方法的改进

2.4.1 点互信息

上一节的共现矩阵的元素表示两个单词同时出现的次数。但是,这种 “原始”的次数并不具备好的性质。

比如,我们来考虑某个语料库中 the 和 car 共现的情况。在这种情况下, 我们会看到很多“…the car…”这样的短语。因此,它们的共现次数将会很大。另外,car 和 drive 也明显有很强的相关性。但是,如果只看单词的出现次数,那么与 drive 相比,the 和 car 的相关性更强。这意味着,仅仅因为 the 是个常用词,它就被认为与 car 有很强的相关性。

为了解决这一问题,可以使用点互信息(Pointwise Mutual Information, PMI)这一指标。

对于随机变量 x x x y y y,它们的 P M I PMI PMI 定义如下:
P M I ( x , y ) = l o g 2 P ( x , y ) P ( x ) P ( y ) PMI(x,y) = log_2{\frac{P(x,y)}{P(x)P(y)}} PMI(x,y)=log2P(x)P(y)P(x,y)
其中, P ( x ) P(x) P(x) 表示 x x x 发生的概率, P ( y ) P(y) P(y) 表示 y y y 发生的概率, P ( x , y ) P(x, y) P(x,y) 表示 x x x y y y 同时发生的概率。在自然语言的例子中, P ( x ) P(x) P(x) 就是指单词 x x x 在语料库中出现的概率。 P M I PMI PMI 的值越高,表明相关性越强。

现在,我们使用共现矩阵(其元素表示单词共现的次数)来重写上式。 这里,将共现矩阵表示为 C C C,将单词 x x x y y y 的共现次数表示为 C ( x , y ) C(x, y) C(x,y),将 单词 x x x y y y 的出现次数分别表示为 C ( x ) C(x) C(x) C ( y ) C(y) C(y),将语料库的单词数量记为 N N N,则上式可以重写为:
P M I ( x , y ) = l o g 2 P ( x , y ) P ( x ) P ( y ) = l o g 2 C ( x , y ) N C ( x ) N C ( y ) N = l o g 2 C ( x , y ) ⋅ N C ( x ) C ( y ) PMI(x,y) = log_2{\frac{P(x,y)}{P(x)P(y)}}=log_2\frac{\frac{C(x,y)}{N}}{\frac{C(x)}{N}\frac{C(y)}{N}}=log_2\frac{C(x,y) \cdot N}{C(x)C(y)} PMI(x,y)=log2P(x)P(y)P(x,y)=log2NC(x)NC(y)NC(x,y)=log2C(x)C(y)C(x,y)N
虽然已经获得了 P M I PMI PMI 这样一个好的指标,但是 P M I PMI PMI 也有一个问题。那就是当两个单词的共现次数为 0 时, l o g 2 0 = − ∞ log_20 = −∞ log20=。为了解决这个问题, 实践上我们会使用下述正的点互信息(Positive PMI,PPMI)
P P M I ( x , y ) = m a x ( 0 , P M I ( x , y ) ) PPMI(x,y) = max(0, PMI(x,y)) PPMI(x,y)=max(0,PMI(x,y))
下面实现从共现矩阵转换为 P P M I PPMI PPMI 矩阵的函数 ppmi(C, verbose=False, eps=1e-8),其中 C 表示共现矩阵,verbose 是决定是否输出运行情况的标志。

def ppmi(C, verbose=False, eps=1e-8):
	M = np.zeros_like(C, dtype=np.float32)
	N = np.sum(C)
	S = np.sum(C, axis=0)
	total = C.shape[0] * C.shape[1]
	cnt = 0
 
	for i in range(C.shape[0]):
		for j in range(C.shape[1]):
			pmi = np.log2(C[i, j] * N / (S[j]*S[i]) + eps)  # 为了防止log2(0)=-inf添加了eps
			M[i, j] = max(0, pmi)

            if verbose:
             	cnt += 1
             	if cnt % (total//100+1) == 0:
        			print('%.1f%% done' % (100*cnt/total))
	return M

现在对语料库转换为 P P M I PPMI PPMI 矩阵的实现如下:

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id)
C = create_co_matrix(corpus, vocab_size)
W = ppmi(C)

np.set_printoptions(precision=3) # 有效位数为3位
print('covariance matrix')
print(C)
print('-'*50)
print('PPMI')
print(W)

运行该文件,可以得到下述结果:

covariance matrix
[[0 1 0 0 0 0 0]
 [1 0 1 0 1 1 0]
 [0 1 0 1 0 0 0]
 [0 0 1 0 1 0 0]
 [0 1 0 1 0 0 0]
 [0 1 0 0 0 0 1]
 [0 0 0 0 0 1 0]]
--------------------------------------------------
PPMI
[[ 0. 1.807 0. 0. 0. 0. 0. ]
 [ 1.807 0. 0.807 0. 0.807 0.807 0. ]
 [ 0. 0.807 0. 1.807 0. 0. 0. ]
 [ 0. 0. 1.807 0. 1.807 0. 0. ]
 [ 0. 0.807 0. 1.807 0. 0. 0. ]
 [ 0. 0.807 0. 0. 0. 0. 2.807]
 [ 0. 0. 0. 0. 0. 2.807 0. ]]

这样一来,就将共现矩阵转化为了 PPMI 矩阵。此时,PPMI 矩 阵的各个元素均为大于等于 0 的实数。我们得到了一个由更好的指标形成的 矩阵,这相当于获取了一个更好的单词向量。

通过这样的处理可见,这样的分布式表示具有在含义或语法上相似的单词在向量空间上位置相近的性质。

P P M I PPMI PPMI 矩阵存在的问题:

  • 随着语料库的词汇量增加,各个单词向量的维数也会增加。如果语料库的词汇量达到 10 万,则单词向量的维数也同样会达到 10 万。实际上,处理 10 万维向量是不现实的。
  • 矩阵中很多元素都是 0。这表明向量中的绝大多数元素并不重要,也就是说,每个元素拥有的“重要性”很低。另外,这样的向量也容易受到噪声影响,稳健性差。对于这些问题, 一个常见的方法是向量降维。

2.4.2 降维

降维(dimensionality reduction),就是在尽量保留“重要信息”的基础上减少向量维度。

在这里插入图片描述

如上图所示,考虑到数据的广度,导入了一根新轴,以将原来用二维坐标表示的点表示在一个坐标轴上。此时,用新轴上的投影值来表示各个数据点的值。这里非常重要的一点是,选择新轴时要考虑数据的广度。

向量中的大多数元素为 0 的矩阵(或向量)称为稀疏矩阵(或稀疏向量)。这里的重点是,从稀疏向量中找出重要的轴,用更少的维度对其进行重新表示。结果,稀疏矩阵就会被转化为大多数元素均不为 0 的密集矩阵。这个密集矩阵就是我们想要的单词的分布式表示。

降维的方法有很多,这里我们使用奇异值分解(Singular Value Decomposition,SVD)

SVD 将任意矩阵分解为 3 个矩阵的乘积,如下式所示:
X = U S T T X=UST^T X=USTT
SVD 将任意的矩阵 X X X 分解为 U 、 S 、 V U、S、V USV 这 3 个矩阵的乘积,其中 U U U V V V 是列向量彼此正交的正交矩阵, S S S 是除了对角线元素以外其余元素均为 0 的对角矩阵。

U U U 是正交矩阵。这个正交矩阵构成了一些空间中的基轴 (基向量),我们可以将矩阵 U U U 作为“单词空间”。 S S S 是对角矩阵,奇异值在对角线上降序排列。简单地说,我们可以将奇异值视为“对应的基轴”的重要性。这样一来,减少非重要元素就成为可能。

矩阵 S S S 的奇异值小,对应的基轴的重要性低,因此,可以通过去除矩阵 U U U 中的多余的列向量来近似原始矩阵。用我们正在处理 的“单词的 PPMI 矩阵”来说明的话,矩阵 X X X 的各行包含对应的单词 ID 的单词向量,这些单词向量使用降维后的矩阵 U ′ U' U 表示。

2.4.3 基于 SVD 的降维

接下来,使用 Python 来实现 SVD,这里可以使用 NumPy 的 linalg 模块中的 svd 方法。linalg 是 linear algebra(线性代数)的简称。下面,我们创建一个共现矩阵,将其转化为 PPMI 矩阵,然后对其进行 SVD降维。

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(id_to_word)
C = create_co_matrix(corpus, vocab_size, window_size=1)
W = ppmi(C)
U, S, V = np.linalg.svd(W)  # SVD

SVD 执行完毕。上面的变量 U 包含经过 SVD 转化的密集向量表示。现在,来看一下它的内容。单词 ID 为 0 的单词向量如下:

print(C[0]) # 共现矩阵
# [0 1 0 0 0 0 0]
print(W[0]) # PPMI矩阵
# [ 0. 1.807 0. 0. 0. 0. 0. ]
print(U[0]) # SVD
# [ 3.409e-01 -1.110e-16 -1.205e-01 -4.441e-16 0.000e+00 -9.323e-01 2.226e-16]

如上所示,原先的稀疏向量 W[0] 经过 SVD 被转化成了密集向量 U[0]。如果要对这个密集向量降维,比如把它降维到二维向量,取出前两个元素即可。

print(U[0, :2])
# [ 3.409e-01 -1.110e-16]

如果矩阵大小是 N,SVD 的计算的复杂度将达到 O ( N 3 ) O(N^3) O(N3)。这意味着 SVD 需要与 N 的立方成比例的计算量。因为现实中这样的计算量是做不到的,所以往往会使用 Truncated SVD[21] 等更快的方法。 Truncated SVD 通过截去(truncated)奇异值较小的部分,从而实现高速化。作为另一个选择,可以使用 sklearn 库的 Truncated SVD。

2.4.4 PTB数据集

全称 Penn Treebank 语料库。这个 PTB 语料库是以文本文件的形式提供的,与原始的 PTB 的文章相比,多了若干预处理,包括将稀有单词替换成特殊字符 (unk 是 unknown 的简称),将具体的数字替换成 “N” 等。下面,我们将经过这些预处理之后的文本数据作为 PTB 语料库使用。

在 PTB 语料库中,一行保存一个句子。在本书中,我 们将所有句子连接起来,并将其视为一个大的时序数据。此时,在每个句子的结尾处插入一个特殊字符 (eos 是 end of sentence 的简称)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/413641.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

有哪些中西合璧的建筑设计?

所谓中西合璧&#xff0c;中即中华文化&#xff0c;体系繁多&#xff0c;源远流长&#xff0c;浩如烟海&#xff0c;是世界三大文化体系之一&#xff0c;在历史上曾是东亚文化的中心&#xff0c;一度影响欧洲&#xff1b;西即西方文化&#xff0c;西方物质文明和精神文明&#…

【JSP学习笔记】1.JSP 教程、简介及开发环境搭建

前言 本章介绍JSP的教程、简介及开发环境搭建。 JSP 教程 JSP 与 PHP、ASP、ASP.NET 等语言类似&#xff0c;运行在服务端的语言。 JSP&#xff08;全称Java Server Pages&#xff09;是由 Sun Microsystems 公司倡导和许多公司参与共同创建的一种使软件开发者可以响应客户…

2022国赛30:windows脚本题解析

大赛试题内容: ( 九) ) 脚本 【任务描述】 为了减少重复性任务的工作量,节省人力和时间,请采用脚本,实现快速批量的操作。 1.在 windows4 上编写 C:\CreateFile.ps1 的 powershell 脚本,创建20 个文件 C:\test\File00.txt 至 C:\test\File19.txt,如果文件存在,则首先删除…

Servlet初始化参数设置\获取,全局初始化参数的设置、获取

之前在学习SpringMVC、SpringSecurity时&#xff0c;会用到Filter&#xff0c;需要对Filter进行参数配置&#xff0c;而Filter本质上也是一个Servlet&#xff0c;然后对Servlet设置初始化参数已经忘记了&#xff0c;所以打算重新回顾并整理Servlet这一部分的内容&#xff08;虽…

[Netty源码] 编码和解码相关问题 (十二)

文章目录1.编码和解码的介绍2.相关继承3.解码器分析3.1 ByteToMessageDecoder基类3.2 FixedLengthFrameDecoder3.3 LineBasedFrameDecoder3.4 DelimiterBasedFrameDecoder3.5 LengthFieldBasedFrameDecoder4.编码器分析4.1 解码过程分析4.2 writeAndFlush方法分析4.3 MessageTo…

2007-2020年国际产权指数InternationalPropertyRightsIndex(IPRI)IPRI

2007-2020年国际产权指数InternationalPropertyRightsIndex(IPRI)IPRI 1、来源&#xff1a;国际产权联合会 International Poverty Right Alliance 2、时间&#xff1a;2007-2020 3、范围&#xff1a;全球 4、指标说明&#xff1a; country、region、score、annual change…

提高软件测试效率的6大注意事项

1、测试策略非常重要 测试策略的基础是风险评估&#xff0c;我们需要通过失效概率和失效影响两个维度&#xff0c;对风险进行高、中、低的区分和可能性的判断。如CoCode开发云能够根据风险影响等级&#xff0c;自动计算出风险系数&#xff0c;并对风险进行优先级划分。而系数超…

项目管理:我们每个人都是管理者

项目管理的技能在生活中时时能用到、处处可锻炼。只要有心&#xff0c;项目成员一样可以学习和实践项目管理知识&#xff0c;也可以说&#xff0c;我们每个人都是管理者。 1、管理是职能而不是职位 有的人认为项目管理只是管理者应该学的&#xff0c;其实不是这样的&#xf…

卷积神经网络底层原理

1.卷积神经网络底层原理 声明&#xff1a;以下为《大话计算机》作者冬瓜哥课程视频截图&#xff0c;仅供学习 1.1卷积 一张图经过一种卷积核&#xff08;核函数&#xff09;滑动窗口进行卷积运算后得到一张特征图&#xff0c;这只是这种卷积核视角下看到的特征。所以我们需要多…

一起学 WebGL:图形变形以及矩阵变换

之前绘制了三角形&#xff0c;我们现在给它做一个变形操作。 对一个三角形进行变形&#xff0c;其实就是重新这个三角形的三个顶点的位置&#xff0c;计算完后再绘制出来&#xff0c;相比原来就发生了变形。 变形常见的有位移、选择、缩放。位移&#xff0c;其实就是给每个顶…

中国版ChatGPT即将来袭-国内版ChatGPT入口

必应chatGPT入口 目前并不存在“必应ChatGPT”这个概念。必应&#xff08;Bing&#xff09;是Microsoft公司推出的一款搜索引擎&#xff0c;而ChatGPT是OpenAI开发的自然语言处理技术&#xff0c;它们是两个不同的产品品牌。 不过&#xff0c;Microsoft也在自然语言处理领域里…

Microsoft 365管理和报告工具

在管理 Microsoft 365 设置的过程中&#xff0c;本机Microsoft 365 功能可能无法满足你的需求。M365 Manager Plus 具有复杂的功能&#xff0c;使 Microsoft 365 管理毫不费力。它提供基于功能的管理&#xff0c;因此你可以单独管理 Microsoft 365 组件。 使用 M365 Manager P…

进程的概念以及PCB的概念

在linux上进程是非常重要的知识点&#xff0c;今天我自我发表浅见。 可执行程序与进程 当在linux上编译完毕一个源文件生成可执行程序&#xff0c;这个时候这可执行程序只能称为普通文件&#xff0c;还不能定义为进程&#xff0c;在加载在内存中后才可称为进程&#xff0c;那…

次优二叉查找树(次优查找树)_递归和非递归实现_20230414

次优二叉查找树&#xff08;次优查找树)-递归和非递归实现 前言 当有序表中的各记录的查找概率相等的时候&#xff0c;采用折半查找效率可以提升查找性能&#xff1b;如果有序表中的各记录的查找概率不相等&#xff0c;那么折半查找就不再适用。 如果只考虑查找成功的情况&a…

Robocup 仿真2D 学习笔记(四)阵型编辑

一、阵型文件介绍 阵型文件里设置的是球员在比赛中的跑位点 基于helios base的阵型文件&#xff0c;在目录/src/formations-dt中 阵型的调用在/src/strategy.cpp 文件&#xff1a; before-kick-off.conf 是球员上场之后的阵型 &#xff08;或进球等待开球&#xff09; no…

有限元基础编程-何晓明老师课件-一维程序实现matlab

文章目录前言一、主程序二、一维有限元求解程序-框架三、组装刚度矩阵assemble_matrix_from_1D_integral.m2.1 算法2.2 get_standard_gauss_1D.m2.3 get_Gauss_local_1D.m前言 只是为方便学习&#xff0c;不做其他用途&#xff0c;课程理论学习来自b站视频有限元基础编程-何晓明…

RT-Thread线程管理以及内核裁剪

RT-Thread线程管理以及内核裁剪 1. RTOS概述 1.1 RTOS的定义 实时操作系统&#xff08;Real-time operating system, RTOS&#xff09;&#xff0c;又称即时操作系统&#xff0c;它会按照排序运行、管理系统资源&#xff0c;并为开发应用程序提供一致的基础。 实时操作系统与…

核心业务2:借款人申请借款额度

核心业务2&#xff1a;借款人申请借款额度 1.业务流程图 ------------截止提交个人信息部分-------- 2.借款人申请借款额度数据库设计 3.借款人申请额度流程 4.前端代码逻辑 5.后端代码逻辑 ------------截止提交个人信息部分-------- 核心业务2&#xff1a;借款人申请借…

Linux从命令行管理文件

目录 一、创建链接文件 二、目录操作命令 1. 创建目录&#xff08;make directory&#xff09; 2. 统计目录及文件的空间占用情况 3. 删除目录文件 三、创建、删除普通文件 文件命名规则&#xff1a; &#xff08;1&#xff09;不能使用/来当文件名&#xff0c;/是用来做…

【WCH】CH32F203软件I2C驱动SSD1306 OLED

【WCH】CH32F203软件I2C驱动SSD1306 OLED&#x1f4cc;相关篇《【WCH】CH32F203硬件I2C驱动SSD1306 OLED》&#x1f4fa;驱动显示效果&#xff1a; &#x1f33f;OLED屏幕&#xff1a;i2c ssd1306 oled&#x1f516;驱动单片机型号&#xff1a;CH32F203 ✨由于CH32F203主频为96…