【Python机器学习实战】 | Lasso回归和弹性网回归详细分析研究

news2025/2/28 17:02:31

🎩 欢迎来到技术探索的奇幻世界👨‍💻

📜 个人主页:@一伦明悦-CSDN博客

✍🏻 作者简介: C++软件开发、Python机器学习爱好者

🗣️ 互动与支持💬评论      👍🏻点赞      📂收藏     👀关注+

如果文章有所帮助,欢迎留下您宝贵的评论,

点赞加收藏支持我,点击关注,一起进步!

引言

Lasso回归(Lasso Regression)和弹性网回归(Elastic Net Regression)是用于特征选择和正则化的线性回归方法。它们在处理高维数据和解决过拟合问题方面非常有效。以下是对它们的详细解释:

Lasso回归(Lasso Regression):

Lasso回归是一种使用 L1 正则化的线性回归方法。其损失函数由最小化残差平方和与系数绝对值之和的加权和组成。Lasso回归的数学表达式如下:
[ \min_{\beta} \frac{1}{2} \lVert y - X\beta \rVert^2_2 + \alpha \lVert \beta \rVert_1 ]

特点和作用:

  • L1 正则化使得部分系数变为零,实现了特征选择,可以用于稀疏特征选择。
  • 可以处理高维数据,并降低模型的复杂度。
  • 适用于存在多重共线性问题的数据集。

弹性网回归(Elastic Net Regression):

弹性网回归是 Lasso 回归和 Ridge 回归的结合,同时使用 L1 和 L2 正则化项。其损失函数在 Lasso 回归和 Ridge 回归的基础上增加了一个混合比例参数。弹性网回归的数学表达式如下:
[ \min_{\beta} \frac{1}{2n} \lVert y - X\beta \rVert^2_2 + \alpha \rho \lVert \beta \rVert_1 + \frac{\alpha(1-\rho)}{2} \lVert \beta \rVert^2_2 ]

其中,𝛼α 是总的正则化参数,𝜌ρ 是 L1 正则化项在总正则化中的比例。

特点和作用:

  • 组合了 L1 和 L2 正则化的优点,可以克服 Lasso 回归在高相关特征情况下的一些限制。
  • 同时实现了特征选择和模型复杂度控制。
  • 适用于处理高维数据、存在关联特征或存在较强共线性的数据集。

正文

01-读取并展示邮政编码数据集中标签为 3 的部分样本的图像

这段代码实现了以下功能:

  1. 导入必要的模块:

    • 导入 numpy 库,并重命名为 np。
    • 导入 pandas 库,并重命名为 pd。
    • 导入 matplotlib.pyplot 库,并重命名为 plt,同时从 pylab 中导入所有内容(包括 figure、subplot 等)。
    • 导入 matplotlib.cm 库中的 cm 模块,用于颜色映射。
    • 使用 warnings 库来过滤警告信息。
    • 设置 matplotlib 图表显示中文。
    • 导入 sklearn 中的支持向量机模型 svm。
    • 导入 sklearn.linear_model 中的线性模型 LM。
    • 导入 scipy.stats 库,并重命名为 st。
    • 导入 scipy.optimize 库中的 root 和 fsolve 函数。
    • 导入 sklearn.feature_selection 库中的各种特征选择方法。
    • 导入 sklearn.linear_model 中的 Lasso、Ridge 和 ElasticNet 相关函数和类。
  2. 读取名为 ‘邮政编码数据.txt’ 的数据文件,使用空格作为分隔符,且没有列名(header=None)。

  3. 从数据中筛选出标签为 3 的样本,并分别将特征和目标变量提取出来,作为后续分析的数据源。

  4. 设定随机种子为 1,从目标变量 Y 中随机选择 25 个样本的索引。

  5. 创建一个 8x8 的图像,用于展示所选样本的图像。对于每个选定的样本:

    • 将其特征数据转换成 16x16 的图像格式。
    • 在子图中显示灰度图像。
  6. 将绘制的图像保存为文件’4.png’,分辨率设定为 dpi=500。

  7. 最后使用 plt.show() 显示生成的图像。

综上所述,这段代码的主要作用是读取并展示邮政编码数据集中标签为 3 的部分样本的图像,以及使用 matplotlib 和 numpy 进行图像处理和显示。

#本章需导入的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *
import matplotlib.cm as cm
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn import svm
import sklearn.linear_model as LM
import scipy.stats as st
from scipy.optimize import root,fsolve
from sklearn.feature_selection import  VarianceThreshold,SelectKBest,f_classif,chi2
from sklearn.feature_selection import RFE,RFECV,SelectFromModel
from sklearn.linear_model import Lasso,LassoCV,lasso_path,Ridge,RidgeCV
from sklearn.linear_model import enet_path,ElasticNetCV,ElasticNet

data=pd.read_table('邮政编码数据.txt',sep=' ',header=None)
tmp=data.loc[data[0]==3]
X=tmp.iloc[:,1:-1]
Y=tmp.iloc[:,0]
np.random.seed(1)
ids=np.random.choice(len(Y),25)
plt.figure(figsize=(8,8))
for i,item in enumerate(ids):
    img=np.array(X.iloc[item,]).reshape((16,16))
    plt.subplot(5,5,i+1)
    plt.imshow(img,cmap=cm.gray)
plt.savefig("../4.png", dpi=500) 
plt.show()

 运行结果如下图所示:

这段代码的作用如下所述:

  1. 特征选择器初始化和拟合:

    • selector=VarianceThreshold(threshold=0.05) 初始化了一个方差阈值选择器,它用来删除方差低于指定阈值的特征。
    • selector.fit(X) 将该选择器应用于特征数据集 X,以识别并保留方差大于 0.05 的特征。
  2. 输出剩余变量个数:

    • print("剩余变量个数:%d"%len(selector.get_support(True))) 输出剩余的特征个数,即保留下来的特征数量。
  3. 特征变换和逆变换:

    • X = selector.inverse_transform(selector.transform(X)) 使用选择器对 X 进行特征转换和逆转换操作。这一步骤可以理解为删除了方差较低的特征后,将 X 恢复为原始特征空间的数据格式。
  4. 图像展示:

    • 创建一个 8x8 的图像用于展示样本图像。
    • 对于预先随机选择的每个样本 ids
      • 将其特征数据转换成 16x16 的图像格式。
      • 在子图中显示灰度图像。
  5. 保存和显示图像:

    • plt.savefig("../4.png", dpi=500) 将绘制的图像保存为文件’4.png’,设置分辨率为 dpi=500。
    • plt.show() 最后使用 matplotlib 显示生成的图像。

综上所述,这段代码在进行方差阈值特征选择后,重新转换特征数据并展示了处理后的样本图像。通过这种方式,可以在保留数据关键特征的同时,有效地减少数据的维度和复杂性。

 

selector=VarianceThreshold(threshold=0.05)
selector.fit(X)
print("剩余变量个数:%d"%len(selector.get_support(True)))
X=selector.inverse_transform(selector.transform(X))
plt.figure(figsize=(8,8))
for i,item in enumerate(ids):
    img=np.array(X[item,]).reshape((16,16))
    plt.subplot(5,5,i+1)
    plt.imshow(img,cmap=cm.gray)
plt.savefig("../4.png", dpi=500) 
plt.show()

 运行结果如下图所示:

02-利用不同的模型估计器进行特征选择,并展示处理后的样本图像,以便观察特征选择对图像的影响

这段代码的作用如下所述:

  1. 导入必要的模块:

    • 代码从 numpy、pandas、matplotlib.pyplot 等库中导入所需的模块,用于数据处理和可视化。
    • 也导入了机器学习相关模块,如 sklearn 中的 svm、linear_model 等,以及 scipy 中的统计模块和优化算法。
  2. 读取数据并筛选:

    • 从名为 ‘邮政编码数据.txt’ 的数据文件中读取数据,使用空格分隔,无列名。
    • 过滤出标签为 1 或 3 的样本数据,并提取特征 X 和目标变量 Y。
  3. 随机选择样本:

    • 设定随机种子为 1,从目标变量 Y 中随机选择 25 个样本的索引。
  4. 特征选择:

    • 对于每个模型估计器(LogisticRegression 和 SVC with linear kernel):
      • 使用递归特征消除(RFE)选择器,设置要选择的特征数为 80。
      • 对特征数据 X 和目标变量 Y 进行拟合和特征选择。
      • 输出选取的变量重要性排名前5的信息。
      • 对选择后的特征数据进行转换和逆转换。
      • 创建一个 8x8 的图像用于展示处理后的样本图像。
      • 对于预先随机选择的每个样本,将其特征数据转换成 16x16 的图像格式,并在子图中显示灰度图像。
  5. 显示图像:

    • 在每个模型估计器上完成特征选择和图像展示后,使用 plt.show() 分别显示这些图像。
  6. 保存图像:

    • 将最后一个模型估计器的图像保存为文件’4.png’,分辨率设定为 dpi=500。

综上所述,这段代码的主要作用是利用不同的模型估计器进行特征选择,并展示处理后的样本图像,以便观察特征选择对图像的影响。同时,通过保存图像文件,可以进一步对结果进行保存和分享。

#本章需导入的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *
import matplotlib.cm as cm
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn import svm
import sklearn.linear_model as LM
import scipy.stats as st
from scipy.optimize import root,fsolve
from sklearn.feature_selection import  VarianceThreshold,SelectKBest,f_classif,chi2
from sklearn.feature_selection import RFE,RFECV,SelectFromModel
from sklearn.linear_model import Lasso,LassoCV,lasso_path,Ridge,RidgeCV
from sklearn.linear_model import enet_path,ElasticNetCV,ElasticNet

data=pd.read_table('邮政编码数据.txt',sep=' ',header=None)
tmp=data.loc[(data[0]==1) | (data[0]==3)]
X=tmp.iloc[:,1:-1]
Y=tmp.iloc[:,0]
np.random.seed(1)
ids=np.random.choice(len(Y),25)
estimators=[LM.LogisticRegression(),svm.SVC(kernel='linear',random_state=1)]
for estimator in estimators:
    selector=RFE(estimator=estimator,n_features_to_select=80)
    selector.fit(X,Y)
    #print("N_features %s"%selector.n_features_)
    print("变量重要性排名 %s"%selector.ranking_[0:5])
    Xtmp=selector.inverse_transform(selector.transform(X))
    plt.figure(figsize=(8,8))
    for i,item in enumerate(ids):
        img=np.array(Xtmp[item,]).reshape((16,16))
        plt.subplot(5,5,i+1)
        plt.imshow(img,cmap=cm.gray)
    plt.show()
plt.savefig("../4.png", dpi=500)     

运行结果如下图所示: 

03-Lasso回归中的收缩参数alpha和训练误差

这段代码的作用如下所述:

  1. 导入必要的模块:

    • 导入了 numpy、pandas、matplotlib.pyplot 等库,以及 sklearn 中的 svm、linear_model 等模块,用于数据处理、机器学习建模和可视化。
    • 同样地,使用了 matplotlib.cm 进行颜色映射处理,以及 warnings 库来忽略警告信息。
  2. 读取数据并筛选:

    • 从名为 ‘邮政编码数据.txt’ 的文本文件中读取数据,假设数据使用空格分隔且没有列名。
    • 根据数据中第一列的值为 1 或 3 的条件,筛选出符合条件的数据作为分析的数据集。
  3. Lasso 回归建模和分析:

    • 使用 Lasso 回归模型对数据进行拟合和分析。
    • 定义了一系列的 alpha 参数值,包括从 0 到 1 等间隔的20个值,并加入额外的 2 和 3。
    • 初始化一个二维数组 coef 来存储每个 alpha 值对应的回归系数。
    • 对每个 alpha 值,通过 Lasso 回归拟合数据,并计算回归系数和训练误差。
  4. 结果展示:

    • 输出并打印了 alpha=0 时前五个变量的回归系数。
    • 在图形化界面中,绘制了两个子图:
      • 第一个子图展示了不同 alpha 值下每个变量的归一化回归系数变化情况,以及 alpha 参数与回归系数的关系。
      • 第二个子图展示了不同 alpha 值下的训练误差变化情况。
  5. 保存图像:

    • 最后将绘制好的图形保存为文件’4.png’,设定分辨率为 dpi=500。

综上所述,这段代码的主要目的是通过 Lasso 回归模型对数据进行分析和可视化,以研究不同收缩参数(alpha)对回归系数和模型训练误差的影响。保存的图像文件可以进一步用于结果展示和分享。

#本章需导入的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *
import matplotlib.cm as cm
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn import svm
import sklearn.linear_model as LM
import scipy.stats as st
from scipy.optimize import root,fsolve
from sklearn.feature_selection import  VarianceThreshold,SelectKBest,f_classif,chi2
from sklearn.feature_selection import RFE,RFECV,SelectFromModel
from sklearn.linear_model import Lasso,LassoCV,lasso_path,Ridge,RidgeCV
from sklearn.linear_model import enet_path,ElasticNetCV,ElasticNet

data=pd.read_table('邮政编码数据.txt',sep=' ',header=None)
tmp=data.loc[(data[0]==1) | (data[0]==3)]
X=tmp.iloc[:,1:-1]
Y=tmp.iloc[:,0]
fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(12,5))
alphas=list(np.linspace(0,1,20))
alphas.extend([2,3])
coef=np.zeros((len(alphas),X.shape[1]))
err=[]
for i,alpha in enumerate(alphas):
    modelLasso = Lasso(alpha=alpha)
    modelLasso.fit(X,Y)
    if i==0:
        coef[i]=modelLasso.coef_
    else:
        coef[i]=(modelLasso.coef_/coef[0])
    err.append(1-modelLasso.score(X,Y))    
print('前5个变量的回归系数(alpha=0):%s'%coef[0,][0:5])
for i in np.arange(0,X.shape[1]):
    axes[0].plot(coef[1:-1,i])
axes[0].set_title("Lasso回归中的收缩参数alpha和回归系数")
axes[0].set_xlabel("收缩参数alpha变化")
axes[0].set_xticks(np.arange(len(alphas)))
axes[0].set_ylabel("Beta(alpha)/Beta(alpha=0)")

axes[1].plot(err)
axes[1].set_title("Lasso回归中的收缩参数alpha和训练误差")
axes[1].set_xlabel("收缩参数alpha变化")
axes[1].set_xticks(np.arange(len(alphas)))
axes[1].set_ylabel("错判率")
plt.savefig("../4.png", dpi=500)  

 

04-Lasso回归和弹性网回归

这段代码的作用如下所述:

  1. 导入必要的模块:

    • 导入了 numpy、pandas、matplotlib.pyplot 等库,以及一些从 sklearn 中导入的模块,如 svm、linear_model 等,用于数据处理、机器学习建模和可视化。
    • 使用了 matplotlib.cm 进行颜色映射处理,以及 warnings 库来忽略警告信息。
  2. 读取数据并筛选:

    • 从名为 ‘邮政编码数据.txt’ 的文本文件中读取数据,假设数据使用空格分隔且没有列名。
    • 根据数据中第一列的值为 1 或 3 的条件,筛选出符合条件的数据作为分析的数据集。
  3. 弹性网(Elastic Net)回归建模和分析:

    • 对两种不同的 L1 范数比率 (l1_ratio) 进行弹性网回归建模(一种正则化方法,同时结合 L1 和 L2 范数)。
    • 初始化了一个包含两个子图的图形界面 fig, axes,每个子图对应一个 l1_ratio 值。
    • 对每个 l1_ratio 值,通过 enet_path 方法获取不同 alpha 值下的弹性网回归系数路径,并在子图中绘制出来。
    • 使用 ElasticNetCV 方法自动选择最优的 alpha 值,并在图形标题中展示该值和训练误差。
  4. 结果展示:

    • 在每个子图中,设置合适的 x 和 y 轴标签、标题,并调整坐标轴以确保图形显示完整和清晰。
    • 在第二个子图中,通过 axes[1].text 方法添加了关于最优 alpha 值和训练误差的文本说明。
  5. 保存图像:

    • 最后将绘制好的图形保存为文件 ‘4.png’,设定分辨率为 dpi=500。

综上所述,这段代码的主要目的是使用弹性网回归方法对数据进行分析和可视化,探讨不同的 L1 范数比率下的回归结果,同时自动选择最优的 alpha 值,并保存图像用于结果展示和分享。

#本章需导入的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *
import matplotlib.cm as cm
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn import svm
import sklearn.linear_model as LM
import scipy.stats as st
from scipy.optimize import root,fsolve
from sklearn.feature_selection import  VarianceThreshold,SelectKBest,f_classif,chi2
from sklearn.feature_selection import RFE,RFECV,SelectFromModel
from sklearn.linear_model import Lasso,LassoCV,lasso_path,Ridge,RidgeCV
from sklearn.linear_model import enet_path,ElasticNetCV,ElasticNet

data=pd.read_table('邮政编码数据.txt',sep=' ',header=None)
tmp=data.loc[(data[0]==1) | (data[0]==3)]
X=tmp.iloc[:,1:-1]
Y=tmp.iloc[:,0]

fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(15,5))
ratios=[0.2,0.8]
bestalpha=[]
for i,ratio in enumerate(ratios):
    alphas_enet, coefs_enet, _ = enet_path(X,Y,l1_ratio=ratio)
    axes[i].plot(-np.log10(alphas_enet), coefs_enet.T, linestyle='--')
    model=ElasticNetCV(l1_ratio=ratio)
    model.fit(X,Y)
    bestalpha.append(model.alpha_)
    axes[i].set_xlabel('-Log(alpha)')
    axes[i].set_ylabel('回归系数')
    axes[i].set_title('Lasso回归和弹性网回归(L1范数率=%.2f)\n最优alpha=%.4f;训练误差=%.4f'
                      %(ratio,model.alpha_,1-model.score(X,Y)))
    axes[i].axis('tight')
model=ElasticNet(l1_ratio=0.8,alpha=bestalpha[0])
model.fit(X,Y)
axes[1].text(0,-0.6,"alpha=%.4f时:训练误差=%.4f"%(bestalpha[0],1-model.score(X,Y)),
             fontdict={'size':'12','color':'b'})
plt.savefig("../4.png", dpi=500) 

运行结果如下图所示: 

 

这段代码的作用是进行特征选择并可视化处理后的特征数据。下面是详细解释:

  1. 随机种子设置和数据抽样:

    • np.random.seed(1):设置随机种子,确保随机结果可复现性。
    • ids = np.random.choice(len(Y), 25):从目标变量 Y 的长度中随机选择 25 个索引,用于后续可视化。
  2. 特征选择和模型拟合:

    • 对于预先设定的两种 l1_ratio 和对应的最优 alpha 值,分别进行如下操作:
      • 创建 ElasticNet 模型 (estimator),使用指定的 l1_ratio 和 alpha 值。
      • 使用 SelectFromModel 进行特征选择,这个方法根据模型训练结果选择重要的特征。
      • selector.fit(X, Y):根据给定的模型对特征 X 和目标变量 Y 进行拟合,以确定保留哪些特征。
  3. 特征选择结果展示:

    • 打印输出保留的特征个数:len(selector.get_support(indices=True)) 表示保留的特征数量。
    • 使用 selector.inverse_transform(selector.transform(X)),将经过选择的特征逆转换回原始特征空间 Xtmp,用于后续图像展示。
  4. 特征数据可视化:

    • 创建一个 8x8 大小的图形界面 (plt.figure(figsize=(8,8))),用于展示选定的特征图像。
    • 对于每个随机选择的索引 item,从 Xtmp 中提取并重塑为 16x16 的图像 (img)。
    • 使用 plt.subplot(5,5,i+1) 在图中安排每个特征图像的位置,并使用灰度色彩映射 (cmap=cm.gray) 显示图像。
  5. 图像展示:

    • 调用 plt.show() 将生成的图像显示在界面上,每个子图显示一个特征图像。

综上所述,这段代码主要用于使用弹性网回归进行特征选择,并通过图像展示选择后的特征数据,从而帮助分析人员理解数据中哪些特征对模型建立有重要贡献。

np.random.seed(1)
ids=np.random.choice(len(Y),25)
for ratio,alpha in [(0.2,bestalpha[0]),(0.8,bestalpha[1])]:
    estimator = ElasticNet(l1_ratio=ratio,alpha=alpha)
    selector=SelectFromModel(estimator=estimator)
    selector.fit(X,Y)
    #print("阈值(%f,%f):%s"%(ratio,alpha,selector.threshold_))
    print("保留的特征个数(%f,%f):%d"%(ratio,alpha,len(selector.get_support(indices=True))))
    Xtmp=selector.inverse_transform(selector.transform(X))
    plt.figure(figsize=(8,8))
    for i,item in enumerate(ids):
        img=np.array(Xtmp[item,]).reshape((16,16))
        plt.subplot(5,5,i+1)
        plt.imshow(img,cmap=cm.gray)
    plt.show()

 运行结果如下图所示: 

 

总结

综上所述,Lasso回归和弹性网回归是两种常用的线性回归方法,通过正则化惩罚的引入,能够在保持模型预测准确性的同时,实现特征选择和模型复杂度控制,适用于处理各种类型的数据集和回归问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1841304.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【STM32】矩阵计算器

【STM32】矩阵计算器 资料链接请在文章末尾获取~ 1.说明 使用元器件:stm32f103c8t6最小系统板x1,0.96寸OLED显示屏四角x1,4x4矩阵按键x1; 参考:正点原子有关4脚OLED驱动float型数据的驱动文件,CSDN有关矩阵横向扫描…

网络安全:入侵检测系统的原理与应用

文章目录 网络安全:入侵检测系统的原理与应用引言入侵检测系统简介IDS的工作原理IDS的重要性结语 网络安全:入侵检测系统的原理与应用 引言 在我们的网络安全系列文章中,我们已经涵盖了从SQL注入到端点保护的多个主题。本篇文章将探讨入侵检…

八大排序————C语言版实现

Hello,各位未来的高级程序员们,大家好,今天我就来为大家讲解一下有关排序的内容,我们常见的排序就是我们接下来要讲的这八个排序,我们平常所说的排序有十大排序,我们这里的八大排序是我们生活中最为常见的八…

【机器学习】:线性回归模型学习路线

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…

探究布局模型:从LayoutLM到LayoutLMv2与LayoutXLM

LAYOUT LM 联合建模文档的layout信息和text信息, 预训练 文档理解模型。 模型架构 使用BERT作为backbone, 加入2-D绝对位置信息,图像信息 ,分别捕获token在文档中的相对位置以及字体、文字方向、颜色等视觉信息。 2D位置嵌入 …

DOPE-FITC在细胞定位、动态追踪等方面的应用-星戈瑞

DOPE-FITC作为一种荧光标记磷脂,在细胞生物学研究中发挥着科研作用。其荧光特性和与细胞膜的亲和性,使其成为细胞定位、动态追踪等方面的工具。 细胞定位 DOPE-FITC能够有效地标记细胞膜,使得细胞膜在荧光显微镜下呈现出明亮的绿色荧光。这种…

NLP入门——复杂函数建模与链式求导

复杂函数建模 前面我们研究的梯度下降法分类,是简单的对每类中每个子词的分数进行求和,统计分数最大的类别并不断调整分数来提高准确率。 我们可以修改函数模型,用更加复杂的函数代替sum(),来达到更好的学习效果。 def compute_…

LLM大语言模型应用方案之RAG检索增强生成的实现步骤。

0.我理解的RAG 什么是RAG? RAG的全称是“检索增强生成模型”(Retrieval-Augmented Generation)。这是一种特别聪明的大语言模型。 RAG是怎么工作的呢? 1.检索:当你问RAG一个问题时,它会先去“图书…

Dockerfile封装制作pytorch(tensorflow)深度学习框架 + jupyterlab服务 + ssh服务镜像

一:docker-hub官网寻找需求镜像 1.我们在https://hub.docker.com/官网找到要封装的pytorch基础镜像,这里我们以pytorch1.13.1版本为例 2.我们找到的这个devel版本的镜像(我们需要cuda的编译工具) pytorch版本是1.13.1,…

Windows桌面运维----第四天

1、U盘故障打不开: 操作方式:WinR打开运行,输入cmd确定,在(C:\Users\Administrator>)后输入chkdsk,空格,输入U盘盘符,例如F:/F,回车,等待修复完成。 2、…

Bad return type in lambda expression: void cannot be converted to Unit

1.背景 当kotlin中声明需要传入一个返回值为空(Unit)的方法引用. 代码示例: 下方第二个参数为一个方法引用,(参数为BiometricPrompt.AuthenticationResult, 返回类型为Unit). object BiometricPromptUtil {private const val TAG "BiometricPromptUtil"fun cre…

Day6—热点搜索词统计

一、要求 根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。 要求完成:统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。 二、数据 三、配置scala环境 1.下载sca…

思科PAP命令笔记

命令格式 含义 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/qq_44862120/article/details/115675197 ——————…

动态规划——活动安排问题II(C++)

Take it easy! 2024年6月19日 题目描述 假设有n个活动和一个资源,每个活动执行时都需要占用该资源,并且该资源在任何时间只能被一个活动所占用,一旦某个活动开始执行,中间将不能被打断,直到其执行完毕。每个活动i都有…

数据结构--顺序表(图文)

顺序表的概念和特点 顺序表是一种线性数据结构,它由一组数据元素构成,这些元素具有相同的特性,并按照一定的顺序排列。在顺序表中,数据元素通常存储在连续的内存空间中,这使得通过索引可以直接访问到表中的任意元素。…

考研计组chap2数据的表示和运算

3一、进位计数制 1.r进制 第i位表示r进制的权为i 2.进制转换 (1)r->10 对应位置数*权值 (2)2 -> 16 or 8 每三位2进制数可表示1位16进制 每四位2进制数可表示1位16进制 so 分开之后转为16进制即可 eg:1…

欧拉函数的求解

欧拉函数的定义 欧拉函数的性质 性质1是性质2的特殊情况 性质1的理解:一个数a是质数,前面的数b与a的gcd一定是1 性质2的理解:1,2,…p,p1,p2…2p,…3p…p^k 其中以np结尾的序列重复了p^(k-1)次,每一次的循环…

Day10—Spark SQL基础

Spark SQL介绍 ​ Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。 Spark …

星戈瑞FITC-Cytochrome C:荧光标记细胞色素C的研究与应用

细胞色素C(Cytochrome C)是一种位于线粒体内膜上的蛋白质。为了深入地研究细胞色素C在细胞生物学和病理学中的功能,科学家们常常采用荧光标记技术对其进行追踪和观察。其中,异硫氰酸荧光素(FITC)作为一种常…

iOS原生APP开发的技术难点

iOS原生APP开发的技术难点主要体现在以下几个方面,总而言之,iOS原生APP开发是一项技术难度较高的工作,需要开发者具备扎实的编程基础、丰富的开发经验和良好的学习能力。北京木奇移动技术有限公司,专业的软件外包开发公司&#xf…