中文问题相似度挑战赛

news2024/9/24 23:30:19

赛题概要

请本赛题排行榜前10位的队伍,通过作品说明提交源代码,模型以及说明文档,若文件过大,可发送至官网邮箱AICompetition@iflytek.com, 若截止时间内为提交,官方会通过电话联系相关选手,若未接到通知或接通后5日内未提交,则视为弃权,具体提交规范,请点击下载: 科大讯飞代码审核规范.

赛题背景

问答系统中包括三个主要部分: 问题理解、信息检索和答案抽取。而问题理解是问答系统中第一部分也是非常关键的部分,问题理解有非常广泛的应用,如重复评论识别、相似度问题识别等。

重复问题检测是一个常见的问题文本挖掘任务,在很多实际问答社区都有相应的应用,重复问题检测可以方便的进行问题答案聚合以及问题答案推荐以及QA等。由于中文词语的多样性和灵活性等,本赛题需要选手构建一个重复问题识别算法

赛题任务

本赛题希望参赛选手对两个问题完成相似度打分。

  • 训练集: 约5千条问题对和标签,若两个问题为相同的问题,标签为1,否则为0.
  • 测试集: 约5千条问题时,需要选手预测标签。

三评审规则

数据说明

训练集给定问题对和标签,使用\t进行分隔**,测试集给定问题对**,使用\t进行分隔。

eg: 世界上什么东西最恐怖的,世界上最恐怖的东西是什么?
解析: “世界上什么东西最恐怖”与”世界上最恐怖的东西是什么“问题相同,故是重复问题,标签为1

评估指标

本次竞赛的评价标准采用准确率指标,最高分为1,计算方法参考:
在这里插入图片描述

评测及排行

1、赛事提供下载数据,选手在本地进行算法调试,在比赛页面提交结果。
2、每枝团队每天最多提交3次,
3、排行按照得分从高到底的排序,排行榜将选择团队历史最优成绩进行排名。

作品提交要求。

在这里插入图片描述

经验

验证该比赛,进行打比赛,会将各种比赛全部都将其搞定。会自己修改以及建立 b a s e l i n e s baselines baselines,会将各种的代码结构全部都将其搞定。都行啦的样子与打算。

  • 会自己在各种模型架构行修改,以及调节参数,使用各种模型进行修改以及改进都行啦的回事与打算。

项目一常用库说明

distance

这个包为计算任意序列的相似性提供了帮助,包括:Levenshtein、Hamming、JaccardSorensen distance 以及一些bonuses,所有的距离计算都是用纯python实现的,而且大多数都是用 C C C语言实现的。

编辑距离

  • 汉明距离、sorensen相似系数、jaccard系数、ifast_comp

编辑距离

  • 用来比较两个字符串的相似度.

Levenshtein

Levenshtein算法: 用来计算两个字符串之间的Levenshtein距离而Levenshtein距离又称为编辑距离,是指两个字符串之间,由一个转换成另外一个所需要的最少编辑次数,许可的编辑操作包括将一个字符替换成另一个字符****,插入一个字符、删除一个字符

概述

Levenshtein距离用来描述两个字符串之间的差异,我在一个网络爬虫程序里面使用这个算法来比较两个网页之间的版本,如果**网页的内容有足够多的变动,我便将它更新到我的数据库

**。

lightgbm

是一个实现GBDT算法思想的框架,由微软DMTK团队开源的boosting decision tree工具
在这里插入图片描述
后续将这个算法自己整理一遍,然后再继续将其搞起来都行啦的回事与打算。

seaborn

在这里插入图片描述
在这里插入图片描述

xgboost

  • 是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携
  • Extreme Gradient Boosting。其基于梯度提升决策树 gradient boosted tree**(GBDT/GBRT/GBM**)。主要应用于监督学习中,是数据比赛中常用的大杀器
    在这里插入图片描述

明天将该算法自己整理以下,后续会自己根据其好好研究一下。

catboost

CatBoost: 是一种能够很好的处理类别形特征的梯度提升算法库。本文中,我们对CatBoost的基本原理及应用实例,做个相似的介绍。后面小猴子还将针对其中几个重要特性做专门介绍,如 CatBoost 对类别型特征处理、特征选择、文本特征处理、超参数调整以及多标签目标处理,敬请期待,看完记得点个赞支持下!

  • 类别型特征处理。
  • 特征选择
  • 文本特征处理
  • 超参数调整
  • 多标签目标处理。

梯度提升概述

要理解boosting: 我们首先理解集成学习,为了获得更好的预测性能,集成学习结合多个模型(弱学习器)的预测结果。它的策略就是大力出奇迹,因为弱学习器的有效组合可以生成更准确和更鲁棒的模型。集成学习方法分为三大类:

  • 弱学习器的有效组合可以生成更准确和更鲁棒的模型
  • Bagging: 该技术用于使用随机技术子集,并行构建不同的模型,并聚合所有预测变量的预测结果。
  • Boosting: 该技术是可迭代的,顺序进行的和自适应的,因为每个预测器都是针对上一个模型的错误进行修正的。
  • Stacking: 这是一种元学习技术,涉及结合来自多种机器学习算法的预测, 例如bagging和boosting。

什么是CatBoost

在这里插入图片描述
CatBoost是一种基于对称决策树为基学习器实现的参数较少,支持类别型变量和高准确性的GBDT框架,主要解决痛点是高效合理的处理类别型特征。这一点从其名字中可以看出来,CatBoost 是由 Categorical 和 Boosting 组成。此外,CatBoost 还解决了梯度偏差(Gradient Bias)以及预测偏移(Prediction shift)的问题,从而减少过拟合的发生,进而提高算法的准确性和泛化能力。(解决了梯度偏差以及预测偏移的问题

  • 此外,CatBoost梯度提升算法库中的学习算法基于GPU实现,打分 算法基于CPU实现
  • 主要特点**: 优于同类产品的一些关键特性**。

经验

  • 明天将各种的常用算法给其搞一波都行啦的理由与打算。慢慢的将其搞定都行啦的回事与打算。

numba

o y t h o n oython oython有解释器,比C语言慢十倍甚至百倍。
使用 J I T JIT JIT技术,使python实现C语言的速度。

python解释器工作原理

python自带虚拟机,用解释器将源代码转换成可执行的字解码,字节码再虚拟机上运行

在这里插入图片描述
使用python example.py执行源代码时,Python解释器,会在后台启动字节码编译器,将源代码转换成字节码。字节码只能在虚拟机上运行字节码默认后缀.pyc,python生成.pyc后一般放在内存中继续使用。pyc 字节码通过Python虚拟机与硬件交互, 虚拟机的出现导致程序和硬件之间增加了中间层, 运行效率折扣.Just-In-Time(JIT)技术为解释语言提供了优化.JIT编译器将python源代码编译成可执行的机器语言,可以在CPU等硬件上运行,跳过虚拟机.

*JIT编译器将python源代码编译成可执行的机器语言直接在CPU等硬件上运行

Numba时开源JIT编译器,可以对Python代码进行CPU和GPU加速
使用Numba只需要在原生函数上加一个装饰器.这些函数使用及时编译方式生成机器码,近乎机器码的速度运行.

经验

  • 各种库搞定,会自己编写各种库,将其全部都搞定再说的样子与打算。有经验以后,会将其全部都搞定。将其全部都完全搞定都行啦的样子与打算。明天,将相关库涉及的算法全部学习一遍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/176172.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

WPF作图神器Interactive DataDisplay的初步使用

文章目录安装初步使用安装 Interactive DataDisplay是一款比较优秀的C#绘图控件,尽管与一些商业控件还有不小的差距,关键是开源免费轻量。 在VS中安装控件十分简单,本测试基于Net Core5.0,在VS的菜单栏->工具->NuGet包管理…

HomeLab 常用工具一:filebrowser

前言在实际使用过程中,我们通常都有基于WEB 的文件操作需求(例如从一台陌生设备上想打开看一下,图片等),和nextcloud 相比 filebrowser 更为轻巧也更为方便。一、filebrowser 安装这里基于docker 安装和使用&#xff0…

Prometheus 动态拉取监控服务

Prometheus 版本 2.41.0 平台统一监控的介绍和调研直观感受PromQL及其数据类型PromQL之选择器和运算符PromQL之函数Prometheus 配置身份认证Prometheus 动态拉取监控服务 我们在以前的实例中配置Prometheus 的target 都是手动配置,这在监控目标少的情况下还可以接受…

【基础】BMP格式

BMP格式位图 (BMP)简介格式1.1图和调色板的概念1.2 bmp文件格式1.2.1 位图文件头 14字节1.2.2 位图信息头 40字节1.2.3 调色板1.2.4 注意位图 (BMP)简介 BMP取自位图Bitmap的缩写,也称为DIB(与设备无关的位图),是一种独立于显示器…

【苹果家庭群发推】软件keychain中刚打开的证书下载的证书文件要决不会报错 UNTimeIntervalNotificationTrigge

推荐内容IMESSGAE相关 作者✈️IMEAX推荐内容iMessage苹果推软件 *** 点击即可查看作者要求内容信息作者✈️IMEAX推荐内容1.家庭推内容 *** 点击即可查看作者要求内容信息作者✈️IMEAX推荐内容2.相册推 *** 点击即可查看作者要求内容信息作者✈️IMEAX推荐内容3.日历推 *** …

linux入门---linux基本指令

目录标题云服务器选择云服务器购买xshell下载如何登陆云服务器Linux的新建与删除新建删除云服务器选择 学习linux的时候云服务器是一个非常重要的工具,那么我们在购买云服务器的时候有很多选择比如说:华为云,腾讯云,阿里云等等&a…

活动星投票网络文明公益广告网络评选微信的投票方式线上免费投票

“网络文明公益广告”网络评选投票_不记名投票小程序_投票帮手免费畅享_扫码投票微信小程序手机互联网给所有人都带来不同程度的便利,而微信已经成为国民的系统级别的应用。现在很多人都会在微信群或朋友圈里转发投票,对于运营及推广来说找一个合适的投票…

ROS2机器人编程简述humble-第三章-PERCEPTION AND ACTUATION MODELS .1

书中,第三章主题:First Behavior: Avoiding Obstacles with Finite States Machines本节旨在应用到现在为止所展示的一切来创建看似“聪明”的行为。这个练习将介绍的许多东西结合起来,并展示使用ROS2编程机器人的效率。此外,将解…

第五届字节跳动青训营 前端进阶学习笔记(八)React框架入门

文章目录前言React 的设计思路1.传统JavaScript更新UI的痛点2.我们对UI代码的需求3.组件(1)组件定义(2)组件设计(3)组件结构4.React的生命周期React的基本语法1.JSXReact的实现1.虚拟DOM2.响应数据的实现前…

Java面试题,Spring Bean的注册与依赖注入

Spring Bean的注册与依赖注入一、XML文件中,将Bean创建到Spring容器1. 基本类型注册2. 类装配3. 有参构造方法装配4. 扩展注入5. Bean的作用域6. Bean的其他配置二、配置类中,将Bean创建到Spring容器1. 在mapper、service、controller中创建,…

计网必会:HTPP详解(非常全面)、cookie、缓存

文章目录应用层协议Web和HTTPHTTP 概述采用非持续连接的HTTPRTT 往返时间的定义**三次握手过程**采用持续连接的HTTPHTTP到底采用哪个?HTTP 的报文格式请求报文功效格式响应报文状态码格式Cookie什么是cookieWeb缓存在学习的过程很多人都遇到了HTTP和Cookie&#xf…

卓有成效的五种用例设计方法

持续坚持原创输出,点击蓝字关注我吧用例设计作为测试工程师的立身之本,是衡量测试工程师综合素质的重要参考,时间是测试工作中重要的测试资源,通过设计高质量的测试用例可以有效地提升测试效率。本文旨在介绍测试工作中常用的五种…

SSO笔记

自己学习做的笔记.没有具体代码 单点登录:多系统,单一位置登录,实现多系统同时登录的一种技术. 也就是说多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。 和三方登录Oauth2是有区别的.Oauth2属于三方登录.通常是某系统,使用其他系统的用户,…

【机器学习】多分类及多标签分类算法(含源代码)

目录:多分类及多标签分类算法一、单标签二分类问题1.1 单标签二分类算法原理二、单标签多分类问题2.1 ovo2.1.1 手写代码2.1.2 调用API2.2 ovr2.2.1 手写代码2.2.2 调用API2.3 OvO和OvR的区别2.4 Error Correcting三、多标签算法问题3.1 Problem Transformation Met…

Vue3 – Composition API(二)

1、computed函数使用 1.1、computed 在前面我们讲解过计算属性computed:当我们的某些属性是依赖其他状态时,我们可以使用计算属性来处理 在前面的Options API中,我们是使用computed选项来完成的;在Composition API中&#xff0c…

Shell语法

一、概念 Shell 是命令行与操作系统沟通的桥梁,也是一门语言。 Shell 脚本可以直接在命令行中执行,也可以作为文件方便复用。 Linux中常见的 Shell 脚本有: Bourne Shell(/usr/bin/sh或/bin/sh)Bourne Again Shell(/bin/bash)C Shell(/us…

《啊哈算法第四章之bfs》(17张图解)

源自《啊哈算法》 目录 bfs正文 题目 思路 完整代码1 完整代码2 再解炸弹人 题目 思路 完整代码1 完整代码2 总结 bfs正文 第四章--深度优先搜索中,我们用dfs找到了寻找小哈的最短路径 接下来,我们要用bfs(Breadth First Sear…

04 |「链表」简析

前言 前言:研究一个数据结构的时候,首先讲的是增删改查。 文章目录前言一、链表简介1. 含义2. 节点组成3. 存储方式1)数据在内存中的存储方式2)单链表在内存中的存储方式3)双链表在内存中的存储方式4)循环链…

python-38-降低内存开销的python迭代器

【进阶Python】第五讲:迭代器与生成器 python 迭代器和生成器 迭代是Python中常用且非常强大的一个功能,它可以用于访问集合、列表、字符串、字典等数据结构的元素。 我们经常使用循环和条件语句,我们也清楚哪些是可以迭代访问,但…

结构型模式-代理模式

1.概述 由于某些原因需要给某对象提供一个代理以控制对该对象的访问。这时,访问对象不适合或者不能直接引用目标对象,代理对象作为访问对象和目标对象之间的中介。 Java中的代理按照代理类生成时机不同又分为静态代理和动态代理。静态代理代理类在编译…