仅仅是我自己能想到的对这个分类的一个记忆。欢迎指正
首先,最重要的一点,什么是信息检索?
信息检索是从大规模无规则的数据中(主要是文档)中查询用户所需要的信息的过程。
然后,信息检索有哪几种索引呢?
混合索引。
轮排索引。什么是轮排索引呢,轮排索引又叫轮盘索引,有一个非常重要的符号叫$,$是用来表示扩展词结束的符号。
倒排索引。倒排索引最为著名和重要了。
k-gram索引。
二元词索引。
位置信息索引。
信息检索有哪几种检索方式呢?
布尔检索。
排名检索。
容错式检索。
评判信息检索效果的度量方式有哪些呢?
MRR。
AP。
MAP。
GG@k。
DCG@k。
IDCG@k。
信息检索的一些入门级例子有哪些?
会写and ,or ,not ,andnot的检索的伪代码,会写程序。
哈希表的优缺点:
优点:
查找速度比树快O(1)
缺点:
不容易找到次要变体;
无法进行前缀搜索;
如果词汇持续增长,就需要定期进行昂贵的重哈希操作。
树的优缺点:
优点:
解决了前缀问题。
缺点:
平衡树效率慢:O(logM)
重新进行平衡树是非常昂贵的。
一些查询方式?
通配符查询:*
K-means算法的优缺点:
优点:
1.简单且适用于常规不相交簇。
2.收敛速度相对较快
3.相对高效且可扩展
缺点;
1.需要预先指定k值
2.可能会收敛到局部最优
3.对噪声和异常值可能敏感
4.不适合集群
聚类的种类:
K-means聚类:需要指定的K,提供的答案是随机的
层次聚类:不需要指定的K,提供的答案是确定的。
基于密度的聚类:
数据库扫描法:DBSCAN
数据库扫描法的步骤:
1.找出每个点邻域内的点,并找出邻域内超过minpts的核心点。
2.找出邻居图上核心点的联通分量,忽略所有非核心点。
3.如果簇是E(eps),将每个非核心点分给临近的簇,否则将其分配给噪声。
线性回归:
过拟合:可以拟合数据,但测试数据误差较大,可能方差较大
欠拟合:无法拟合数据
梯度下降的技巧:
1.调整学习率
2.随机梯度下降
3.特征缩放
可能不是那么重要的知识点:
深度学习的三个步骤:定义一个功能神经网络的集合,比较功能的优劣性、选择最佳功能。
数据挖掘的定义?
数据挖掘是从大量的数据中自动提取出有用的信息和模式的过程。
BSBI算法(磁盘寻道更少的排序)的基本思想:
1.收集每个块的信息,排序,写入磁盘。
2.将区块合并成一个长排序顺序。
idf计算:N是集合中文档的总数量,df是包含那个词语的文档数量
tf-idf计算:(随文档出现次数的增加而增加、随术语在集合中的稀缺性而增加)
使用哪种排名方式?