当前位置: 首页 > news >正文

COMP 6714-Info Retrieval and Web Search笔记week1

哭了哭了,这周唯一能听懂的就这门

目录

  • IR(Information Retrieval)是什么?
  • IR的基本假设
  • Unstructured (text) vs. structured
  • Documents vs. Database Records
  • 比较文本(Comparing Text)
  • IR的范围(Dimensions of IR)
  • IR的任务(IR Task)
  • IR的大问题(Big Issues in IR)
    • 相关性(relevance)
    • 评估(Evaluation)
  • Unranked retrieval evaluation:

IR(Information Retrieval)是什么?

不等同于search,不是做数据查询(database query)
The field of computer science that is most involved with R&D(research and development) for search is information retrieval (IR)

  • finding material(doctuments)
  • 无结构 unstructured nature
  • 大集合 an information need within large collection

IR的基本假设

  • 集合(Collection) :一组文档,静态的(a static collection for the moment)
  • 目标(Goal) :检索与用户需要的信息相关的文档(retrieve documents with information that is relevant to the user’s information
    need
    and helps the user complete a task)

Unstructured (text) vs. structured

在这里插入图片描述market cap 市场总值
90年代中期,大部分数据是非结构化的,而在行业里,大部分的钱都在结构化数据库上。如oracle、Microsoft SQL Server、IBM database、DB2
在这里插入图片描述
而到了2019年的时候,非结构数据更多了,在非结构化数据上花的钱也比结构化数据更多了(如chatgpt)
这让信息检索比以前更重要了

Documents vs. Database Records

数据库记录(或关系数据库中的元组tuple)通常由定义良好的字段field(或属性attribute)组成。数据库( fields with well-defined semantics)查询很容易,文本(text or documents)较难。

比较文本(Comparing Text)

将查询文本(query text)与文档文本(document text)进行比较,确定什么是好的匹配,是信息检索的核心问题(core issue)。

IR的范围(Dimensions of IR)

IR不仅仅是文本和网络搜索(虽然在这门课上是核心)
在这里插入图片描述

IR的任务(IR Task)

  • 动态查询(Ad-hoc search):查找任意文本(arbitrary text)查询的相关文档
  • 筛选(Filtering):又名信息传播(aka information dissemination),为新文档识别相关用户的profile(比如你告诉你的社交媒体你喜欢动漫,它可能以后会给你推这方面的)
  • 分类(Classification):识别文档相关的标签
  • 问题回答(Question answering):对问题给出一个具体的答案

IR的大问题(Big Issues in IR)

相关性(relevance)

  • 话题相关(Topical relevance):same topic,不用管用户
  • 用户相关(User relevance):用户说相关它就相关
    所以话题相关更容易满足
  • 检索模型(Retrieval model): 定义相关性的形式(define a view of relevance),比如boolean retrieval是binary的,要么对要么不对
  • 排序算法(Ranking algorithms ):基于检索模型,如矢量模型(vector model)、概率模型(probability model)
  • 大部分模型描述文本的统计属性(statistical properties)而不是语言属性(linguistic properties)

评估(Evaluation)

  • 比较系统输出(system output)与用户期望(user expectations)的实验程序和措施
  • 召回率(Recall)和准确率(precision) 是有效度量的两个例子

Unranked retrieval evaluation:

accuracy不是信息检索的词,accuracy很误导,我们不用accuracy来衡量信息检索而是Precision和Recall

  • Precision:fraction of retrieved docs that are relevant = P (relevant|retrieved)
    你搜索到的有多少是正确的样本?
  • Recall:fraction of relevant docs that are retrieved = P (retrieved|relevant)
    在正确的样本中有多少正确的样本被搜索到了?
    所以一个是关于retrieve,另一个是关于collection
    在这里插入图片描述
    • tp:true positive(相关,并且搜索到了)
    • fp:false positive
    • fn:false negative
    • tn:true negative(不相关,并且没搜索到)
      all the true are good stuff, all the false you don’t like
http://www.lryc.cn/news/438831.html

相关文章:

  • C++在Linux实现多线程和多进程的TCP服务器和客户端通信
  • 音视频开发常见的开源项目汇总
  • Java操控Redis (面经之 使用Redis)
  • 【计网】从零开始使用UDP进行socket编程 --- 服务端业务实现
  • 正式发售!《黑神话:悟空》背后的技术力量——UE5与实时云渲染
  • qt-creator-10.0.2之后版本的jom.exe编译速度慢下来了
  • 2024CSP-J初赛全真模拟卷选择题篇(原创,难度偏简单)
  • 【Android 13源码分析】WindowContainer窗口层级-4-Layer树
  • C# 开发教程-中级教程
  • 【C++】c++的继承
  • 【ShuQiHere】 进制转换的世界:从十进制到二进制、十六进制的转换技巧
  • 《化工管理》
  • LeetCode70:爬楼梯
  • [程序员] 前人留下的苦难源,我们是否有勇气改正?
  • 聚类_K均值
  • Mac电脑剪切板在哪里找 苹果电脑剪切板打开教程【详解】
  • Python编程 - 三器一包
  • InternVL 多模态模型部署微调实践
  • Ruby Dir 类和方法
  • C++STL~~deque
  • SpringCloud的学习,Consul服务注册与发现、分布式配置,以及 服务调用和负载均衡
  • 闯关leetcode——26. Remove Duplicates from Sorted Array
  • 基于A2C与超启发式的航天器星载自主任务规划算法-笔记
  • [机器学习]决策树
  • CentOS7更换阿里云yum更新源
  • 算法参数对拥塞控制的影响
  • Go websocket
  • C# 委托与事件 观察者模式
  • K8S - 用service account 登陆kubectl
  • Redis 持久化机制详解