博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
读书笔记《集体智慧编程》Chapter 4 : Searching and Ranking
阅读量:7037 次
发布时间:2019-06-28

本文共 549 字,大约阅读时间需要 1 分钟。

本章概要

本章介绍了搜索引擎的基本原理,PageRank的基本思想和神经网络在学习用户点击行为,用于提高搜索结果的准确性方面的问题

 

搜索引擎基本原理

搜索引擎的基本框架:爬取网页—>制作索引—>检索查询。虽然只有这三步,熟练的工程师基本上一天就可以搭建一个小型的搜索引擎。但是每一步中可以深入研究的地方太多,涉及到的技术难点太多。本书概要的介绍了上面三个步骤,并用python实现了一个小巧的搜索引擎,关键点是要介绍如何对检索出来的内容进行排序。

 

内容排序

主要介绍了三种方式为搜索结果排序

  • 基于页面内容排序:按照检索词的频率,检索词之间的位置,检索词在文本中的距离的标准排序。
  • 基于页面之间的关系排序:采用PageRank(PageRank是根据google联合创始人之一的Larry Page命名的,一直以为与Web Page有关,所以叫PageRank)算法给页面评分,PageRank主要是根据每个页面的出度入度的关系为页面打分,然后根据分数排序。
  • 基于用户行为的排序:采用了神经网络给用户点击行为建模,用于对一些没有发生过的查询组合给出合适的猜测。(原理上的东西没有讲的很深入,直接就上实现了,所以不是很懂)

当然,市面上的搜索引擎都不会只用上面的一种方式排序,而是会混搭使用,取长补短。

转载地址:http://rvyal.baihongyu.com/

你可能感兴趣的文章
黑马程序员-Java基础加强之反射
查看>>
汇编学习——使用Linux系统调用
查看>>
灯泡开关小程序
查看>>
PagerTabStrip简单使用方式2
查看>>
SHELL脚本基础讲解
查看>>
PHP 数据库命令行的使用
查看>>
有赞公告设置
查看>>
win7系统开机遇到reboot and select proper boot device错误解决方法
查看>>
我的收藏
查看>>
pycharm 调试
查看>>
JAVA项目-日志服务配置
查看>>
检测来电
查看>>
交换机的基本原理与配置
查看>>
在Linux上创建磁盘阵列———RAID-5
查看>>
配置静态路由实现两个公司网路互联
查看>>
ShiroFilterFactoryBean源码及拦截原理深入分析
查看>>
boost mutex以及scoped_lock应用
查看>>
小鸡吃米
查看>>
FFmpeg AVFMT_NOFILE宏定义剖析
查看>>
Windows Server 2008 R2活动目录回收站
查看>>