最近不管是头条、微博还是其他自媒体都能看到 Magi 搜索的身影,所以今天特意前往Magi 官网看看具体介绍及体验一下搜索效果,下面就跟大家分享一下学习及体验过程。
Magi 是什么?
Magi 是由 Peak Labs 研发的基于机器学习的信息抽取和检索系统,它能将任何领域的自然语言文本中的知识提取成结构化的数据,通过终身学习持续聚合和纠错,进而为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。
Magi 能做什么?
如果您是从 magi.com 来到这里的话,那么恭喜您发现了 Magi 的一半!这个长得很像搜索引擎的网站就是 Magi 的公众版本,但与搜索引擎不同,Magi 不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识和数据。
以上 Magi 介绍来自@Magi 官网
Magi 的蜘蛛及如何禁止抓取?
MagiBot(软件项目名 Matarael,下称 MagiBot)是 Magi 的网页抓取工具(亦被称为“蜘蛛程序”)。抓取指的是 MagiBot 提取新网页内容和更新网页内容并索引的过程。如果您希望限制或者禁止 MagiBot 抓取您网站上的内容,除了使用一些系统方法拒绝网页抓取工具的访问与抓取之外,您可以设置 robots 规则来指导 MagiBot 的抓取。
MagiBot 会严格遵守 robots 排除协议以及类似变体,包括但不限于 robots.txt、x-robots-tags、rel 等标注方法。在解析您的规则组时,MagiBot 会优先遵守 magibot 或 matarael 这两个 User-Agent 下的规则(不区分大小写)。MagiBot 亦支持通过如 noindex、nofollow、nosnippet、noarchive 等元标记来限制索引和搜索展示。
以上 MagiBot 介绍来自@Magi 官网
体验 Magi 搜索效果
打开Magi 官网输入关键词“boke112 联盟”并回车,得到的结果如下:
如上图所示,估计是 boke112 联盟没什么拿得出手的成绩,所以显示的结果跟其他搜索引擎差不多,不过同样有亮点,比如在第一条结果中还会显示本站主导航的菜单,感觉这一点挺好的。缺点就是好像没有显示缩略图。
因为关键词“boke112 联盟”没有代表性,下面我们来搜索“卢松松博客”看看又有什么不一样,具体搜索结果如下:
如上图所示,实体为卢松松博客可以看到有很多属性,比如原创占比、累积阅读量、微信号和靠什么起家都有显示。
如上图所示,实体为卢松松的话同样可以看到有很多属性,比如获得哪些成就、还有原名、毕业于哪个学校等。
这一屏的结果跟搜索 boke112 联盟差不多,第一条就是相应博客介绍,无缩略图,同样有主菜单的相关链接展示。
利用 Magi 来搜索一些著名的人物、景点、物品等得到的结果还是比较令人惊喜和满意的,不过如果搜索一般关键词结果也差不多,不过尚未在搜索结果中看到广告。总体来讲还是挺不错的。