我们就一些搜索案例的比较来给大家展示一些网络文档搜索的技巧,并对主要提供文档搜索的搜索引擎百度和google做一比较,这些比较和方法也许会对你进一步准确获得你想要的信息有帮助!主要比较文档数量,语法使用的灵活性,准确性,多语法混合使用等等
多语法混用
一般的逻辑搜索:+ - | 均能很好的支持
filetype:doc 演讲稿 吴敬琏
filetype:doc 演讲稿 - 教师
filetype:doc 演讲稿 | 演讲
其他专业
搜索指令:
吴敬琏 filetype:doc site:pku.edu.cn
历史 filetype:doc inurl:org
经济 filetype:doc inurl:title 目前网络上很少有中文文件夹所以这样的检索也是没有意义的。
其他支持
1 支持对拥有
文档类型的搜索,filetype:all
2 支持把原来文档转换成html格式文档浏览
3 不支持对更多文档类型的扩展,但是可以在mp3搜索中选择flash类型搜索,但是百度支持在网页搜索中输入“mp3:刘德华”“flash:小兵”来搜索歌曲
1 不支持对拥有
文档类型的搜索,
2 支持把原来文档转换成html格式文档浏览
3支持对更多文档类型的扩展,如swf/xml 目前google还不支持更多
表2其他参数比较
一搜也提供文档搜索,目前支持的文件类型不多,文档的数量也不够(或者可检出的数量不够),而且使用习惯与其他的不同(google,altavista,alltheweb等)所以不列入比较范围。总体评价,百度多文档搜索无论从搜索的质量和数量都是要与google相当,甚至超出google,说明,中文搜索引擎在应用的深层次挖掘上已经不再落后于外来服务商。
我们有理由相信百度会提供更多更好的功能!www.jsfengchao.com 原创
数据
Query
参比引擎
百度
Google
filetype:doc 搜索引擎
1050
743
filetype:doc 计算语言学
546
214
filetype:doc 计算机检索
17700
6080
filetype:ppt课件
13900
1480
filetype:ppt 软件开发模型
filetype:ppt 软件 模型
560
697
919000
697
filetype:pdf xml专业
编程
55
116但是匹配的质量很差,由各自不同的分次特点决定的。
filetype:pdf 服务器安全
17800
6240
filetype:xls 报名
9940
1890
filetype:xls 名单
32300
3000
表1 文档数量比较
性能
功能
参比引擎
百度
Google
灵活性
支持三种方式查询
1 filetype:格式 关键词
2 关键词filetype:格式
3 在专业
搜索里选择
支持三种方式查询
1 filetype:格式 关键词
2关键词 filetype:格式
3 在专业
搜索里选择
准确性 整体上讲跟网页搜索的效果差不多 ,由于各自分词的特点不同,所以对中文语义的理解上就会出现差异,所以在结果的数量并不是大部
,但是对大多数关键词来说,百度的结果还是比较符合搜索目标的,而个别google的搜索结果就不太能令人满意。这也是由于google的强行前台分词造成的,结果数量多,并不精准。对于文档搜索来说准确恰当才是更
重要的,数量只是其次。