百度搜刮引擎中文分词与文本粒度

2015-10-08  来自: 陕西印象信息技巧无限公司 浏览次数:1209

    百度搜刮引擎的目标就是在满足绝大年夜部分用户的需求下供给最精que最丰富的搜刮成果,关于搜刮引擎而言,用户逗留时间越短,越解释搜刮引擎的高效性和精确性,不论是百度的轻应用、贴心搜刮,照样谷歌的语义搜刮、蜂鸟算法,或是360的我的搜刮,都是为了可以或许赞助人们更便利的找到所求。

    而关于搜刮引擎而言,想要给用户最需求的就须要去断定用户搜刮词的意图。而搜刮引擎虽然异常高效,数据库异常宏大年夜,但它毕竟不是那么智能,不克不及直接断定出搜刮词的意思,虽然谷歌已公布可以借助加倍复杂的搜刮请求更好的懂得人类说话的概念,而不是一些零碎的单词,如许的搜刮能供给加倍精准的成果,即整句搜刮。但这只是一小步,搜刮引擎不论是停止索引照样网页排序仍须要对文本停止切分,即中文分词。分词依然是最基本也是最重要的。而在中文分词过程当中文本粒度起到关键性的感化。

    文本粒度

    所谓文本粒度,关于搜刮引擎而言:粒度是衡量文本所含信息量的大年夜小。文本含信息量越多,粒度就越大年夜,反之就小。有人会说那简单啊,固然词越长含有的信息量就越大年夜,你肯定?那木木SEO告诉你一个小玩意:肌联蛋白是今朝已知的最da蛋白质,名字足足有189819个字母,是名不虚传最da的单词。这个单词的信息量是有多大年夜?闲话不多说,先来看下面几组词中,哪些的粒度大年夜,哪些的粒度小。

    萝卜、葡萄、乒乓

    龙井、篮球、白色、橡皮檫

    踢球、拔河、谈爱情、登山

    高清电视机、南非双人游、呼唤中间体系

第1组词由两个字构成,然则仅表达一个意思,这些词的粒度是小的。而第二组词固然也根本由两个字构成,也只要一个意思,但这些词还可以拆分,如篮和球、橡皮和檫、踢和球等,这类词粒度要稍微大年夜一些。而前面的第四组,不要说粒度就更大年夜了。


陕西印象信息技巧无限公司

接洽人  :刘经理

营业咨询:13379231619

办事监督:029-88412862

接洽地址:西安市南关正街中贸广场15号楼2单位9F

司法参谋:西安市方强律师事务所王继平律师

CopyRight © 版权一切: 陕西印象信息技巧无限公司 技巧支撑:陕西印象信息技巧无限公司 网站地图 XML 立案号:陕ICP备09025595号-1


扫一扫拜访移动端