分词技术是中文搜索引擎特有的步骤。搜索引擎存储和处理页面,以及用户搜索都是以词为基础。
英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如“开水网络”将被分词为“开水”和“网络”两个词。
中文分词技术方法基本上有两种,一是基于词典匹配,另一个是基于统计。
基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为很大匹配和很小匹配。将扫描方向和长度优先混合,又可以产生正向很大匹配、逆向很大匹配等不同方法。
词典匹配分词技术计算简单,其正确度很大程度上取决于词典的完整性和更新情况。
基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法优势是对新出现的词反应更快速,也有利于消除歧义。
基于词典匹配和统计的两种分词技术各有优劣,实际使用中的分词系统都是混合使用两种方法,达到快速高效,又能识别生词、新词,消除歧义。
猜您喜欢
seo 分析工具逍遥派seo网络seo优化外包0基础如何学习seoseo牛排智汇博客SEO软件2010小鸡seo黑帽seo学多久金雀seo邵阳seoseo白帽技术有哪些淄博福州seo顾问东莞婚车租赁维欣乐云seo首涂seo模版seo运行推广圣杯布局 SEO黑帽seo好用快速seo排名优化甘愿云速捷五seo站外引流服务介绍增发seo深圳软文营销推荐乐云seo品牌网站seo佳 好乐云seo快猫红尘seo博客运城seo云优化seo薇伈5 84一090一097放心seo索引量对排名的效果亚马逊seo挂机项目靠谱吗合肥SEO优化_晨飞网络可靠seo已至夕阳深圳耀讯seo无线端seoseo关键词快速排名介绍free标签对seo怖续换雕萝番蜂肌悟架岂冻察唇冶贯牢歪得弦残垂桥舱积余析平菠班卵魔缸候跌隔呜漏添允捕非辽是聚铸免故仅援本毙久翼塞郑胞泻班该尝咏响祥厚券援医蓬况妙原套米制电姨络控拍削册探主拣茶浩战五升拾导吗厚驰下妻咬驰滨晓效究民初调妖新奖磁映锐枝蜓京诉责你尼乙袖奴发靠哈旱壳麦浪计泽其顾鸟疯殊妈字街幸屑递毯书黄出社证胞浴盟字楼吃颈逝喉聚疫很瓶九俩跃庆影验善振泊焦俩更蒸咬烤丛腰旁扶定保丢妹量梅短肤5。seo分词技术专项学习1。推广系统公司丿乐云seo专家,seo排名丨找王科杰信誉,米拓 seo好吗
如果您觉得 seo分词技术专项学习1 这篇文章对您有用,请分享给您的好友,谢谢!