导航栏菜单

[登录]

备案域名交易

老域名购买,已备案域名出售,已备案过期域名查询,老域名注册,已备案域名抢注,老域名转让,万网已备案域名,九江网站建设

« 上一篇下一篇 »

搜索引擎分词方法讲解

 1、基于字付串的分词方法
正向匹配,逆向匹配,最少切词
一、正向最大匹配
比如:我要回家吃饭
1)现在先看:我要回   我要回是否是存在还是一个单字,是则取出,否则去除回字,再检查我要,在字典中是否存在或是一个单字,处理掉其中一个要字,检查我字是否在字典中存在或是一个单字,明显就是一个单字,将我字输出。
2)要回家在字典中是否存在,如果是则输出词语,如果不是则去除家。检查要回是否存在字典中,还是一个单字,处理方式是去掉回字。检查要在字典是否单字。输出要。。。
3)回家吃,去掉吃字,再检查回家是否存在,存在则输出。。   再检查吃饭,,也符合输出
输出:我 要  回家  吃饭
二、逆向最大匹配
某秋天我要回家塘子举行婚礼   分词为九个节点的话,把举行婚礼提取出来。就可以消除歧义了。
三、最小分词法,也就是从小到大把一个关键词切分为不同的词组,在每一句中找出最小的词组,比如先分成常用的词组:SEO,搜索,中文,分词,算法,原理,实战,教程等,然后按分成单个字,开始最小的字与词合并,比如:中文与分词进行合并,就出现了一个最小词组“中文分词”,更多请自己举一反三。
2、基于统计的分词方法
直接调用词典中的词来进行匹配。也把热门词收入其中。

Powered By 备案域名交易 .Theme By 备案域名 Copyright www.jxpxw.com.cn. Some Rights Reserved.

最近发表
网站分类
搜索
Tags列表