Tagged

Chinese Word Segmentation

A collection of 1 post

Chinese Word Segmentation

贝叶斯定理和中文分词

1 前言 1.1 中文分词问题 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的单词,属于自然语言处理的范畴.对于中文搜索引擎而言,分词是必不可少的一个重要环节.在搜索引擎响应用户的搜索请求时,最重要的并不是呈现出所有网页结果(因为数量太过庞大),而是将与用户输入的内容最相关的内容排列在最前,这称为相关度排序.没有分词技术的出现,计算机并不会认识用户输入的句子中哪些是词语,这样搜索引擎也就无法工作. 我们知道,对于英文来说,单词是自然地以空格作为分节符,而中文却并不如此,即使有句子、段落之间的划分,我们还是无法直接找到词语与词语之间的分界符.从历史原因上分析,这是因为古代汉语除了专有名词,词语以单音词居多,并不需要特别的分词书写,而现代汉语中复音词居多,一个字不再等同于一个词.对此直观的感受是,翻译一篇文言文的字数明显多于原文. 1.2 引入:拼写纠正与贝叶斯定理 如今Word等文字处理软件都能够对用户输入不存在的单词进行纠正,比如用户输入了thew,那么他真正表达的可能是the或者they等,对拼写进行纠正就运用了贝叶斯定理.这个问题用形式化的语言描述:记\(h_{i}\)为对用户真正想输入的单词进行的假设(hypothesis)