Chinese Word Segmentation

贝叶斯定理和中文分词

1 前言 1.1 中文分词问题中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的单词，属于自然语言处理的范畴．对于中文搜索引擎而言，分词是必不可少的一个重要环节．在搜索引擎响应用户的搜索请求时，最重要的并不是呈现出所有网页结果（因为数量太过庞大），而是将与用户输入的内容最相关的内容排列在最前，这称为相关度排序．没有分词技术的出现，计算机并不会认识用户输入的句子中哪些是词语，这样搜索引擎也就无法工作．我们知道，对于英文来说，单词是自然地以空格作为分节符，而中文却并不如此，即使有句子、段落之间的划分，我们还是无法直接找到词语与词语之间的分界符．从历史原因上分析，这是因为古代汉语除了专有名词，词语以单音词居多，并不需要特别的分词书写，而现代汉语中复音词居多，一个字不再等同于一个词．对此直观的感受是，翻译一篇文言文的字数明显多于原文． 1.2 引入：拼写纠正与贝叶斯定理如今Word等文字处理软件都能够对用户输入不存在的单词进行纠正，比如用户输入了thew，那么他真正表达的可能是the或者they等，对拼写进行纠正就运用了贝叶斯定理．这个问题用形式化的语言描述：记\(h_{i}\)为对用户真正想输入的单词进行的假设(hypothesis)