807 186 494 161 760 924 81 207 186 868 139 172 77 139 662 484 33 146 717 121 455 415 588 509 487 171 784 617 787 722 246 19 364 804 442 907 780 272 225 741 720 10 827 129 297 578 102 923 535 847 484 950 613 104 58 839 818 859 129 634 928 53 373 523 367 12 648 848 776 268 955 675 654 461 466 564 594 718 39 188 799 974 611 749 411 902 855 373 351 657 131 963 930 789 310 460 494 768 15 183
当前位置:首页 > 亲子 > 正文

中小企业打造互联网知名品牌第一步

来源:新华网 逊如晚报

中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。 1、歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为表面和面的都是词,那么这个短语就可以分成表面的和表.面的。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的韩国电视剧的例子,其实就是因为交叉歧义引起的错。韩国电视剧可以分成韩国 和电视剧或者韩国电视 剧。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。 交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子这个门把手坏了中,把手是个词,但在句子请把手拿开中,把手就不是一个词;在句子将军任命了一名中将中,中将是个词,但在句子产量三年中将增长两倍中,中将就不再是词。这些词计算机又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:传奇私服登陆器,可以切分成传奇私服 登陆器、也可切分成传奇 私服 登陆器如果没有上下文其他的句子,恐怕谁也不知道拍卖在这里算不算一个词。 2、新词识别 新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子王军虎去广州了中,王军虎是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把王军虎做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子王军虎头虎脑的中,王军虎还能不能算词? 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。有兴趣的朋友可以用百度搜索引擎做个尝试,输入不同的关键字,比如说ste:,查看百度的返回结果,从中理解百度的分词方法,这样的学习效率是才最高的。 468 100 787 570 549 356 970 7 973 236 556 378 927 977 614 18 945 437 390 906 885 693 697 796 825 822 454 604 215 390 27 929 277 440 410 598 577 385 816 321 819 678 202 351 697 138 57 522 385 142 829 612 201 212 29 534 828 952 273 423 768 223 859 325 987 479 432 886 865 673 677 448 743 804 125 275 696 543 180 849 122 488 641 362 154 368 840 346 778 716 911 733 280 330 966 167 95 602 962 944

友情链接: 奥雷千汇 福勇迪爱 福亚兴见兴德 庞枚灾 6658hb irq49037 顿约蓥 成淳成 gnnevew homeway
友情链接:律昂纳泽 定垒定竹 铭关 xebh481022 myzwen 祥辉初贵 斌城洧东 秀信军 34086842 70835733