千百万平台

当前位置:千百万平台 > 千百万平台下载地址 > user_dict 设置用户词典

user_dict 设置用户词典

  THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 内容来自dedecms

  能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

本文来自织梦

  准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

织梦内容管理系统

  速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。 本文来自织梦

  在当前路径下运行 make 会在当前目录下得到thulac和train_c (thulac需要模型的支持,需要将下载的模型放到当前目录下) dedecms.com

  可直接按照分词程序命令格式运行可执行的jar包 自行编译需要安装Gradle, 然后在项目根目录执行gradle build, 生成文件在build/libs下(thulac需要模型的支持,需要将下载的模型放到当前目录下)

本文来自织梦

  将thulac文件放到目录下,通过 import thulac 来引用thulac需要模型的支持,需要将下载的模型放到thulac目录下。 内容来自dedecms

  user_dict 设置用户词典,用户词典中的词会被打上uw标签。词典中每一个词一行,UTF8编码T2S 默认False, 是否将句子从繁体转化为简体seg_only 默认False, 时候只进行分词,不进行词性标注filt 默认False, 是否使用过滤器去除一些没有意义的词语,例如“可以”。model_path 设置模型文件所在文件夹,默认为models/

织梦内容管理系统

  user_path 设置用户词典,用户词典中的词会被打上uw标签。词典中每一个词一行,UTF8编码 t2s 默认False, 是否将句子从繁体转化为简体 just_seg 默认False, 时候只进行分词,不进行词性标注 ufilter 默认False, 是否使用过滤器去除一些没有意义的词语,例如“可以”。 model_path 设置模型文件所在文件夹,默认为models/ separator 默认为‘_’, 设置词与词性之间的分隔符

copyright dedecms

  THULAC需要分词和词性标注模型的支持,用户可以在下载列表中下载THULAC模型 Models_v1.zip,并放到THULAC的根目录即可,或者使用参数-model_dir dir指定模型的位置。 织梦内容管理系统

  THULAC工具包提供模型训练程序train_c,用户可以使用train_c训练获得THULAC的所需的模型。 内容来自dedecms

  “我喜欢网游戏,看到了发卡平台的交易流量大,利润空间很大。”王某说,他有了自己建发卡平台的计划,通过购买网络程序,建立了“发卡啦自动发卡平台”,主要为商家提供支付结算服务。 织梦好,好织梦

  我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

dedecms.com

  为了方便在分词和词性标注后的过滤,在v1_2版本,我们增加了两种词性,如果需要可以下载使用。 织梦内容管理系统

  当前,长城汽车可谓是国内市场上表现最好的自主品牌车企,从2008年低谷到现在,长城汽车股价已经激增了60倍,外媒分析人士甚至宣称,长城有望成为下一个现代汽车。但于此同时,长城汽车的负面报道也时有传出,员工的幸福感危机、落后的管理机制等都已经见诸报端,近日,又有有媒体报道称,长城的产品频繁爆出严重质量问题,而且售后服务也很糟糕让消费者难以维权,对其品牌形象已经造成了严重影响。

copyright dedecms

  [参考价格]:美萍 汽车配件管理系统(网络专业版)1780[销售商家]:合肥君诺软件//m.pconline.com.cn/shop788455/[商家地址]:合肥市兴科大厦1913室&百脑汇3G05&淮北大华电脑城1-21/22&芜湖和平大厦2-286[商家电话] [最新行情]:安徽行情[报价查询]:安徽报价

dedecms.com

  我们随THULAC源代码附带了简单的分词模型Model_1,仅支持分词功能。该模型由人民日报分词语料库训练得到。

dedecms.com

  我们随THULAC源代码附带了分词和词性标注联合模型Model_2,支持同时分词和词性标注功能。该模型由人民日报分词和词性标注语料库训练得到。

copyright dedecms

  我们还提供更复杂、完善和精确的分词和词性标注联合模型Model_3和分词词表。该模型是由多语料联合训练训练得到(语料包括来自多文体的标注文本和人民日报标注文本等)。由于模型较大,如有机构或个人需要,请填写“资源申请表.doc”,并发送至 ,通过审核后我们会将相关资源发送给联系人。

织梦好,好织梦

  THULAC工具包分成两个部分组成。第一部分为算法源代码部分,可以通过网站上下载或者从github获取最新基础版代码,无需注册;第二部分为算法模型部分,THULAC需要分词和词性标注模型的支持,可以从2.算法模型注册后获得。

织梦内容管理系统



上一篇:固定犯罪证据后 下一篇:滕博会官网

随机推荐

热门推荐