jieba词性标注表(0.39版)
en cn e.g. 数量 a 形容词 高 明 尖 诚 粗陋 冗杂 丰盛 顽皮 很贵 挺好用 … 4306 ad 副形词 努目 完全 努力 切面 严实 慌忙 明确 仓惶 详细 … 110 ag 形语素 详 笃 睦 奇 洋 裸 渺 忤 虐 黢 怠 峻 悫 鄙 秀 … 46 an 名形词 麻生 猥琐 腐生 困苦 危难 负疚 刚愎 危险 悲苦 … 40 b 区别词 劣等 洲际性 超常规 同一性 年级 非农业 二合一 … 1363 c 连词 再者说 倘 只此 或曰 以外 换句话说 虽是 除非 … 504 d 副词 幸免 四顾 绝对 急速 特约 从早 务须 逐行 挨边 … 2422 df 不要 不要 1 dg 副语素 俱 辄 2 e 叹词 好哟 嗄 天呀 哎 哇呀 啊哈 嗳 诶 嗬 呜呼 哇塞 … 34 f 方位词 内侧 以来 面部 后侧 面前 沿街 之内 两岸 里 … 351 g 语素 媸 璇 戬 瓴 踔 鳌 撄 絷 膑 遘 醢 槊 胂 鹎 豳 … 969 h 前接成分 非 超低 2 i 成语 绿荫蔽日 振耳欲聋 沧海一粟 一望无边 为尊者讳 … 25583 j 简称略语 交警 中低收入 四个现代 经检测 青委 车改 … 1396 k 后接成分 型 者 式 们 4 l 习用语 不懂装懂 相聚一刻 由下而上 十字路口 查无此人 … 17721 m 数词 九六 十二 半成 戊酉 俩 一二三四五 丙戌 片片 … 13178 mg 数语素 寅 巳 2 mq 数量词 半年度 四方面 十付 三色 一口钟 四面 三分钟 … 80 n 名词 男性 娇子 气压 写实性 联立方程 商业智能 寒窗 … 117902 ng 名语素 诀 卉 茗 鹊 娃 寨 酊 钬 雹 役 莺 谊 隙 族 鸩 … 280 nr 人名 雍正皇帝 小老弟 唐僧骑 铁娘子 小甜甜 璐 … 72842 nrfg 古近代人名 刘备 关羽 张飞 赵云 任弼时 … 484 nrt 音译人名 米尔科 达尼丁 三世 五丁 塞拉 埃克尔斯 贝当 … 5941 ns 地名 南明 锡山 拱北 南非 哥里 平北 丹井 佛山 广州 … 17706 nt 机构团体 浙江队 中医院 中华网 铁道部 广电部 联想集团 … 4713 nz 其他专名 培根 补丁 圣战士 英属 国药准字 … 10441 o 拟声词 哈喇 咝 哗喇 咔喳 飕 哇哇 喃 咕隆 咿呀 唧咕 … 247 p 介词 顺当 顺着 借了 连着 乘着 除了 较之于 根 自 … 114 q 量词 毫厘 盅 封 千瓦小时 立方米 盎 座 毫克 张 斛 … 232 r 代词 该车 这时 那些 甚么 鄙人 此案 睿智者 他 怎生 … 759 rg 代语素 兹 1 rr 代词 偺们 妳们 其他人 3 rz 代词 这位 1 s 处所词 世外 肩前 舷外 手下 耳边 兜里 盘头 桌边 家外 … 591 t 时间词 新一代 清时 先上去 月初 昔年 无日 唐五代 佳日 … 1768 tg 时间语素 昔 晚 春 现 暮 夕 宵 7 u 助词 则否 等 恁地 等等 似的 来说 矣哉 来看 般 的话 … 20 ud 得 得 1 ug 过 过 1 uj 的 的 1 ul 了 了 1 uv 地 地 1 uz 着 着 1 v 动词 批发 孕育 作成 纳闷儿 遭殃 留话 吻下去 创生 … 34761 vd 副动词 狡辩 持续 逆势 3 vg 动语素 悖 谏 踞 泯 濯 掳 诌 疑 诲 吁 囿 酌 蟠 豢 匿 … 160 vi 动词 沉溺于 等同于 沉缅于 徜徉于 4 vn 名动词 审查 相互毗连 销蚀 对联 劳工 漫游 … 3235 vq 动词 捱过 唸过 去过 去浄 4 x 非语素字 舭 珑 婪 躅 蕺 蜓 螂 窀 蘅 葜 姆 榍 虺 楂 … 367 y 语气词 吓呆了 呃 呀 兮 哩 呐 嘞 哇 呗 意谓着 也罢 啦 … 49 z 状态词 歪曲 飘飘 慢慢儿 急地 沉迷在 晕呼呼 … 2624 zg zg 鮛 瑑 灘 鄼 緣 嗙 獘 洅 暠 埄 涚 鞞 檺 肸 撻 … 5666
jieba是参照【ICTCLAS 汉语词性标注集 中科院】的
读取jieba词库,生成词性标注表,保存为excel
import jieba, pandas as pd, os
jieba_dict = os.path.dirname(jieba.__file__) + '/dict.txt'
df_jieba = pd.read_table(jieba_dict, sep=' ', header=None)[[2, 0]]
dt = {k: set() for k in df_jieba[2].values}
for f, w in df_jieba.values:dt[f].add(w)
ls_of_ls = [(f, len(w), ' '.join(list(w)[:50])) for f, w in dt.items()]
pd.DataFrame(ls_of_ls, columns=['flag', 'count', 'e.g.']).sort_values('flag').to_excel('flag.xlsx', index=None)
带词性的分词
import jieba.posseg as jp
print(jp.lcut('我爱西樵山'))
[pair(‘我’, ‘r’), pair(‘爱’, ‘v’), pair(‘西樵山’, ‘ns’)]
词与词性间映射
from jieba.posseg import dt
print(dt.word_tag_tab)
en2cn字典映射
flag_en2cn = {
'a': '形容词', 'ad': '副形词', 'ag': '形语素', 'an': '名形词', 'b': '区别词',
'c': '连词', 'd': '副词', 'df': '不要', 'dg': '副语素',
'e': '叹词', 'f': '方位词', 'g': '语素', 'h': '前接成分',
'i': '成语', 'j': '简称略语', 'k': '后接成分', 'l': '习用语',
'm': '数词', 'mg': '数语素', 'mq': '数量词',
'n': '名词', 'ng': '名语素', 'nr': '人名', 'nrfg': '古代人名', 'nrt': '音译人名',
'ns': '地名', 'nt': '机构团体', 'nz': '其他专名',
'o': '拟声词', 'p': '介词', 'q': '量词',
'r': '代词', 'rg': '代语素', 'rr': '代词', 'rz': '代词',
's': '处所词', 't': '时间词', 'tg': '时间语素',
'u': '助词', 'ud': '得', 'ug': '过', 'uj': '的', 'ul': '了', 'uv': '地', 'uz': '着',
'v': '动词', 'vd': '副动词', 'vg': '动语素', 'vi': '动词', 'vn': '名动词', 'vq': '动词',
'x': '非语素字', 'y': '语气词', 'z': '状态词', 'zg': '状态语素',
}
0.42版后paddle模式词性和专名类别标签
标签 含义 标签 含义 标签 含义 标签 含义 n 普通名词 f 方位名词 s 处所名词 t 时间 nr 人名 ns 地名 nt 机构名 nw 作品名 nz 其他专名 v 普通动词 vd 动副词 vn 名动词 a 形容词 ad 副形词 an 名形词 d 副词 m 数量词 q 量词 r 代词 p 介词 c 连词 u 助词 xc 其他虚词 w 标点符号 PER 人名 LOC 地名 ORG 机构名 TIME 时间
from jieba import enable_paddle, posseg
enable_paddle()
print(posseg.lcut('小基基在南海注册桂城人工智能公司'))
print(posseg.lcut('小基基在南海注册桂城人工智能公司', use_paddle=True))
其它词性标注表
nltk词性标注表
abbreviate full name description CC Coordinating conjunction 连接词 CD Cardinal number 基数词 DT Determiner 限定词(this,those,such)不定限定词(any,each,every,either,all,many,other) EX Existential there 存在句 FW Foreign word 外来词 IN Preposition or subordinating conjunction 介词或从属连词 JJ Adjective 形容词或序数词 JJR Adjective, comparative 形容词比较级 JJS Adjective, superlative 形容词最高级 LS List item marker 列表标示 MD Modal 情态助动词 NN Noun, singular or mass 常用名词 单数形式 NNS Noun, plural 常用名词 复数形式 NNP Proper noun, singular 专有名词,单数形式 NNPS Proper noun, plural 专有名词,复数形式 PDT Predeterminer 前位限定词 POS Possessive ending 所有格结束词 PRP Personal pronoun 人称代词 PRP Possessive pronoun 所有格代名词 RB Adverb 副词 RBR Adverb, comparative 副词比较级 RBS Adverb, superlative 副词最高级 RP Particle 小品词 SYM Symbol 符号 TO to 作为介词或不定式格式 UH Interjection 感叹词 VB Verb, base form 动词基本形式 VBD Verb, past tense 动词过去式 VBG Verb, gerund or present participle 动名词和现在分词 VBN Verb, past participle 过去分词 VBP Verb, non-3rd person singular present 动词非第三人称单数 VBZ Verb, 3rd person singular present 动词第三人称单数 WDT Wh-determiner 关系限定词(whose,which)疑问限定词(what,which,whose) WP Wh-pronoun 代词(who whose which) WP Possessive wh-pronoun 所有格代词 WRB Wh-adverb 疑问代词(how where when)
import nltk
text = 'Sweat is the lubricant of success'
words = nltk.word_tokenize(text)
tags = nltk.pos_tag(words)
print(words, tags, sep='\n')
[‘Sweat’, ‘is’, ‘the’, ‘lubricant’, ‘of’, ‘success’] [(‘Sweat’, ‘NN’), (‘is’, ‘VBZ’), (‘the’, ‘DT’), (‘lubricant’, ‘NN’), (‘of’, ‘IN’), (‘success’, ‘NN’)]
百度AI词性标注表
用于【句法分析】
词性 含义 词性 含义 词性 含义 词性 含义 Ag 形语素 g 语素 ns 地名 u 助词 a 形容词 h 前接成分 nt 机构团体 vg 动语素 ad 副形词 i 成语 nz 其他专名 v 动词 an 名形词 j 简称略语 o 拟声词 vd 副动词 b 区别词 k 后接成分 p 介词 vn 名动词 c 连词 l 习用语 q 量词 w 标点符号 dg 副语素 m 数词 r 代词 x 非语素字 d 副词 Ng 名语素 s 处所词 y 语气词 e 叹词 n 名词 tg 时语素 z 状态词 f 方位词 nr 人名 t 时间词 un 未知词
用于【词法分析】
词性 含义 词性 含义 词性 含义 词性 含义 n 普通名词 f 方位名词 s 处所名词 t 时间名词 nr 人名 ns 地名 nt 机构团体名 nw 作品名 nz 其他专名 v 普通动词 vd 动副词 vn 名动词 a 形容词 ad 副形词 an 名形词 d 副词 m 数量词 q 量词 r 代词 p 介词 c 连词 u 助词 xc 其他虚词 w 标点符号 PER 人名 LOC 地名 ORG 机构名 TIME 时间
示例
对比句法分析,缺少了
词性 含义 词性 含义 词性 含义 词性 含义 词性 含义 词性 含义 Ag 形语素 g 语素 vg 动语素 Ng 名语素 dg 副语素 tg 时语素 i 成语 l 习用语 j 简称略语 – – h 前接成分 k 后接成分 o 拟声词 y 语气词 e 叹词 – – b 区别词 z 状态词
pyltp词性标注表
Tag Description e.g. a adjective 美丽 b other noun-modifier 最高 c conjunction 且 d adverb 非常 e exclamation 哎 g morpheme 甥 h prefix 阿 i idiom 百花齐放 j abbreviation 公检法 k suffix 型 m number 五 n general noun 鸡蛋 nd direction noun 右侧 nh person name 白居易 ni organization name 医院 nl location noun 城郊 ns geographical name 佛山 nt temporal noun 昨日 nz other proper noun 对乙酰氨基酚 o onomatopoeia 乒乓 p preposition 在 q quantity 个 r pronoun 他 u auxiliary 的 v verb 打架 wp punctuation ; ws foreign words APP x non-lexeme 翱 z descriptive words 冷冰冰
补充
en cn adjective 形容词 adverb 副词 auxiliary adj. 辅助的;n. 助动词; abbreviation 缩写 conjunction 连词 determiner 限定词 interjection 感叹词 noun 名词 numeral n. 数字;adj. 数字的 onomatopoeia 拟声词 preposition 介词 pronoun 代词 quantifier 量词 verb 动词 idiom 成语 prefix 前缀 suffix 后缀 attributive words 区别词
Post Views: 123