打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
文本分析

文本分析


目录


词频统计

功能介绍

  • 在对文章进行分词的基础上,按行保序输出对应文章ID列(docId)对应文章的词,统计指定文章ID列(docId)对应文章内容(docContent)的词频。

参数设置

输入参数:经过分词组件生成两列—文档ID列和分词后的文档内容列

两个输出参数:

第一个输出端:输出表包含三个字段—id,word,count,如下图:

count—统计每个文档中,对应word词汇出现的次数

第二个输出端:输出包含两个字段—id,word,如下图:

本端口输出表按词语在文章中出现的顺序依次输出,没有统计词语的出现次数,因此同一文档中某个词汇可能出现多条记录。 包输出表格式主要用于兼容Word2Vec组件使用。

实例

采用阿里分词实例数据中,将分别将输出表的两个列作为词频统计的输入参数:选择文档ID列 — id ; 选择文档内容列 — text经过词频统计运算后,生成的结果 见本组件中第一个输出参数展示图。

pai命令示例

  1. pai -name doc_word_stat
  2. -project algo_public
  3. -DinputTableName=doc_test_split_word
  4. -DdocId=id
  5. -DdocContent=content
  6. -DoutputTableNameMulti=doc_test_stat_multi
  7. -DoutputTableNameTriple=doc_test_stat_triple
  8. -DinputTablePartitions="region=cctv_news"

算法参数

参数key名称参数描述参数value可选项默认值
inputTableName输入表名--
docId标识文章id的列名仅可指定一列-
docContent标识文章内容的列名仅可指定一列-
outputTableNameMulti输出保序词语表名--
outputTableNameTriple输出词频统计表名--
inputTablePartitions输入表中指定参与分词的分区名, 格式为: partition_name=value。如果是多级格式为name1=value1/name2=value2;如果是指定多个分区,中间用’,’分开-输入表的所有partition

备注:其中参数outputTableNameMulti指定的表是docId列及docId列对应的文章内容(docContent)完成分词后,按各个词语在文章中出现的顺序依次输出。参数outputTableNameTriple指定的表输出docId列及docId列对应的文章内容(docContent)完成分词后,统计得到的各个词语及其在文章中出现的次数。


TF-IDF

  • TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
  • 详细介绍,请参考:[维基百科tf-idf]
  • 本组件是词频统计输出的基础上,计算各个word对于各个文章的tfidf值

参数设置(略)

实例

以词频统计组件实例中的输出表作为TF-IDF组件的输入表,对应的参数设置如下:选择文档ID列: id选择单词列:word选择单词计数列:count

输出表有9列:docid,word,word_count(当前word在当前doc中出现次数),total_word_count(当前doc中总word数), doc_count(包含当前word的总doc数), total_doc_count(全部doc数), tf, idf, tfidf结果如下:

pai命令示例

  1. pai -name tfidf
  2. -project algo_public
  3. -DinputTableName=rgdoc_split_triple_out
  4. -DdocIdCol=id
  5. -DwordCol=word
  6. -DcountCol=count
  7. -DoutputTableName=rg_tfidf_out;

算法参数

参数key名称参数描述必/选填默认值
inputTableName输入表名必填-
inputTablePartitions输入表分区选填输入表的所有partition
docIdCol标识文章id的列名,仅可指定一列必填-
wordColword列名,仅可指定一列必填-
countColcount列名,仅可指定一列必填-
outputTableName输出表名必填-
lifecycle输出表生命周期(单位:天)选填无生命周期限制
coreNum核心数,需和memSizePerCore同时设置才起作用选填自动计算
memSizePerCore内存数,需和coreNum同时设置才起作用选填自动计算

PLDA

  • 主题模型,返回文档对应的主题
  • LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。LDA首先由David M. Blei、Andrew Y. Ng和Michael I. Jordan于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。

参数设置

主题个数: 设置LDA的输出的主题个数Alpha:P(z/d)的先验狄利克雷分布的参数beta: P(w/z)的先验狄利克雷分布的参数burn In:burn in 迭代次数,必须小于总迭代次数,默认值:100总迭代次数: 正整数 | 非必选,默认值:150注:z是主题, w是词, d是文档

输入输出设置

输入:数据必须为稀疏矩阵的格式(格式见数据格式说明章节)。目前需要用户自己写一个MR,实现数据的转换输入格式如下:

第一列:docid; 第二列:单词及词频的kv数据

输出依次为:

  1. ·topic-word频率贡献表
  2. ·单词|主题输出表
  3. ·主题|单词输出表
  4. ·文档|主题输出表
  5. ·主题|文档输出表
  6. ·主题输出表

topic-word频率贡献表的输出格式如下:

pai命令示例

  1. pai -name PLDA
  2. -project algo_public
  3. -DinputTableName=lda_input
  4. –DtopicNum=10
  5. -topicWordTableName=lda_output;

算法参数

参数key名称参数描述取值范围是否必选,默认值/行为
inputTableName输入表名表名必选
inputTablePartitions输入表中指定参与分词的分区名格式为: partition_name=value。如果是多级格式为name1=value1/name2=value2;如果是指定多个分区,中间用’,’分开非必选,默认值:输入表的所有partition
selectedColNames输入表中用于LDA的列名列名,逗号分隔非必选,默认值:输入表中所有的列名
topicNumtopic的数量[2, 500]必选
kvDelimiterkey和value间的分分隔符空格、逗号、冒号非必选,默认值:冒号
itemDelimiterkey和key间的分隔符空格、逗号、冒号非必选,默认值:空格
alphaP(z/d)的先验狄利克雷分布的参数(0, ∞)非必选,默认值:0.1
betaP(w/z)的先验狄利克雷分布的参数(0, ∞)非必选,默认值:0.01
topicWordTableNametopic-word频率贡献表表名必选
pwzTableNameP(w/z)输出表表名非必选,默认行为:不输出P(w/z)表
pzwTableNameP(z/w)输出表表名非必选,默认行为:不输出P(z/w)表
pdzTableNameP(d/z)输出表表名非必选,默认行为:不输出P(d/z)表
pzdTableNameP(z/d)输出表表名非必选,默认行为:不输出P(z/d)表
pzTableNameP(z)输出表表名非必选,默认行为:不输出P(z)表
burnInIterationsburn in 迭代次数正整数非必选,必须小于totalIterations,默认值:100
totalIterations迭代次数正整数非必选,默认值:150

注:z是主题, w是词, d是文档


word2vec

功能介绍

  • Word2Vec是Google在2013年开源的一个将词表转为向量的算法,其利用神经网络,可以通过训练,将词映射到K维度空间向量,甚至对于表示词的向量进行操作还能和语义相对应,由于其简单和高效引起了很多人的关注。
  • Google Word2Vec的工具包相关链接:https://code.google.com/p/word2vec/

参数设置

算法参数:单词的特征维度:建议 0-1000向下采样阈值 建议值为1e-3-1e-5

输入:单词列和词汇表输出:输出词向量表和词汇表

pai命令示例

  1. pai -name Word2Vec
  2. -project algo_public
  3. -DinputTableName=w2v_input
  4. –DwordColName=word
  5. -DoutputTableName=w2v_output;

算法参数

参数key名称参数描述取值范围是否必选,默认值/行为
inputTableName输入表名表名必选
inputTablePartitions输入表中指定参与分词的分区名格式为: partition_name=value。如果是多级格式为name1=value1/name2=value2;如果是指定多个分区,中间用’,’分开非必选,默认值:输入表的所有partition
wordColName单词列名,单词列中每行为一个单词,语料中换行符用</s>表示列名必选
inVocabularyTableName输入词表,该表为inputTableName的 wordcount输出表名非必选,默认行为:程序内部会对输出表做wordcount
inVocabularyPartitions输入词表分区分区名非必选,默认值:inVocabularyTableName对应表的所有分区
layerSize单词的特征维度0-1000非必选,默认值:100
cbow语言模型值为1:表示cbow模型,值为0:skip-gram模型非必选,默认值:0
window单词窗口大小正整数非必选,默认值:5
minCount截断的最小词频正整数非必选:默认值:5
hs是否采用HIERARCHICAL SOFTMAX值为1:表示采用,值为0:不采用非必选,默认值:1
negativeNEGATIVE SAMPLING值为0不可用,建议值5-10非必选,默认值:0
sample向下采样阈值值为小于等于0:不采用,建议值为1e-3-1e-5非必选,默认值:0
alpha开始学习速率大于0非必选,默认值:0.025
iterTrain训练的迭代次数大于等于1非必选,默认值:1
randomWindowwindow是否随机值为1,表示大小在1~5间随机;值为0,表示不随机,其值由window参数指定非必选,默认值:1
outVocabularyTableName输出词表表名非必选,默认行为:不输出‘输出词表’
outVocabularyPartition输出词表分区分区名非必选,默认行为:输出词表为非分区表
outputTableName输出表表名必选
outputPartition输出表分区信息分区名非必选,默认行为:输出表为非分区

SplitWord

  • 基于AliWS(Alibaba Word Segmenter的简称)词法分析系统,对指定列对应的文章内容进行分词,分词后的各个词语间以空格作为分隔符,若用户指定了词性标注或语义标注相关参数,则会将分词结果、词性标注结果和语义标注结果一同输出,其中词性标注分隔符为”/“,语义标注分隔符为”|”。目前仅支持中文淘宝分词和互联网分词。

功能介绍

字段设置(略)
参数设置:
  1. 分词算法:CRF,UNIGRAM
  2. 识别选项:分词中,是否识别特殊意义的名词;
  3. 合并选项:将具有特殊领域的名词作为整体,不进行切分操作
  4. 字符串切分长度:>=0,数字串按指定长度进行截断作为检索单元;默认为0,不对数字串进行长度切分
  5. 使用词频纠错:是否使用纠错词典;
  6. 标注词性:输出结果中,标注词性

实例介绍

输入包含两列的表,第一列是文档id,第二列是文档内容text,如下:

输出结果如下:

pai命令示例

  1. pai -name split_word
  2. -project algo_public
  3. -DinputTableName=doc_test
  4. -DselectedColNames=content1,content2
  5. -DoutputTableName=doc_test_split_word
  6. -DinputTablePartitions="region=cctv_news"
  7. -DoutputTablePartition="region=news"
  8. -Dtokenizer=TAOBAO_CHN
  9. -DenableDfa=true
  10. -DenablePersonNameTagger=false
  11. -DenableOrgnizationTagger=false
  12. -DenablePosTagger=false
  13. -DenableTelephoneRetrievalUnit=true
  14. -DenableTimeRetrievalUnit=true
  15. -DenableDateRetrievalUnit=true
  16. -DenableNumberLetterRetrievalUnit=true
  17. -DenableChnNumMerge=false
  18. -DenableNumMerge=true
  19. -DenableChnTimeMerge=false
  20. -DenableChnDateMerge=false
  21. -DenableSemanticTagger=true

算法参数

参数key名称参数描述参数value可选项默认值
inputTableName输入表名--
selectedColNames输入表中用于分词的列名可指定多列,列名间用逗号(,)间隔-
outputTableName输出表名--
inputTablePartitions输入表中指定参与分词的分区名, 格式为: partition_name=value。如果是多级格式为name1=value1/name2=value2;如果是指定多个分区,中间用’,’分开-输入表的所有partition
outputTablePartition指定输出表的分区-输出表不进行分区
tokenizer分类器类型TAOBAO_CHN,INTERNET_CHN默认为TAOBAO_CHN,淘宝中文分词;INTERNET_CHN,互联网中文分词
enableDfa简单实体识别true,falsetrue
enablePersonNameTagger人名识别true,falsefalse
enableOrgnizationTagger机构名识别true,falsefalse
enablePosTagger是否词性标注true,falsefalse
enableTelephoneRetrievalUnit检索单元配置-电话号码识别true,falsetrue
enableTimeRetrievalUnit检索单元配置-时间号码识别true,falsetrue
enableDateRetrievalUnit检索单元配置-日期号码识别true,falsetrue
enableNumberLetterRetrievalUnit检索单元配置-数字字母识别true,falsetrue
enableChnNumMerge中文数字合并为一个检索单元true,falsefalse
enableNumMerge普通数字合并为一个检索单元true,falsetrue
enableChnTimeMerge中文时间合并为一个语意单元true,falsefalse
enableChnDateMerge中文日期合并为一个语意单元true,falsefalse
enableSemanticTagger是否语义标准true,falsefalse

三元组转kv

功能介绍

  • 给定三元组(row,col,value)类型为XXD 或 XXL, X表示任意类型, D表示Double, L表示bigint,转成kv格式(row,[col_id:value]),其中row和value类型和原始输入数据一致,col_id类型是bigint,并给出col的索引表映射到col_id
  • 输入表形式如下
idwordcount
01a10
01b20
01c30
  • 输出kv表如下,kv分隔符可以自定义
idkey_value
011:10;2:20;3:30
  • 输出word的索引表如下
keykey_id
a1
b2
c3

PAI命令示例

  1. PAI -name triple_to_kv
  2. -project algo_public
  3. -DinputTableName=test_data
  4. -DoutputTableName=test_kv_out
  5. -DindexOutputTableName=test_index_out
  6. -DidColName=id
  7. -DkeyColName=word
  8. -DvalueColName=count
  9. -DinputTablePartitions=ds=test1
  10. -DindexInputTableName=test_index_input
  11. -DindexInputKeyColName=word
  12. -DindexInputKeyIdColName=word_id
  13. -DkvDelimiter=:
  14. -DpairDelimiter=;
  15. -Dlifecycle=3

算法参数

参数名称参数描述参数值可选项默认值备注
inputTableName必选,输入表名--不能为空表
idColName必选,转成kv表时保持不变的列名---
keyColName必选,kv中的key---
valueColName必选,kv中的value---
outputTableName必选,输出kv表名---
indexOutputTableName必选,输出key的索引表---
indexInputTableName可选,输入已有的索引表-“”不能是空表,可以只有部分key的索引
indexInputKeyColName可选,输入索引表key的列名-“”输入indexInputTableName时必选此项
indexInputKeyIdColName可选,输入索引表key索引号的列名-“”输入indexInputTableName时必选此项
inputTablePartitions可选,输入表的分区-“”只能输入单个分区
kvDelimiter可选,key和value之间分隔符-:-
pairDelimiter可选,kv对之间分隔符-;-
lifecycle可选,输出结果表的生命周期-不设生命周期-
coreNum可选,指定instance的总数--1默认会根据输入数据大小计算
memSizePerCore可选,指定memory大小,范围在100~64*1024之间--1默认会根据输入数据大小计算

实例

测试数据

新建数据SQL

  1. drop table if exists triple2kv_test_input;
  2. create table triple2kv_test_input as
  3. select
  4. *
  5. from
  6. (
  7. select '01' as id, 'a' as word, 10 as count from dual
  8. union all
  9. select '01' as id, 'b' as word, 20 as count from dual
  10. union all
  11. select '01' as id, 'c' as word, 30 as count from dual
  12. union all
  13. select '02' as id, 'a' as word, 100 as count from dual
  14. union all
  15. select '02' as id, 'd' as word, 200 as count from dual
  16. union all
  17. select '02' as id, 'e' as word, 300 as count from dual
  18. ) tmp;

运行命令

  1. PAI -name triple_to_kv
  2. -project algo_public
  3. -DinputTableName=triple2kv_test_input
  4. -DoutputTableName=triple2kv_test_input_out
  5. -DindexOutputTableName=triple2kv_test_input_index_out
  6. -DidColName=id
  7. -DkeyColName=word
  8. -DvalueColName=count
  9. -Dlifecycle=1;

运行结果triple2kv_test_input_out

  1. +------------+------------+
  2. | id | key_value |
  3. +------------+------------+
  4. | 02 | 1:100;4:200;5:300 |
  5. | 01 | 1:10;2:20;3:30 |
  6. +------------+------------+

triple2kv_test_input_index_out

  1. +------------+------------+
  2. | key | key_id |
  3. +------------+------------+
  4. | a | 1 |
  5. | b | 2 |
  6. | c | 3 |
  7. | d | 4 |
  8. | e | 5 |
  9. +------------+------------+

字符串相似度

功能介绍

计算字符串相似度在机器学习领域是一个非常基本的操作,主要用在信息检索,自然语言处理,生物信息学等领域。本算法支持Levenshtein Distance,Longest Common SubString,String Subsequence Kernel,Cosine,simhash_hamming五种相似度计算方式。支持两两计算和top n计算两种输入方式。

Levenshtein(Levenshtein Distance)支持距离和相似度两个参数,相似度=1-距离,距离在参数中表示为levenshtein,相似度在参数中表示为levenshtein_sim。

lcs(Longest Common SubString)支持距离和相似度两个参数,相似度=1-距离,距离在参数中表示为lcs,相似度在参数中表示为lcs_sim。

ssk(String Subsequence Kernel)支持相似度计算,在参数中表示为ssk。

参考:Lodhi, Huma; Saunders, Craig; Shawe-Taylor, John; Cristianini, Nello; Watkins, Chris (2002). “Text classification using string kernels”. Journal of Machine Learning Research: 419–444.

cosine(Cosine)支持相似度计算,在参数中表示为cosine。

参考:Leslie, C.; Eskin, E.; Noble, W.S. (2002), The spectrum kernel: A string kernel for SVM protein classification 7, pp. 566–575

simhash_hamming,其中SimHash算法是把原始的文本映射为64位的二进制指纹,HammingDistance则是计算二进制指纹在相同位置上不同的字符的个数,支持距离和相似度两个参数,相似度=1-距离/64.0,距离在参数中表示为simhash_hamming,相似度在参数中表示为simhash_hamming_sim。

SimHash详细介绍请见pdf

HammingDistance详细介绍请见维基百科链接wiki

两两计算

PAI命令
  1. PAI -name string_similarity
  2. -project algo_public
  3. -DinputTableName="pai_test_string_similarity"
  4. -DoutputTableName="pai_test_string_similarity_output"
  5. -DinputSelectedColName1="col0"
  6. -DinputSelectedColName2="col1";
算法参数
参数名称参数描述参数可选项参数默认值
inputTableName必选,输入表的表名--
outputTableName必选,输出表的表名--
inputSelectedColName1可选,相似度计算中第一列的列名-表中第一个为类型为string的列名
inputSelectedColName2可选,相似度计算中第二列的列名-表中第二个为类型为string的列名
inputAppendColNames可选,输出表追加的列名-不追加
inputTablePartitions可选,输入表选中的分区-选择全表
outputColName可选,输出表中相似度列的列名。列名中不能有特殊字符,只能用英文的a-z,A-Z及数字和下划线_,且以字母开头,名称的长度不超过128字节。-output
method可选,相似度计算方法levenshtein, levenshtein_sim, lcs, lcs_sim, ssk, cosine, simhash_hamming, simhash_hamming_simlevenshtein_sim
lambda可选,匹配字符串的权重,ssk中可用(0, 1)0.5
k可选,子串的长度,ssk和cosine中可用(0, 100)2
lifecycle可选,指定输出表的生命周期正整数没有生命周期
coreNum可选,计算的核心数正整数系统自动分配
memSizePerCore可选,每个核心的内存(单位为兆)正整数,范围(0, 65536)系统自动分配
示例

测试数据

  1. create table pai_ft_string_similarity_input as select * from
  2. (select 0 as id, "北京" as col0, "北京" as col1 from dual
  3. union all
  4. select 1 as id, "北京" as col0, "北京上海" as col1 from dual
  5. union all
  6. select 2 as id, "北京" as col0, "北京上海香港" as col1 from dual
  7. )tmp;

pai命令

  1. PAI -name string_similarity
  2. -project sre_mpi_algo_dev
  3. -DinputTableName=pai_ft_string_similarity_input
  4. -DoutputTableName=pai_ft_string_similarity_output
  5. -DinputSelectedColName1=col0
  6. -DinputSelectedColName2=col1
  7. -Dmethod=simhash_hamming
  8. -DinputAppendColNames=col0,col1;

输出说明

方法simhash_hamming输出结果如下:

方法simhash_hamming_sim输出结果如下:


字符串相似度-topN

PAI命令
  1. PAI -name string_similarity_topn
  2. -project algo_public
  3. -DinputTableName="pai_test_string_similarity_topn"
  4. -DoutputTableName="pai_test_string_similarity_topn_output"
  5. -DmapTableName="pai_test_string_similarity_map_topn"
  6. -DinputSelectedColName="col0"
  7. -DmapSelectedColName="col1";
算法参数
参数名称参数描述参数可选项参数默认值
inputTableName必选,输入表的表名--
mapTableName必选,输入的映射表名--
outputTableName必选,输出表的表名--
inputSelectedColName可选,相似度计算中左表的列名-表中第一个为类型为string的列名
mapSelectedColName可选,相似度计算中映射表的列名,左表中的每一行都会和映射表中所有的字符串计算出相似度,并最终已top n的方式给出结果-表中第一个为类型为string的列名
inputAppendColNames可选,输入表在输出表追加的列名-不追加
inputAppendRenameColNames可选,输入表在输出表追加的列名的别名,在inputAppendColNames不为空时有效-不使用别名
mapAppendColNames可选,映射表在输出表追加的列名-不追加
mapAppendRenameColNames可选,映射表在输出表追加的列名的别名-不使用别名
inputTablePartitions可选,输入表选中的分区-选择全表
mapTablePartitions可选,映射表中的分区-选择全表
outputColName可选,输出表中相似度列的列名, 列名中不能有特殊字符,只能用英文的a-z,A-Z及数字和下划线_,且以字母开头,名称的长度不超过128字节。-output
method可选,相似度计算方法levenshtein_sim, lcs_sim, ssk, cosine, simhash_hamming_simlevenshtein_sim
lambda可选,匹配字符串的权重,ssk中可用(0, 1)0.5
k可选,子串的长度,ssk和cosine中可用(0, 100)2
topN可选,最终给出的相似度最大值的个数(0, +∞)10
lifecycle可选,指定输出表的生命周期正整数没有生命周期
coreNum可选,计算的核心数正整数系统自动分配
memSizePerCore可选,每个核心的内存(单位为兆)正整数,范围(0, 65536)系统自动分配
示例

测试数据

  1. create table pai_ft_string_similarity_topn_input as select * from
  2. (select 0 as id, "北京" as col0 from dual
  3. union all
  4. select 1 as id, "北京上海" as col0 from dual
  5. union all
  6. select 2 as id, "北京上海香港" as col0 from dual
  7. )tmp;

pai命令

  1. PAI -name string_similarity_topn
  2. -project sre_mpi_algo_dev
  3. -DinputTableName=pai_ft_string_similarity_topn_input
  4. -DmapTableName=pai_ft_string_similarity_topn_input
  5. -DoutputTableName=pai_ft_string_similarity_topn_output
  6. -DinputSelectedColName=col0
  7. -DmapSelectedColName=col0
  8. -DinputAppendColNames=col0
  9. -DinputAppendRenameColNames=input_col0
  10. -DmapAppendColNames=col0
  11. -DmapAppendRenameColNames=map_col0
  12. -Dmethod=simhash_hamming_sim;

输出说明


停用词过滤

功能介绍

停用词过滤,是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声(例如:的、是、啊等)。

参数设置

组件说明

两个输入桩,从左到右依次为:

  • 输入表,即需要过滤的分词结果表;对应的参数名为inputTableName
  • 停用词表,表的格式为一列,每行为一个停用词;对应的参数名为noiseTableName
参数界面说明

  • 可以选择需要过渡的列
执行调化说明

  • 可以自己配置并发计算核心数目与内存,默认系统自动分配

PAI命令

  1. PAI -name FilterNoise -project algo_public \
  2. -DinputTableName=”test_input” -DnoiseTableName=”noise_input” \
  3. -DoutputTableName=”test_output” \
  4. -DselectedColNames=”words_seg1,words_seg2” \
  5. -Dlifecycle=30

算法参数

参数名称参数描述参数可选项参数默认值
inputTableName必选,输入表的表名--
inputTablePartitions可选,输入表中指定参与计算的分区-输入表的所有partitions
noiseTableName必选,停用词表格式为一列,每一行一个词-
noiseTablePartitions可选,停用词表的分区全表
outputTableName必选,输出表--
selectedColNames必选,待过滤列,多列时以逗号为分隔--
lifecycle可选,指定输出表的生命周期正整数没有生命周期
coreNum可选,计算的核心数正整数系统自动分配
memSizePerCore可选,每个核心的内存(单位为兆)正整数,范围(0, 65536)系统自动分配

示例

源数据
  • 分词的结果表 temp_word_seg_input

  • 停用词表 temp_word_noise_input

1 创建实验

2 选择待过滤列 seg

3 运行结果


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Heritrix总结及消重算法初探
微信的原创保护机制到底是如何实现的?
基于SimHash算法的文本相似度计算原理
中文查重原理 及算法实例(python)
php操作memcache的使用测试总结
VBE中工作簿/工作表属性内容介绍
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服