九江网站建设哪家公司好,seo研究中心怎么样,wordpress 全局js,自己做网站除了域名还需要什么我已经为这件事挣扎了一段时间了。我的目标是获取一个文本特征#xff0c;并从中找出5-10个最好的单词来帮助我分类。因此#xff0c;我正在运行一个TfIdfVectorizer#xff0c;现在选择~90最佳。然而#xff0c;当我缩小了特性数量之后#xff0c;我无法看到实际选择了哪…我已经为这件事挣扎了一段时间了。我的目标是获取一个文本特征并从中找出5-10个最好的单词来帮助我分类。因此我正在运行一个TfIdfVectorizer现在选择~90最佳。然而当我缩小了特性数量之后我无法看到实际选择了哪些特性。在以下是我所拥有的import pandasfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.feature_selection import SelectPercentile, f_classiftrainpandas.read_csv(train.tsv, sep\t)labels_train train[label]documents []for i, row in train.iterrows():documents.append((row[boilerplate][1:-1].lower()))vectorizer TfidfVectorizer(sublinear_tfTrue, stop_wordsenglish)features_train_transformed vectorizer.fit_transform(documents)selector SelectPercentile(f_classif, percentile0.1)selector.fit(features_train_transformed, labels_train)features_train_transformed selector.transform(features_train_transformed).toarray()结果是features_train_transformed包含一个矩阵其中包含所选单词的每个文档中每个单词的所有tfidf分数但是我不知道选择了哪些单词并且像“get_feature_names()”这样的方法对于SelectPercentile类不可用。在这是必要的因为我需要将这些特征添加到一堆数字特征中然后才能进行训练和预测。在