torchtext

import torchtext
torchtext.data # 包含数据加载器,abstractions, iterators for text
torchtext.datasets # 包含常用的NLP数据集加载器
Dataset(examples,fields,filter_pred=None)
variables: sort_key,examples, fields
examples: List of Examples
fields:List(Tuple(str,Field))

Dataset.split(split_ratio=0.7, stratified=False, strata_field='label', random_state=None)
'''
    split_ratio:取一个浮点数(此时表示训练集的占比,剩余用作验证)
    也可以取一个浮点数序列,此时表示训练-测试(-验证)的分割
    返回分割好的数据集(iter?)构成的元组
'''
Dataset.splits(path=None, root='.data', train=None, validation=None, test=None, **kwargs)
    train,validation,test取的都是三个数据集相对root的路径的值
    # 返回分割好的数据集构成的元组

class torchtext.data.TabularDataset(path, format, fields, skip_header=False,    csv_reader_params={}, **kwargs) 
    # format取{'CSV','TSV','JSON'}中的一个

Iterator

Last updated

Was this helpful?