8.7. csv — 逗号分隔值文件格式 | 数据持久和数据交换 |《python 3 标准库实例教程》| python 技术论坛-金年会app官方网
目的:对逗号分隔的数据文件进行读写。
csv
模块主要用于处理从电子数据表格或数据库中导入到文本文件的数据,通常简称为comma-separated value (csv)格式因为逗号用于分离每条记录的各个字段。
读取
从 csv 文件中读取数据, 可以使用 reader()
函数来创建一个读取对象。 这个读取对象顺序处理文件的每一行,可以把它当成迭代器使用, 例如:
csv_reader.py
import csv
import sys
with open(sys.argv[1], 'rt') as f:
reader = csv.reader(f)
for row in reader:
print(row)
reader()
的第一个参数指源文本,在这个例子中,是一个文件,但它可以是任何可迭代对象( stringio
实例,list
等)。第二个参数是可选的,可用于控制输入的数据如何被解析。
"title 1","title 2","title 3","title 4"
1,"a",08/18/07,"å"
2,"b",08/19/07,"∫"
3,"c",08/20/07,"ç"
它被读取时,输入数据的每一行被转换为一个字符串列表。
$ python3 csv_reader.py testdata.csv
['title 1', 'title 2', 'title 3', 'title 4']
['1', 'a', '08/18/07', 'å']
['2', 'b', '08/19/07', '∫']
['3', 'c', '08/20/07', 'ç']
解析器会自动处理嵌入在一行字符串中的换行符,这也是输出中的一行数据可能和输入的一行不同的原因。
"title 1","title 2","title 3"
1,"first line
second line",08/18/07
输入中带有换行符的字段在解析器返回时保留内部换行符。
$ python3 csv_reader.py testlinebreak.csv
['title 1', 'title 2', 'title 3']
['1', 'first line\nsecond line', '08/18/07']
写入
写入 csv 文件和读取它们一样简单。使用 writer()
方法创建一个写入对象,然后使用 writerow()
去输出每一行。
csv_writer.py
import csv
import sys
unicode_chars = 'å∫ç'
with open(sys.argv[1], 'wt') as f:
writer = csv.writer(f)
writer.writerow(('title 1', 'title 2', 'title 3', 'title 4'))
for i in range(3):
row = (
i 1,
chr(ord('a') i),
'08/{:02d}/07'.format(i 1),
unicode_chars[i],
)
writer.writerow(row)
print(open(sys.argv[1], 'rt').read())
这个例子的输出和上面读取的例子看起来有些不同,是因为这里有的值没有加引号。
$ python3 csv_writer.py testout.csv
title 1,title 2,title 3,title 4
1,a,08/01/07,å
2,b,08/02/07,∫
3,c,08/03/07,ç
引用
写入时,默认的引用行为不同,所以之前示例中的第二和第三个字段未被引用。 要添加引号,请将 quoting
参数设置为其他引用模式。
writer = csv.writer(f, quoting=csv.quote_nonnumeric)
在这个例子中, quote_nonnumeric
会给所有字段值不是数字的值添加引号。
$ python3 csv_writer_quoted.py testout_quoted.csv
"title 1","title 2","title 3","title 4"
1,"a","08/01/07","å"
2,"b","08/02/07","∫"
3,"c","08/03/07","ç"
有四种不同的引用选项,在 csv 模块中被定义为常量。
quote_all
无论什么类型的字段都会被引用。
quote_minimal
这是默认的选项, 使用指定的字符引用各字段(如果解析器被配置为相同的dialect和选项时,可能会让解析器在解析时产生混淆)。
quote_nonnumeric
引用那些不是整数或浮点数的字段。当使用读取对象时, 如果输入的字段是没有引号的, 那么它们会被转换成浮点数。
quote_none
对所有的输出内容都不加引用,当使用读取对象时,引用字符看作是包含在每个字段的值里(但在正常情况下,它们被当成定界符而被去掉)。
编码风格
其实没有一个标准定义这类逗号分隔值的文件,所以解析器需要很灵活,通过很多参数去控制如何解析 csv
或给其写入数据。但这并不是每个参数在写入或读取 csv 时分别传入,而是统一分组为一个 编码风格 对象。
dialect 类可以通过名字注册,因此 csv
模块调用它时不必预先知道相关的参数设置。所有注册过的编码风格列表可以通过 list_dialects()
方法查看。
csv_list_dialects.py
import csv
print(csv.list_dialects())
标准库提供了三种编码风格,分别为: excel
, excel-tabs
和 unix
。 excel
编码风格用来处理默认来自 microsoft excel 格式的数据的,同样可用于处理来自 格式的。 unix
编码风格将所有字段通过双引号引用,并用 \n
做为每条记录的分隔符。
$ python3 csv_list_dialects.py
['excel', 'excel-tab', 'unix']
创建一个编码风格
如果不使用逗号分隔字段,输入文件使用竖杠( |
),就像这样
"title 1"|"title 2"|"title 3"
1|"first line
second line"|08/18/07
一个新的编码风格可以使用不同的分隔符进行注册。
csv_dialect.py
import csv
csv.register_dialect('pipes', delimiter='|')
with open('testdata.pipes', 'r') as f:
reader = csv.reader(f, dialect='pipes')
for row in reader:
print(row)
使用「竖杠」的编码风格,可以像使用逗号一样读取文件。
$ python3 csv_dialect.py
['title 1', 'title 2', 'title 3']
['1', 'first line\nsecond line', '08/18/07']
编码风格参数
编码风格指定解析或写入数据文件时使用的所有标记。下表列出了可以设定的属性,从字段的分隔方式到用于转义标记的字符。
csv 编码风格参数
属性 | 默认 | 含义 |
---|---|---|
delimiter | , |
字段分隔符(单字符) |
doublequote | true | 控制 quotechar 实例是否翻倍 |
escapechar | none | 用于表示转义序列的字符 |
lineterminator | \r\n |
写入时用来换行的字符 |
quotechar | " |
引用含特殊值字段的字符(一个字符) |
quoting | quote_minimal |
控制前面表述的引用行为 |
skipinitialspace | false | 是否在字段分隔符后忽略空格 |
csv_dialect_variations.py
import csv
import sys
csv.register_dialect('escaped',
escapechar='\\',
doublequote=false,
quoting=csv.quote_none,
)
csv.register_dialect('singlequote',
quotechar="'",
quoting=csv.quote_all,
)
quoting_modes = {
getattr(csv, n): n
for n in dir(csv)
if n.startswith('quote_')
}
template = '''\
dialect: "{name}"
delimiter = {dl!r:<6} skipinitialspace = {si!r}
doublequote = {dq!r:<6} quoting = {qu}
quotechar = {qc!r:<6} lineterminator = {lt!r}
escapechar = {ec!r:<6}
'''
for name in sorted(csv.list_dialects()):
dialect = csv.get_dialect(name)
print(template.format(
name=name,
dl=dialect.delimiter,
si=dialect.skipinitialspace,
dq=dialect.doublequote,
qu=quoting_modes[dialect.quoting],
qc=dialect.quotechar,
lt=dialect.lineterminator,
ec=dialect.escapechar,
))
writer = csv.writer(sys.stdout, dialect=dialect)
writer.writerow(
('col1', 1, '10/01/2010',
'special chars: " \' {} to parse'.format(
dialect.delimiter))
)
print()
这段程序演示了当使用几种不同的编码风格格式化时,相同的数据如何展示。
$ python3 csv_dialect_variations.py
dialect: "escaped"
delimiter = ',' skipinitialspace = 0
doublequote = 0 quoting = quote_none
quotechar = '"' lineterminator = '\r\n'
escapechar = '\\'
col1,1,10/01/2010,special chars: \" ' \, to parse
dialect: "excel"
delimiter = ',' skipinitialspace = 0
doublequote = 1 quoting = quote_minimal
quotechar = '"' lineterminator = '\r\n'
escapechar = none
col1,1,10/01/2010,"special chars: "" ' , to parse"
dialect: "excel-tab"
delimiter = '\t' skipinitialspace = 0
doublequote = 1 quoting = quote_minimal
quotechar = '"' lineterminator = '\r\n'
escapechar = none
col1 1 10/01/2010 "special chars: "" ' to parse"
dialect: "singlequote"
delimiter = ',' skipinitialspace = 0
doublequote = 1 quoting = quote_all
quotechar = "'" lineterminator = '\r\n'
escapechar = none
'col1','1','10/01/2010','special chars: " '' , to parse'
dialect: "unix"
delimiter = ',' skipinitialspace = 0
doublequote = 1 quoting = quote_all
quotechar = '"' lineterminator = '\n'
escapechar = none
"col1","1","10/01/2010","special chars: "" ' , to parse"
自动检测编码风格
配置一个输入文件的编码风格的最好的办法是提前知道哪种编码风格是正确的。对于那些编码风格未知的参数, sniffer
类可用于做有效的猜测。 sniff()
方法会获取输入数据的一个样本和一个可选参数,给出可能的分隔符。
csv_dialect_sniffer.py
import csv
from io import stringio
import textwrap
csv.register_dialect('escaped',
escapechar='\\',
doublequote=false,
quoting=csv.quote_none)
csv.register_dialect('singlequote',
quotechar="'",
quoting=csv.quote_all)
# 为所有已知的编码风格生成样本数据
samples = []
for name in sorted(csv.list_dialects()):
buffer = stringio()
dialect = csv.get_dialect(name)
writer = csv.writer(buffer, dialect=dialect)
writer.writerow(
('col1', 1, '10/01/2010',
'special chars " \' {} to parse'.format(
dialect.delimiter))
)
samples.append((name, dialect, buffer.getvalue()))
# 猜测样本的编码风格,然后用猜测结果来解析数据。
sniffer = csv.sniffer()
for name, expected, sample in samples:
print('dialect: "{}"'.format(name))
print('in: {}'.format(sample.rstrip()))
dialect = sniffer.sniff(sample, delimiters=',\t')
reader = csv.reader(stringio(sample), dialect=dialect)
print('parsed:\n {}\n'.format(
'\n '.join(repr(r) for r in next(reader))))
sniff()
方法返回一个包含了解析数据的参数的 dialect
实例。结果并不一定是正确的,例如这个例子中的「escaped」。
$ python3 csv_dialect_sniffer.py
dialect: "escaped"
in: col1,1,10/01/2010,special chars \" ' \, to parse
parsed:
'col1'
'1'
'10/01/2010'
'special chars \\" \' \\'
' to parse'
dialect: "excel"
in: col1,1,10/01/2010,"special chars "" ' , to parse"
parsed:
'col1'
'1'
'10/01/2010'
'special chars " \' , to parse'
dialect: "excel-tab"
in: col1 1 10/01/2010 "special chars "" ' to parse"
parsed:
'col1'
'1'
'10/01/2010'
'special chars " \' \t to parse'
dialect: "singlequote"
in: 'col1','1','10/01/2010','special chars " '' , to parse'
parsed:
'col1'
'1'
'10/01/2010'
'special chars " \' , to parse'
dialect: "unix"
in: "col1","1","10/01/2010","special chars "" ' , to parse"
parsed:
'col1'
'1'
'10/01/2010'
'special chars " \' , to parse'
使用字段名称
除了处理数据序列之外,csv
模块还提供了用于处理将字典作为行的类,以便可以对字段进行命名。 dictreader
和 dictwriter
将行翻译成字典而不是序列。字典的键可以被传入或者从输入的第一行(当该行包含标题时)推断出来。
csv_dictreader.py
import csv
import sys
with open(sys.argv[1], 'rt') as f:
reader = csv.dictreader(f)
for row in reader:
print(row)
基于字典的读取器和写入器被实现为基于序列的类的包装器,并使用相同的方法和参数。读取器唯一的区别是行作为 实例返回而不是列表或者元组(早期的 python 版本中,行作为常规 dict
实例返回)。
$ python3 csv_dictreader.py testdata.csv
ordereddict([('title 1', '1'), ('title 2', 'a'), ('title 3',
'08/18/07'), ('title 4', 'å')])
ordereddict([('title 1', '2'), ('title 2', 'b'), ('title 3',
'08/19/07'), ('title 4', '∫')])
ordereddict([('title 1', '3'), ('title 2', 'c'), ('title 3',
'08/20/07'), ('title 4', 'ç')])
必须要给 dictwriter
一个字段名称列表,以至于让它在输出的时候如何排序。
csv_dictwriter.py
import csv
import sys
fieldnames = ('title 1', 'title 2', 'title 3', 'title 4')
headers = {
n: n
for n in fieldnames
}
unicode_chars = 'å∫ç'
with open(sys.argv[1], 'wt') as f:
writer = csv.dictwriter(f, fieldnames=fieldnames)
writer.writeheader()
for i in range(3):
writer.writerow({
'title 1': i 1,
'title 2': chr(ord('a') i),
'title 3': '08/{:02d}/07'.format(i 1),
'title 4': unicode_chars[i],
})
print(open(sys.argv[1], 'rt').read())
字段名称不会被自动写入到文件,但是他们可以显示地使用 writeheader()
方法写入。
$ python3 csv_dictwriter.py testout.csv
title 1,title 2,title 3,title 4
1,a,08/01/07,å
2,b,08/02/07,∫
3,c,08/03/07,ç
推荐阅读
- -- csv 文件 api。
本译文仅用于学习和交流目的,转载请务必注明文章译者、出处、和本文链接
我们的翻译工作遵照 cc 协议,如果我们的工作有侵犯到您的权益,请及时联系金年会app官方网。