采集技术接口说明(银行业金融机构监管数据标准化规范 2017年3月)
2020-09-13
本文档定义依据《中国银监会银行业金融机构监管数据标准化规范》所采集数据的物理存储、传输形式,即数据的采集技术接口,包括承载数据的文件命名规则、字符集、行分隔符、数据项分隔符、缺省值要求和隐私保护要求等,以及集中采集和持续采集的模式(全量采集、增量采集、变化量采集)。技术接口的要求是强制性的。
本文档还给出了采集频率、报送介质的参考性要求,包括持续采集的频度,集中采集和持续采集采用的介质。非技术接口的要求是参考性的,监管部门可根据辖区实际条件自主确定或调整。
(一)文件格式
UTF-8编码(无BOM)的纯文本文件,扩展名为.txt。
(二)文件命名
原则上每个数据表生成一个数据文件,文件命名规则是:机构代码-表名对应字符串-YYYYMMDD.txt,其中分隔符“-”为英文短横线(ASCII码0x2D),“YYYYMMDD”含义同“采集日期”数据项,为本次/本期采集的截至日期。表名对应字符串见表1,如中国工商银行股份有限公司报送截至2017年3月31日的机构信息表数据时,文件名称应为:
B0001H111000001-JGXXB-20170331.txt
每一个数据文件要同时生成一个同名的数据校验文件,数据校验文件的编码格式同数据文件,后缀名为.log,数据校验文件需要包含以下5行信息,定义如下:
文件名
文件大小(字节)
文件创建完成时间(YYYY-MM-DD HH:MM:SS)
文件是否正常生成(Y或N)
文件记录数(行数)
例如:
B0001H111000001-JGXXB-20170331.txt
80896
2017-04-01 00:29:02
Y
6761
表1 表名与字符串对应表
表号 | 表名 | 对应字符串 |
101 | 机构信息表 | JGXXB |
102 | 员工表 | YGB |
103 | 柜员表 | GYB |
104 | 岗位信息表 | GWXXB |
105 | 机构关系表 | JGGXB |
201 | 总账会计全科目表 | ZZHJQKMB |
203 | 内部科目对照表 | NBKMDZB |
204 | 个人活期存款分户账 | GRHQCKFHZ |
205 | 个人活期存款分户账明细记录 | GRHQCKFHZMXJL |
206 | 个人定期存款分户账 | GRDQCKFHZ |
207 | 个人定期存款分户账明细记录 | GRDQCKFHZMXJL |
208 | 对公活期存款分户账 | DGHQCKFHZ |
209 | 对公活期存款分户账明细记录 | DGHQCKFHZMXJL |
210 | 对公定期存款分户账 | DGDQCKFHZ |
211 | 对公定期存款分户账明细记录 | DGDQCKFHZMXJL |
212 | 内部分户账 | NBFHZ |
213 | 内部分户账明细记录 | NBFHZMXJL |
214 | 个人信贷分户账 | GRXDFHZ |
215 | 个人信贷分户账明细记录 | GRXDFHZMXJL |
216 | 对公信贷分户账 | DGXDFHZ |
217 | 对公信贷分户账明细记录 | DGXDFHZMXJL |
301 | 个人基础信息 | GRJCXX |
302 | 个人客户关系信息 | GRKHGXXX |
303 | 对公客户 | DGKH |
304 | 股东信息 | GDXX |
305 | 关联关系 | GLGX |
401 | 信贷合同表 | XDHTB |
402 | 项目贷款信息表 | XMDKXXB |
403 | 票据票面信息表 | PJPMXXB |
405 | 表外授信业务 | DGBWSXYW |
406 | 贸易融资业务信息表 | MYRZYWXXB |
407 | 银团贷款 | YTDK |
408 | 委托贷款 | WTDK |
409 | 个人信贷业务借据 | GRXDYWJJ |
410 | 对公信贷业务借据 | DGXDYWJJ |
411 | 信贷业务担保合同 | XDYWDBHT |
412 | 担保关系 | DBGX |
413 | 信贷业务质或抵押物 | XDYWZHDYW |
501 | 借记卡信息 | JJKXX |
502 | 存折信息 | CZXX |
503 | 信用卡信息 | XYKXX |
504 | 信用卡账户交易明细记录 | XYKZHJYMXB |
601 | 授信信息 | SXXX |
602 | 贷款核销 | DKHX |
603 | 贷款展期 | DKZQ |
604 | 信贷资产转让 | XDZCZR |
605 | 资产转让关系表 | ZCZRGXB |
606 | 贷款五级形态变动 | DKWJXTBD |
701 | 交易流水 | JYLS |
801 | 资产负债科目统计表 | ZCFZKMTJB |
802 | 涉农统计表 | SNTJB |
1001 | 资金交易信息表 | ZJJYXXB |
1002 | 金融工具信息表 | JRGJXXB |
1003 | 汇率信息表 | HLXXB |
1101 | 理财产品信息表 | LCCPXXB |
1102 | 理财产品状态表 | LCCPZTB |
1103 | 客户理财账户信息表 | KHLCZHXXB |
1104 | 理财产品销售明细记录 | LCCPXSMX |
(三)数据项分隔与特殊字符处理
1.行分隔符:数据文件的一行数据对应一条数据库记录,各行之间分隔符为UNIX样式的换行符(ASCII码0x0A)。
2.数据项分隔符:数据项之间以^A(SOH,ASCII码0x01)进行分隔,每行末尾不需要添加数据项分隔符。
3.数据项首尾禁止使用双引号(ASCII码0x22)包夹,但数据项内容可以有双引号,且不需要进行转义。
4.数据项内子项分隔符:单个数据项中需要填报多个子项内容时,子项内容之间使用英文分号“;”(ASCII码0x3B)隔开。如“归属业务子类”,同时归属子类为“2投资”和“13理财业务”时,用“2;13”表示。
5.在数据项中不允许出现ASCII码为0x00~0x1F、0x7F的各类控制字符和非可打印字符;若出现则统一替换为空格(ASCII码0x20)。
(四)空值与默认值处理
当如下数据类型出现空值时,按默认值填写,处理方式为:
字符类型——默认值设为空,即什么都不填
日期类型——默认值设为99991231
年月类型——默认值设为999912
时间类型——默认值设为000000
时间戳类型——默认值设为99991231000000000000
数字类型——默认值设为0
(五)隐私保护说明
涉及个人隐私数据的数据项详见《中国银监会银行业金融机构监管数据标准化规范》及其报送说明,由银行机构在报送前进行脱敏处理,并保留一份未脱敏版本以备核查。脱敏规则如下:
1. 个人身份证件号码:
若身份证件号码中有英文字母,应先统一转换成大写英文字母;
变形后的身份证件号码(38字符) = 身份证件号码前6字节(6个英文字符/数字,或2个汉字,或1个汉字+3个英文字符/数字) + MD5(身份证件号码全文UTF-8编码)(32字符,英文按小写输出)
例:
18位公民身份号码:33010219801212031X,变形后:
33010268162287691742b48cbc3ae8b70650a7
15位公民身份号码:330102801212031,变形后:
330102b88ce0d0e99298c224409414db399920
军官证/武警部队警官证:参字第1234567号,变形后:
参字e54977d990baa7a80b5fb794d622444d
护照:E12345678,变形后:
E12345d02f3cf86bb402a904f98df6373eb1ac
2. 包含个人身份证件号码的客户统一编号:
若身份证件号码中有英文字母,应先统一转换成大写英文字母;
将身份证件号码部分用身份证件号码全文UTF-8编码的MD5杂凑值替换,其余部分不变。
3. 客户名称和所有对方户名信息:
三个汉字以内(包含三个汉字)的名称,做有限暴露方式的脱敏处理,只保留最后一个字,其余长度的名称不变形。银行机构员工和业务办理人员、自然人股东、单位负责人姓名不变形。
(六)采集模式
数据表根据性质,可以分为状态类和明细类两种。其中明细类包括:总账会计全科目表、各分户账明细记录、信用卡交易明细记录、交易流水、资产负债科目统计表、涉农统计表、资金交易信息表、汇率信息表、理财产品销售明细记录;其他表属于状态类。
1. 集中采集
集中采集时,所有状态类表采用全量采集,指采集时间段内所有发生业务及存续数据在采集截至时间点上的状态,不追溯采集时间段前已结清业务在采集截至时间点上的状态。例如,集中采集时间段为2016年1月1日至2016年12月31日,则2016年关停的分支机构、离职的员工、注销的账户分别应当报送一条状态为“停业”、“离职”、“销户”的记录,包括2016年开户又销户的账户;而2015年关停的分支机构、离职的员工、注销的账户均不在采集范围内。明细类表按照集中采集通知定义的时间范围采集具体时间段内所有数据。
2. 持续采集
持续采集模式详见表2,监管部门可根据辖区实际条件自主确定或调整。其中:
全量:指当期所有发生业务及存续数据在当期截至时间点上的状态,即使较前一期无任何变化也要报送,不追溯采集时间段前已结清业务在采集截至时间点上的状态;
增量:较前一次采集仅有增加的数据,无对前期数据更新、删除的情况,例如流水的增加属于增量数据,而分支机构名称变更则属于变化量数据(见以下说明)的更新部分;
变化量:较前一次采集有变更的记录,包括新增、更新、删除。其中,“删除”可以理解为将原记录“更新”为一条表示状态的数据项值置为“无效”或同等含义的新记录,并以“采集日期”区分原记录。例:
(1)更新记录(分户账余额变动),假设原记录为:
XX^A^A^A^A^AX公司^A^A^A^A^A^A正常^A5000.00^A20161130
仅报送一条新记录,以“采集日期”区分原记录:
XX^A^A^A^A^AX公司^A^A^A^A^A^A正常^A1000.00^A20161231
(2)删除记录(关停分支机构,对应表示状态的数据项:营业状态),假设原记录为:
XX^A^A^A^AX支行^A^A^A^A开业^A^A^A^A^A^A^A^A20161130
实际为报送一条表示“无效”的记录:
XX^A^A^A^AX支行^A^A^A^A停业^A^A^A^A^A^A^A^A20161231
按变化量采集的各张表的“表示状态的数据项”详见表2备注栏,供报送变化量数据和监管人员参考。对于无“表示状态的数据项”的表,则意味着该表中记录的信息不应该被删除。
总账会计全科目表除每日增量外,还需在月末、季末、半年末、年末报送相应的月报、季报、半年报、年报。但总账会计全科目表的日报、月报、季报、半年报、年报均在同一张表中体现,对应一个数据文件,具体由“报送周期”数据项标识。
表2 监管标准化数据采集表
表号 | 表名 | 集中采集 | 持续采集 | 备注 |
101 | 机构信息表 | 全量 | 变化量 | 表示状态的数据项:营业状态。 |
102 | 员工表 | 全量 | 变化量 | 表示状态的数据项:员工状态。 |
103 | 柜员表 | 全量 | 变化量 | 表示状态的数据项:柜员状态。 |
104 | 岗位信息表 | 全量 | 变化量 | 表示状态的数据项:岗位状态。 |
105 | 机构关系表 | 全量 | 全量 | 仅包括当期截至日存在的机构;监管部门仅保留当期数据。 |
201 | 总账会计全科目表 | 通知定义的时间范围 | 增量 | 除每日增量外,还需在月末、季末、半年末、年末报送相应的月报、季报、半年报、年报,均在同一张表中体现。 |
203 | 内部科目对照表 | 全量 | 全量 | 仅包括当期截至日存在的科目;监管部门仅保留当期数据。 |
204 | 个人活期存款分户账 | 全量 | 变化量 | 表示状态的数据项:账户状态。 |
205 | 个人活期存款分户账明细记录 | 通知定义的时间范围 | 增量 | |
206 | 个人定期存款分户账 | 全量 | 变化量 | 表示状态的数据项:账户状态。 |
207 | 个人定期存款分户账明细记录 | 通知定义的时间范围 | 增量 | |
208 | 对公活期存款分户账 | 全量 | 变化量 | 表示状态的数据项:账户状态。 |
209 | 对公活期存款分户账明细记录 | 通知定义的时间范围 | 增量 | |
210 | 对公定期存款分户账 | 全量 | 变化量 | 表示有效状态的数据项:账户状态。 |
211 | 对公定期存款分户账明细记录 | 通知定义的时间范围 | 增量 | |
212 | 内部分户账 | 全量 | 变化量 | 表示状态的数据项:账户状态。 |
213 | 内部分户账明细记录 | 通知定义的时间范围 | 增量 | |
214 | 个人信贷分户账 | 全量 | 变化量 | 表示状态的数据项:账户状态。 |
215 | 个人信贷分户账明细记录 | 通知定义的时间范围 | 增量 | |
216 | 对公信贷分户账 | 全量 | 变化量 | 表示状态的数据项:账户状态。 |
217 | 对公信贷分户账明细记录 | 通知定义的时间范围 | 增量 | |
301 | 个人基础信息 | 全量 | 变化量 | 表示状态的数据项:无。 |
302 | 个人客户关系信息 | 全量 | 变化量 | 表示状态的数据项:无。 |
303 | 对公客户 | 全量 | 变化量 | 表示状态的数据项:无。 |
304 | 股东信息 | 全量 | 变化量 | 表示状态的数据项:股东状态。 |
305 | 关联关系 | 全量 | 变化量 | 表示状态的数据项:关联关系状态。 |
401 | 信贷合同表 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:无。 |
402 | 项目贷款信息表 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:无。 |
403 | 票据票面信息表 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:无。 |
405 | 表外授信业务 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:无。 |
406 | 贸易融资业务信息表 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:无。 |
407 | 银团贷款 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:协议状态。 |
408 | 委托贷款 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:协议状态。 |
409 | 个人信贷业务借据 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:无。 |
410 | 对公信贷业务借据 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:无。 |
411 | 信贷业务担保合同 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:担保合同状态。 |
412 | 担保关系 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:担保状态。 |
413 | 信贷业务质或抵押物 | 全量 | 变化量 | 包括采集时间段内已结清业务。表示状态的数据项:无。 |
501 | 借记卡信息 | 全量 | 变化量 | 表示状态的数据项:卡片状态。 |
502 | 存折信息 | 全量 | 变化量 | 表示状态的数据项:存折状态。 |
503 | 信用卡信息 | 全量 | 变化量 | 表示状态的数据项:卡片状态。 |
504 | 信用卡账户交易明细记录 | 通知定义的时间范围 | 增量 | |
601 | 授信信息 | 全量 | 变化量 | 表示状态的数据项:授信状态。 |
602 | 贷款核销 | 全量 | 变化量 | 表示状态的数据项:无。 |
603 | 贷款展期 | 全量 | 变化量 | 表示状态的数据项:无。 |
604 | 信贷资产转让 | 全量 | 变化量 | 表示状态的数据项:无。 |
605 | 资产转让关系表 | 全量 | 变化量 | 表示状态的数据项:无。 |
606 | 贷款五级形态变动 | 全量 | 变化量 | 表示状态的数据项:无。 |
701 | 交易流水 | 通知定义的时间范围 | 增量 | |
801 | 资产负债科目统计表 | 通知定义的时间范围 | 增量 | 原则上与报送人民银行频率相同,至少需报送月、季、年报 |
802 | 涉农统计表 | 通知定义的时间范围 | 增量 | 原则上与报送人民银行频率相同,至少需报送月、季、年报 |
1001 | 资金交易信息表 | 通知定义的时间范围 | 增量 | |
1002 | 金融工具信息表 | 全量 | 变化量 | 表示状态的数据项:无。 |
1003 | 汇率信息表 | 通知定义的时间范围 | 增量 | 表示状态的数据项:无。 |
1101 | 理财产品信息表 | 全量 | 变化量 | 表示状态的数据项:无。 |
1102 | 理财产品状态表 | 全量 | 变化量 | 表示状态的数据项:无。 |
1103 | 客户理财账户信息表 | 全量 | 变化量 | 表示状态的数据项:无。 |
1104 | 理财产品销售明细记录 | 通知定义的时间范围 | 增量 |
(一)持续采集频率
监管部门可根据辖区实际条件自主确定或调整持续采集的频率,需考虑的因素包括辖内法人机构业务规模和数据量、机构数据治理和报送的能力、采集介质容量或网络带宽等。所有表至少应当做到每月月后15个自然日内完成采集,一周内更新;建议状态类表做到每周采集,3日内更新,明细类表做到每日采集,1日内更新。分支机构持续采集频率与该机构法人所归属监管部门要求的频率一致。
当持续采集频率为月时,可考虑全量持续采集;当持续采集频率为日或周时,建议变化量持续采集。分支机构持续采集模式与该机构法人所归属监管部门要求的模式一致。
(二)采集介质
1. 使用移动存储介质
集中采集或数据量巨大,不便于通过金融专网传输时,银行机构可使用移动存储介质向监管部门报送数据。报送过程应采取必要措施保障数据安全,做好与监管部门数据交接工作。相关要求列举如下供参考,监管部门可在部署采集工作时予以明确:
(1)建议采用USB 3.0接口移动存储介质。数据量巨大、有高速读写数据需求的建议使用固态硬盘作为移动存储介质;持续采集阶段仍需要通过移动存储介质进行的,可建议报数机构准备2套移动存储介质以便轮流报送。
(2)当且仅当单一文件大小超过500G时,须进行拆分,拆分后每个子文件大小在500G左右,子文件命名时在“表名对应字符串”后加两位数字顺序号区分,从“00”至“99”,与“表名对应字符串”中间用英文短横线“-”进行隔开。如:
B0001H111000001-JYLS-00-20170331.txt
B0001H111000001-JYLS-01-20170331.txt
(3)监管部门可根据实际情况确定数据文件是否压缩。
(4)所有数据文件及数据校验文件直接存放在移动存储介质根目录下:\cbrc目录中,如一块移动存储介质不能保存下所有数据文件,则按表1的顺序依次保存到其他移动存储介质\cbrc目录中。
(5)报送数据时,每块移动存储介质同时提供一份电子版报送文件说明,说明数据文件与表名、时间范围之间的关系,如对文件进行了切分,或因系统升级数据文件分段报送,也一并说明。该说明文件以文本格式.txt存放于各移动存储介质的根目录下。
2. 通过金融专网
已采用金融专网方式报送数据的,按既有方式开展。监管部门应当根据本接口说明,对数据采集系统中的传输文件名等要素进行更新。