来源
kaggle数据网;
数据集信息
数据量:14388行;属性数量:14;领域:生物学;
背景
该数据集涵盖的B细胞表位预测信息;
数据字段
parent_protein_id:亲本蛋白ID;文本数据;
protein_seq:亲本蛋白序列;文本数据;
start_position:肽段的起始位置;连续变量;
end_position:肽的末端位置;连续变量;
peptide_seq:肽序列;文本数据;
chou_fasman:肽特征,β转角;连续变量;
emini:肽特征,相对表面可及性;连续变量;
kolaskar_tongaonkar:肽特征,抗原性;连续变量;
parker:肽特性,疏水性;连续变量;
isoelectric_point:蛋白质特征;连续变量;
aromacity:蛋白质特征;连续变量;
hydrophobicity:蛋白质特征;连续变量;
stability:蛋白质特征;连续变量;
target:抗体价(目标值);连续变量;
业务理解
分析比较B细胞表位预测的自动化方法;
引用调用
无
This guy is lazy,Introduction has not been set