医疗数据方面,可获取的健康医疗数据很多,数据规模也很大,部分数据存在描述不规范或者展现方式特殊等问题。一些数据交由计算机很难进行相应的预测分析,甚至连统计工作都难以完成,这种难以用于计算的数据价值低且不易处理。只有将文本数据转换为数据库表、关系图以及数值型向量时才可以方便于大数据计算。
真假医疗大数据
医疗大数据经常会出现采集样本重复、存储数据过时以及个体偏差影响分析结果等问题,而这就会使得数据的准确性出现问题。除此之外,医疗大数据的采集一般来自于实际医疗案例之中。大数据想要发挥其优势需要保障数据量的大,而医疗活动中一个部门的医治手段往往趋于单一化,而从中获取医疗突破的可能性大幅下降。而解决这一问题的最佳方案应当采用多源同类数据,寻求不同治疗方案以及不同效果。
医疗数据去伪存真是个大工程
由于医疗行业的特殊性,医疗领域可划分的范围较广,甚至对病人的看法也可以从多个角度不同方向进行剖析,就像中国本土的中西医之争对病情的解决手段就有着不同方式,而人体具有的特殊性进一步加深了这种差异化问题。不同人群对同一种方式的治疗却可能产生不同结果,使得医疗行业很难达成统一标准。
因此,医疗数据面临执行标准不统一以及医生对于病症描述程度不同的问题,想要解决同一病症需要先进行大量个性化语句的统一梳理以达到最终归一化的目标,才可能完成医疗数据的去伪存真而获得真正的医疗大数据。
医疗大数据在后续的数据分析之中也会存在一些问题,比如部分数据尽管可以获取治疗方案、治疗效果等来制造模型,可是当应用于机器学习后,医疗数据的标准不一可能会引发偏差。就算是目前已经进入商用阶段的IBM Watson,在最初阶段也是通过与医院紧密合作,用了几年时间来帮助Watson去除数据杂质,训练分析能力。尽管目前Watson已开始在全球很多医院中开始使用,但在收集、存储、统计到分析处理还面临诸多挑战,医疗大数据的应用和研发依然渴望新的突破。