回首页 | 网站地图 |   Blog
客户评价
  • 委托文华轩公司博士老师设计一款matlab程序代码,经过博士老师的努力,调试结果表明非常吻合需求。对文华轩博士老师高水准的程序设计能力表示感谢。
    张博士
    来自: 中科院福建物构所
  • 委托文华轩公司博士老师跑医学数据的统计分析,经过博士老师的努力,跑出的结果与期望基本一致,对文华轩博士老师高水准的数据分析能力表示赞赏。
    jagger
    来自: 上海
  • 和文华轩公司博士老师合作1年多了,无数的稿件经过博士老师的翻译,实践证明,文华轩博士老师学术论文翻译能力非常强,让人高兴。以后还选择文华轩公司学术论文翻译服务。
    梅子
    来自: 林肯大学
  • 论文问题让我困恼不已,在百度网上看到文华轩公司提供论文修改服务,实践证明,修改结果非常理想,让我非常满意。以后还选择文华轩公司论文修改服务。不想统计公司论文修改水准这么高。
    梁小姐
    来自: 华南理工大学
  • 碰到数据的处理难点。在文华轩博士老师的努力下,顺利解决问题。感谢博士高水准的服务。以后还选择文华轩数据处理服务。
    阔小姐
    来自: 新北
  • 碰到论文问卷统计分析难点,束手无策;在雅虎看到文华轩公司博士老师协助跑统计分析,在老师的努力下,终于解决了问题,了却我的心头之愿,真是感谢。
    史小姐
    来自: 高雄
  • 一组医学数据需要跑统计分析,选择文华轩统计公司的博士老师,在老师的辅导和帮助下,顺利跑出结果,对文华轩博士老师的优质统计分析服务表示感谢。
    林小姐
    来自: 台北
  • 委托文华轩公司协助完成论文apa格式修改,在博士老师的努力下,格式修改得到规范处理,让我学习到不少东西,感谢。
    张小姐
    来自: 高雄
  • 委托博士老师设计OFDM系统,然后以BPSK/QPSK 调变 来跑出BER IFFT的SIZE是256bits,CP是32bits。实践证明,用matlab模拟的波形吻合要求。在此表示感谢。
    张先生
    来自: 新北
  • 委托文华轩公司博士老师协助设计vensim模型的设计,结果比较满意。
    林先生
    来自: 台北
  • 委托文华轩博士老师设计德尔菲问卷和问卷数据分析,结果比较满意,非常感谢。
    杜小姐
    来自: 新北
  • 委托文华轩统计公司完成大陆的问卷调查和问卷数据分析服务,结果比较满意。文华轩公司优质的问卷调查水准让人满意,以后还推荐文华轩公司。
    杨小姐
    来自: 雄狮旅游集团
  • 委托文华轩博士老师协助完成数据的处理和数据的分析。在老师的协助下,顺利完成,结果比较满意。
    林先生
    来自: 新北
  • 碰到论文摘要翻译,一点点小问题难倒我,在文华轩博士老师的协助下,把摘要顺利翻译完成,感谢老师的协助。
    陈老师
    来自: 吉林师范大学
  • 委托文华轩博士老师完成问卷数据的统计分析;在老师的协助下,完成了分析结果;比较满意;以后还推荐文华轩统计公司的问卷数据分析服务。
    陈博士
    来自: 台北护理健康大学
  • 碰到fuzzy delphi问卷数据分析,难倒我了,束手无策;在雅虎上看到文华轩公司提供论文数据分析协助服务,把数据发给老师,在老师的辅导和帮助下,顺利完成数据分析,对文华轩博士老师高水准的服务表示赞赏。
    沈博士
    来自: 新北
  • 有一组实验数据,需要跑数据分析和数据处理。委托文华轩公司博士老师协助完成,在博士老师的努力下,顺利完成,感谢文华轩博士老师高水准的数据分析能力。
    李小姐
    来自: 郑州烟草研究院
  • 设计一个贸易模型,需要协助完成matlab程序设计和仿真,在老师的努力下,得到顺利解决;对文华轩博士老师高水准的matlab程序设计能力表示赞赏。
    罗老师
    来自: 台湾大学
  • 碰到一组犯罪数据的处理,在文华轩博士老师的努力下,顺利完成,对文华轩博士老师高水准的数据处理能力表示赞赏!
    庄老师
    来自: 中国人民公安大学
  • 委托文华轩博士老师完成数据处理,结果比较吻合实际情况,感谢有这么好的老师辅导数据处理。对结果很满意。
    李小姐
    来自: 三军总医院
  • 委托文华轩公司博士老师完成学术论文翻译,在博士老师的努力下,顺利完成,价格不贵。感谢文华轩博士老师的协助。
    李博士
    来自: 中科院
  • 碰到论文的统计分析难点,自己解决不了;在百度上看到文华轩统计公司提供论文数据的统计分析协助,把数据发给博士,在博士老师的辅导和帮助下,顺利跑出结果,感谢文华轩公司博士老师的辅导和协助。
    陆小姐
    来自: 中国人民大学
  • 委托文华轩博士老师协助翻译一篇硕士论文,翻译的结果让人满意,感谢文华轩博士老师的协助。以后还推荐文华轩学术论文翻译服务。
    李小姐
    来自: 广州
2018-05-01 19:47:35 | 数据处理研究存在的问题

 数据处理研究存在的问题
在不同的学科领域,大数据时代的科学研究所面临问题、挑战和关注点不同。
从计算机科学视角看,新的数据处理需求已经超出了现有的存储与计算能力;从统计学视角看,大数据挑战在于样本的规模接近总体时,如何直接在总体上进行统计分析;从机器学习角度看,训练样本集接近测试样本集时,如何用简单模型及模型集成方法实现较高的智能水平;从数据分析角度看,如何从海量数据中快速洞察有价值的数据,并通过试验设计和模拟仿真,实现数据到智慧的转变。
但是,从数据科学视角看,其研究中的常见争议及背后的研究挑战可以归纳为10个方面:
1. 思维模式——知识范式还是数据范式
在传统科学研究中,由于数据的获得、存储和计算能力所限,人们往往采取的是知识范式(“数据→知识→问题”的范式),从数据,尤其是样本数据中提炼出知识之后,用知识去解决现实问题。大数据时代的到来及数据科学出现为人们提供了另一种研究思路,即数据范式(“数据→问题”范式),在尚未从数据中提炼出知识的前提下,用数据直接解决问题。数据范式强调的是在尚未将数据转换为知识的前提下,直接用数据去解决现实世界中的问题。
以机器翻译为例,传统机器翻译方法是基于自然语言理解,准确说是基于语言学和统计学的知识进行,属于知识范式的范畴。但是,这种传统机器翻译效果一直并不理想,且尚无突破性进展。然而,近几年兴起的机器翻译方法改变了传统机器翻译的思维模式,采取的是“数据范式”——直接从历史跨语言语料库中快速洞见所需结果。上世纪五十年以来的IBM 机器翻译的缓慢发展以及2000以后的Google机器翻译的迅速兴起也反映了这种思维模式的变革。
与传统认识中的“知识就是力量”类似,在大数据时代,数据也成为一种重要力量。如何组织、挖掘和利用数据成为现代组织的核心竞争力。目前,思维模式变革的主要挑战在于如何完成以数据为中心的设计、数据驱动型决策和数据密集型应用。
2. 数据的认识——主动属性还是被动属性
在传统科学研究中,数据一直被当作是被动的东西,人们主要从被动属性方面去对待数据。以关系数据库为例,人们先定义关系模式,然后将数据按照关系模式的要求进行强制转换后放入数据库中,完成数据挖掘和分析任务。
在大数据思维模式的背后,一个根本性的变革在于人们开始意识到数据的主动属性——不再简单认为数据是一种死的、被动的东西,而更加重视数据的积极作者用,提出了数据在先、模式在后或无模式、让数据说话、数据驱动型应用、数据业务化、数据洞察和以数据为中心的思维模式等新术语。
因此,如何正确认识数据及如何充分发挥数据的主动属性成为数据科学的重要研究任务。目前,相关研究的主要挑战在于如何实现数据洞察、以数据为中心的设计、敏捷软件开发、数据驱动型决策以及智慧类应用研发。
3. 智能的认识——更好的算法还是更多的数据
在传统学术研究中,智能主要来自于算法,尤其是复杂的算法。算法的复杂度随着智能水平得到提升。例如,KNN算法是机器学习中常用的分类算法,其算法思想非常简单。人们根据不同应用场景提出多种改进或演化方案,虽然智能水平有所提高,但随之而来的问题是算法复杂度的提升。但是,数据范式表明,数据也可以直接用于解决问题,引发了一场关于“更多数据还是更好模型(More data or Better Model debate)”的讨论,经过这场大讨论,人们得出了相对一致的结论——“更多数据+简单算法=最好的模型(more data+ simple Algorithem= the best model)”。
因此,如何设计出简单高效的算法以及算法的集成应用成为数据科学的重要挑战。目前,关于智能的实现方式的挑战在于算法设计、算法集成、维度灾难和深度学习。
4. 研发瓶颈——数据密集型还是计算密集型
传统的软件开发与算法设计的重点是解决计算密集型的问题,计算是研究难点和瓶颈。但是,随着大规模分布式计算,尤其是云计算的普及,计算不再是人们需要解决的首要瓶颈。因此,软件开发与算法设计的主要矛盾从计算转向数据,出现了数据密集型应用。在数据密集型应用中,数据是主要关注点与瓶颈。数据密集型问题的研究将进一步推动以数据为中心的研究范式。
目前,数据密集型应用的主要挑战在于副本数据技术、物化视图、计算的本地化、数据模型的多样化和数据一致性保障。
5. 数据准备——数据预处理还是数据加工
在传统数据研究中,数据准备主要强调的是将复杂数据转换为简单数据,对脏数据进行清洗处理后得到干净数据,从而防止“垃圾进垃圾出”现象的出现,主要涉及重复数据的过滤、错误数据的识别以及缺失数据的处理。可见,数据预处理主要关注的是数据的质量维度的问题。但是,由于从小数据到大数据之间存在质量涌现现象——个别小数据的质量问题(如缺失数据、错误数据或重复数据)不影响整个大数据的可用性,大数据处理中关注的并非为传统意义上的数据预处理,而其关注点转向另一个重要课题——数据加工。
在数据科学中,数据加工是指数据的创造性增值过程,包括两种表现形式:数据打磨(data wrangling)或数据改写(data munging)。与数据预处理不同的是,数据加工更加强调的是如何将数据科学家的3C精神融入数据处理工作之中,从而达到数据增值的目的。因此,数据加工并不仅限于技术工作的范畴,而且还涉及到艺术层面的创造,如需要采用数据柔术(Data Jujitsu)和整齐化处理(Data Tidying)的方法进行数据加工处理。
数据加工概念的提出意味着人们对数据复杂性的认识发生了重要的变革,即开始接受数据的复杂性特征,认为复杂性是数据本身的固有特征。与此同时,数据准备的关注点转向另一个重要问题,即如何发挥人的增值作用。目前,数据加工的研究主要挑战集中在:
数据打磨或数据改写理念的提出:如何在数据科学项目中充分发挥数据科学家的作用,进而实现数据处理活动的增值效果;
数据打磨或数据改写技术的实现:基于Python、R以及大数据技术实现数据加工的理念与方法;
数据柔术:如何有艺术性地将数据转换为产品;
整齐化处理:将数据转换为大数据算法和大数据技术能够直接处理的形态。
6. 服务质量——精准度还是用户体验
查全率和查准率是传统数据研究中评价服务质量的两个核心指标。但是,当总体为未知、数据量迅速增长、数据种类不断变化和数据处理速度要求高时,查全率和查准率的追求成为不可能。因此,在大数据环境下,更加重视的是用户体验,而不是查全率和查准率。在用户体验的评价中,响应速度是最为重要指标之一。Aberdeen Group的调查发现“页面的显示速度每延迟1秒,网站访问量就会降低11%,从而导致营业额减少7%,顾客满意度下降16%”Google发现“响应时间每延迟0.5秒,查询数将会减少20%”;Amazon发现“响应时间延迟0.1秒,营业额下降1%。
目前,用户体验研究的主要挑战在于如何确保较快的响应速度、设计人机交互、实现服务虚拟化以及提供按需服务。
7. 数据分析——解释性分析还是预测性分析
理论完美主义者认为只有掌握了因果关系才能正确认识和有效利用客观现象。传统数据分析往往是理论完美主义的指导下完成,试图通过对历史数据进行深度分析之后,达到深刻理解自我或解释客观现象的目的,侧重的是因果分析,即以解释型分析为主。
在大数据环境下,数据分析的重点从因果分析转向相关分析,更加重视的是事物之间的相关关系。然而,在这种变革的背后是数据分析指导思想的根本性变化——从理论完美主义转向现实实用主义,侧重于数据分析的实用性,更加重视对未来的预测,即预测型分析。相对于解释性分析,预测性分析具有更强的时效性,可以迅速洞见事物之间的内在联系以及其商业价值。
因此,数据科学的一个重要特点是预测性分析和解释性分析的分离。预测性分析主要由数据科学家完成,一般不需要领域知识;解释性分析则发生在预测性分析之后,数据科学家将预测性分析中的洞察结果转交给领域专家,由领域专家负责完成解释性分析。可见,数据科学家一般不做解释性分析,或者说,解释性分析往往超出数据科学家的能力范畴,需要由具体领域的专家完成。预测性分析和解释性分析的分离也是数据科学家和领域专家之间协同工作的主要实现方式。
大数据分析的主要挑战源自于数据的复杂性、噪声数据的分析、数据的依赖度。提出面向大数据分析的新方法、技术与工具,尤其是大数据分析方法的动态演化、实时计算和弹性计算成为相关研究中亟待解决的问题。
8. 算法评价——复杂度还是可扩展性
复杂度,尤其是时间复杂度和空间复杂度,是传统算法的两个重要评价指标 ,分别代表的是算法的运行所需的时间成本和内存成本。但是,在大数据环境下,算法设计的一个重要特点是上层需求和底层数据处于动态变化之中,因此,算法应支持按需服务和数据驱动型应用。例如,谷歌于2008年推出预测流感疫情工具——谷歌流感趋势(Google Flu Trends,GFT),及时准确预测了当时H1N1在全美范围的传播,但是,2013年1月的估计比实际数据高两倍,主要原因之一是缺乏算法动态性(Algorithm Dynamics)和用户使用行为习惯的变化。
在大数据时代,算法的可扩展性主要代表的是算法的可伸缩能力。目前,相关研究的主要挑战在于低维度算法在高维数据中的应用、维度灾难、数据规约以及数据密集型应用。
9. 研究范式——第三范式还是第四范式
图灵奖获得者Jim Gray 曾提出,人类科学研究活动已经历过三种不同范式的演变过程(原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”),目前正在从“计算科学范式”转向“数据密集型科学发现范式(Data-intensive Scientific Discovery)”。第四范式,即“数据密集型科学发现范式”的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识,无须直接面对所研究的物理对象。例如,在大数据时代,天文学家的研究方式发生了新的变化——其主要研究任务变为从海量数据库中发现所需的物体或现象的照片,而不再需要亲自进行太空拍照。
第四范式的提出反映了人们对世界的固有认识发生了根本性的变化——从二元认识(精神世界/物理世界)转向三元认识(精神世界/数据世界/物理世界),即在原有的“精神世界”和“物理世界”之间出现了一个新的世界——数据世界。因此,科学研究者往往直接面对的是数据世界,通过对数据世界的研究达到认识和改造物理世界的目的。对于科学研究者而言,数据世界中已积累的“历史数据”往往足以完成一项科研任务,数据科学家不需要亲自到物理世界采用问卷和访谈的方法收集数据——“调研数据”。同时,与“调研数据”相比,“历史数据”更具有客观性和可信度。目前,相关研究主要挑战在于第三范式与第四范式的区别、第四范式的内涵、理论深入研究以及领域应用。
10. 人才培养——数据工程师还是数据科学家
传统科学领域中,数据相关的人才培养的目标定位于数据工程师——从事数据的组织、管理、备份、恢复工作的人才。但是,在大数据时代,数据工程师无法胜任数据科学的研究任务,需要的是一类全新的人才——数据科学家。二者的主要区别在于:数据工程师负责的是数据的管理,而数据科学家擅长的是基于数据的管理,如基于数据的决策、产品开发、业务定义等。
目前,关于数据科学家的研究及人才培养的挑战在于正确分析岗位职责与用人需求、数据科学家的素质与能力要求、数据科学项目管理以及数据科学家的职业规划。
 

  发表留言
电子邮箱: *
聯繫電話: *
验证码:
  最新留言
[ LIST | TOP ]