数据工程 - 数据收集

数据收集涉及从各种来源收集和分析信息,以解决研究问题、回答问题和预测趋势。这一过程对于社会科学、商业和医疗保健领域的研究、分析和决策来说具有挑战性。数据收集涉及识别数据类型、其来源以及用于收集信息的方法。除了内部应用程序产生的大量数据外,许多外部系统(如 Facebook、Google、Shopify、Hubspot)还会生成企业所依赖的关键客户数据。

数据收集指定高质量数据,这些数据是为准确的决策和分析而确定的。对于数据工程师来说,收集数据是主要步骤,其次是设置数据。

数据收集是一个随着技术发展而发展的过程,以各种形式提供比以前更多的数据。它通过电话调查、面对面访谈和邮寄评论等方法支持决策。数据收集涉及收集准确的数据,用于各个部门的研究、决策和分析。

原始数据收集

原始数据收集涉及直接从来源或通过与受访者直接互动收集原始数据。此方法提供特定于研究目标的信息。

  • 结构化调查旨在从团体或个人收集数据。这些可以通过电话、邮件、面对面访谈或在线平台进行。

  • 访谈涉及研究人员和受访者之间的直接互动。他们可以通过视频会议、亲自或电话进行。

  • 观察涉及记录和观察自然环境中的行为、动作或事件。这种方法对于收集有关人类互动和行为的数据非常有效。

二手数据收集

二手数据收集涉及使用来自既定来源的数据。这些来源包括在线数据库、政府和公共数据以及研究报告。

  • 在线数据库提供对各种二手数据的访问,包括经济数据、社会调查、社会调查和研究文章。

  • 可用的公共数据包括个人、组织或社区在公共平台、社交媒体和网站上共享的信息。这些数据可以进行处理并用于研究目的。

  • 已发表的数据包括学术期刊、书籍、政府报告、报纸和其他为研究提供相关数据的材料。

数据提取技术

以下内容可以预测未来结果,并分为不同的访谈类型 −

  • 句子完成:用户使用句子完成来获取更多关于受访者想法的信息。这种方法包括提供不完整的句子并观察受访者如何完成它。

  • 移动调查:移动收集调查利用移动技术。他们使用智能手机等设备通过短信或移动应用程序进行调查。

  • 观察:最简单的方法往往是最有效的。研究人员使用直接观察来快速访问数据,同时尽量减少干扰或第三方规范。这种方法最适合小规模的情况。

数据收集的重要性

准确的数据收集是研究完整性的最关键因素,无论研究主题是否涉及定量数据。使用适当且更新的数据收集工具有助于最大限度地减少错误。

以下是无效的数据收集 −

  • 损害公共政策的决定。

  • 不完整的结论浪费资源。

  • 对人类或动物参与者造成伤害。

  • 误导其他研究人员走上没有成效的研究道路。

  • 研究的失败可以得到验证和复制。