数据库系统由4个部分组成:
1、数据库(database,DB)是指长期存储在计算机内的,有组织,可共享的数据的集合。数据库中的数据按一定的数学模型组织、描述和存储,具有较小的冗余,较高的数据独立性和易扩展性,并可为各种用户共享。
2、硬件:构成计算机系统的各种物理设备,包括存储所需的外部设备。硬件的配置应满足整个数据库系统的需要。
数据系统由什么组成?
软件:包括操作系统、数据库管理系统及应用程序。其主要功能包括:数据定义功能、数据操纵功能、数据库的运行管理和数据库的建立与维护。
人员:主要有4类。地一类为系统分析员和数据库设计人员;第二类为应用程序员,负责编写使用数据库的应用程序。;第三类为用户,他们利用系统的接口或查询语言访问数据库。第四类用户是数据库管理员(data base administrator,DBA),负责数据库的总体信息控制。
数据建模的具体过程可分为六大步骤:
一、制订目标
制订目标的前提是理解业务,明确要解决的商业现实问题是什么?
如:在社交平台KOL中,存在假粉丝的情况,如何识别假粉就是一个要解决的现实问题。
二、数据理解与准备
基于要解决的现实问题,理解和准备数据,一般需要解决以下问题:
1.需要哪些数据指标(即特征提取)?(如:哪些指标能区别真粉和假粉?)
2.数据指标的含义是什么?
3.数据的质量如何?(如:是否存在缺失值?)
4.数据能否满足需求?
5.数据还需要如何加工?(如:转换数据指标,将类别型变量转化为0-1哑变量,或将连续型数据转化为有序变量)
6.探索数据中的规律和模式,进而形成假设。
需要注意的是,数据准备工作可能需要尝试多次。因为在复杂的大型数据中,较难发现数据中存在的模式,初步形成的假设可能会被很快推到,这时一定要静心钻研,不断试错。
数据建模后需要评估模型的效果,因此一般需要将数据分为训练集和测试集。
版权所有©2024 天助网