ImageVerifierCode 换一换
格式:DOCX , 页数:6 ,大小:4.14MB ,
资源ID:200912      下载积分:30 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,更优惠
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.77wenku.com/d-200912.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(2021-2022学年浙教版(2019)高中信息技术必修一《第4章 数据处理与应用》知识点梳理)为本站会员(花***)主动上传,七七文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知七七文库(发送邮件至373788568@qq.com或直接QQ联系客服),我们立即给予删除!

2021-2022学年浙教版(2019)高中信息技术必修一《第4章 数据处理与应用》知识点梳理

1、第第 4 4 章章 数据处理与应用数据处理与应用 1. 数据处理的核心是数据,数据的质量直接影响数据分析的结果。 2. 在数据分析和数据 挖掘前, 通常先对数据进行整理。 3. 数据整理的目的是检测和修正错漏的数据、 整合数据资源、 规整数据格式、 提高数据质量。 4. 数据计算是数据处理的常用方法之一 5. 日常简单的数据处理可以使用 Excel 软件完成, 专业的数据处理和统计分析工具有 SPSS、SAS、MATLAB 等,也可以通过 R、Python、 Java 等计算机语言编程进行数据处理。 6. 在 Excel 软件中,可以应用公式进行数据的计算。公式是以“=”开头,由常数、函数、

2、单元格引用和运算符组成的式子。 7. 单元格引用是指对工作表中的单元格或单元格区域的引用。默认情况下,单元格引用 是相对的,如 Al;单元格绝对引用,如$A$1;连续的单元格区域引用,如 A2:D5;不连续的单元格区域引用,如 A2:A5,D2:D5。 8. 算术运算符有、十、,用于进行基本的数学运算。比较运算符有、 、,用于比较两个值,结果为逻辑值 TRUE 或 FALSE。文本连接运算符&, 可以连接一个或多个文本字符串,生成一段文本。 9. Excel 内置函数 函数名 使用 说明 SUM SUM(A1:A10) 求和 AVERAGE AVERAGE(A1:A10) 求平均值 M

3、AX MAX(A1:A10) 求最大值 MIN MIN(A1:A10) 求最小值 COUNT COUNT(A1:A10) 求数量 RANK RANK(A1:A10,A1) 求排名 表 1.1 10. 相对引用与绝对引用:Excel 中对单元格的引用可以是相对的,也可以是绝对的,相对的例如 A1:A10,绝对引用一般用$符号标识,例如$A1 就是锁定列,在填充的时候 A 不会随着,单元格位置的变换的变换而变换,同理 A$1 就是锁定行,$A$1 就是锁定行列。 11. 图表是用视觉形式向人们展示数据的一种方法。 常见的图表类型有柱形图、 折线图、 饼图、 雷达图、 散点图、 气泡图 12. 大数

4、据具有数据量大、数据来源与类型多样、处理速度快等特点 13. 处理大数据时,一般采用分治思想 14. 处理大数据的基本方法有批处理计算、流计算、图计算三种 15. 分布式计算 (Distributed Computing) 是把一个需要非常巨大的计算能力才能解决的问题 分成许多小部分, 然后把这些部分分配给许多计算机进行处理, 最后把这些计算结果综合起来得到最终的结果 16. 并行处理 (Parallel Processing) 是计算机系统中能同时执行两个或更多处理的一种计算方法 17. 大数据处理按照类型可划分为对静态数据的批处理、 对流数据的实时计算和对图结构数据的图计算 18. Win

5、dows 的文件系统采用 FAT32 或 NTFS, Linux 的文件系统为 Ext2/Ext3/Ext4 19. HBase 是一个高可靠、高性能、 可伸缩、分布式的列式数据库 20. Map Reduce 是一种分布式并行编程模型, 能够处理大规模数据集的并行运算 21. 使用计算机语言编程,可以更加灵活、深入地进行数据分析和挖掘 22. numpy 模块是 Python 中做科学计算的基础库,主要提供科学计算中常用的随机数、数组运算等基础函数。 23. scipy 模块是基千 numpy 构建的一个模块,增强了在高等数学、信号处理、图像处理、统计等方面的处理能力。 24. pandas

6、 模块基于 numpy 实现,主要用于数据的处理和分析。它提供了大量处理数据的函数和方法,能方便地操作大型数据集。 25. pandas 提供了 Series 和 DataFrame 两种数据结构。使用这两种数据结构,可完成数据 的整理、计算、统计、分析及简单可视化。 26. 在 Python 中引入 pandas 模块的方法:import pandas as pd 27. Series 是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引 (index),索引值默认是从 0 起递增的整数。列表、字典等可以用来创建 Series 数据结构, 与列表不同的是,Series 的索引可以指

7、定,类型可以为字符串型。 28. Series 样例使用如下图 29.29. 通过索引可以选取通过索引可以选取 SerSeriesies 对象中的值,对象中的值, 通过赋值语句可以修改通过赋值语句可以修改 SeriesSeries 对象中的值。对象中的值。 如:如:s10=168 s10=168 、s2s01 =168, s2s01 =168, 可将可将 slsl、s2s2 对象中的“对象中的“ 166166改为“改为“ 168 168 ” 。” 。 30.30. DataFrameDataFrame 是一种二维的数据结构由是一种二维的数据结构由 1 1 个索引列个索引列(index)(ind

8、ex)和若干个数据列组成,每个数据和若干个数据列组成,每个数据列可以是不同的类型。列可以是不同的类型。 DataFrameDataFrame 可以看作是共享同一个可以看作是共享同一个 index index 的的 Series Series 的集合。的集合。 创建创建DataFrameDataFrame 对象的方法很多,对象的方法很多, 通常用一个相等长度的列表或字典来创建。通常用一个相等长度的列表或字典来创建。如下图如下图 31. Pandas 也可以读取 Excel,代码如下图 32.32. DataFrameDataFrame 常见函数表常见函数表 33.33. matplotlibma

9、tplotlib 是一个绘图库是一个绘图库 ,使用其中的,使用其中的 pyplotpyplot 子库所提供的函数可以快速绘图和设置子库所提供的函数可以快速绘图和设置图图 表的坐标轴、表的坐标轴、 坐标轴刻度、图例等。常用绘图函数如坐标轴刻度、图例等。常用绘图函数如下下表表 34.34. 样例代码:绘制正弦函数图样例代码:绘制正弦函数图 左左 1 1 代码图,左代码图,左 2 2 结果图结果图 35. 文本数据处理是大数据处理的重要分支之一, 目的是从大规模的文本数据中提取出符合需要的、 感兴趣的和隐藏的信息。 目前, 文本数据处理主要应用在搜索引擎、 情报分析、 自动摘要、 自动校对、 论文查

10、重、 文本分类、 垃圾邮件过滤、 机器翻译、 自动应答等方面。 36. 文本处理的一般步骤: 文本内容是非结构化的数据, 要从大量的文本中提取出有用的信息, 需要将文本从无结构的原始状态转化为结构化的、 便于计算机处理的数据。 典型的文本处理过程主要包括:分词、 特征提取、 数据分析、 结果呈现 37. 中文分词是中文文本信息处理的基础, 机器翻译、 全文检索等涉及中文的相关应用中 都离不开中文分词。 分词是将连续的字序列按照一定的规范重新组合成词序列的过程 38. 分词的三种方法 基于词典的分词方法、基于统计的分词方法、基于规则的分词方法 39. 标签云用词频表现文本特征, 将关键词按照一定

11、的顺序和规律排列 , 如频度递减、 字母顺序等, 并以文字大小的形式代表词语的重要性 40. 文本情感分析是指通过计算机技术对文本的主观性、 观点、 情绪、 极性进行挖掘和分析, 对文本的情感倾向做出分类判断 41. 数据可视化的作用:快捷观察与追踪数据、实时分析数据、增强数据的解释力与吸引力 42. 数据可视化的基本方法: 有关时间趋势的可视化、 有关比例的可视化、 有关关系的可视化、有关差异的可视化、有关空间关系的可视化 43. 数据可视化的工具:用于数据可视化的工具有大数据糜镜、Gephi、Tableau 等,也可以使用Python、R 等 计算机语言编写程序实现数据的可视化 44. 分词与标签云的样例代码(下图 1、2) 图 1 图 2 45. 随着大数据在各行业的应用, 数据成为核心资产, 数据规模以及运用数据的能力成为各行业发展的推动力 46. 智慧交通包括:交通信息服务系统、交通管理系统、电子收费系统 47. 大数据在电子商务的使用:精准营销、供应链管理、智能网站