- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python篇数据分析习题（四）

漫步桔田发表于 2023/02/16 11:35:04 2023/02/16

【摘要】 Python篇数据分析习题（四）

1.现有一个Nowcoder.csv文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）：
Nowcoder_ID：用户ID
Level：等级
Achievement_value：成就值
Num_of_exercise：刷题量
Graduate_year：毕业年份
Language：常用语言
Continuous_check_in_days：最近连续签到天数
Number_of_submissions：提交代码次数
Last_submission_time：最后一次提交题目日期
运营同学正在做用户调研，为了保证调研的可靠性，想要去掉那些信息不全的用户，即去掉有缺失数据的行，请你帮助他去掉后输出全部数据。

import pandas as pd
 
nd = pd.read_csv("Nowcoder.csv", sep=",", dtype=object)
pd.set_option("display.width", 300) 
pd.set_option("display.max_rows", None) 
pd.set_option("display.max_columns", None)
nd.dropna(axis=0, inplace=True)
 
print(nd)

2.现有一个Nowcoder.csv文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）：
Nowcoder_ID：用户ID
Level：等级
Achievement_value：成就值
Num_of_exercise：刷题量
Graduate_year：毕业年份
Language：常用语言
Continuous_check_in_days：最近连续签到天数
Number_of_submissions：提交代码次数
Last_submission_time：最后一次提交题目日期
运营同学拿到了这份用户文件，但是由于系统BUG，出现了部分缺失的值，请你使用当前的最大年份填充缺失的毕业年份（“Graduate_year”），用Python填充缺失的常用语言（“Language”），用成就值的均值（四舍五入保留整数）填充缺失的成就值（“Achievement_value”）。

import pandas as pd
 
nd = pd.read_csv("Nowcoder.csv", sep=",")
pd.set_option("display.width", 300)
pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)
nd["Graduate_year"].fillna(nd["Graduate_year"].max(), inplace=True)
nd["Language"].fillna("Python", inplace=True)
nd["Achievement_value"].fillna(int(nd["Achievement_value"].mean()), inplace=True)
 
print(nd)

3.现有一个Nowcoder.csv文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）：
Nowcoder_ID：用户ID
Level：等级
Achievement_value：成就值
Num_of_exercise：刷题量
Graduate_year：毕业年份
Language：常用语言
Continuous_check_in_days：最近连续签到天数
Number_of_submissions：提交代码次数
Last_submission_time：最后一次提交题目日期
牛牛拿到这份文件的时候一脸懵逼，因为系统错误将很多相同用户的数据输出了多条，导致文件中有很多重复的行，请先检查每一行是否重复，然后输出删除重复行后的全部数据。

import pandas as pd
 
nd=pd.read_csv('Nowcoder.csv')
 
print(nd.duplicated())
print(nd.drop_duplicated(0))

4.现有一个Nowcoder.csv文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）：
Nowcoder_ID：用户ID
Level：等级
Achievement_value：成就值
Num_of_exercise：刷题量
Graduate_year：毕业年份
Language：常用语言
Continuous_check_in_days：最近连续签到天数
Number_of_submissions：提交代码次数
Last_submission_time：最后一次提交题目日期
运营同学发现最后一次提交题目日期这一列有各种各样的日期格式，这对于他分析用户十分不友好，你能够帮他输出用户ID、等级以及统一后的日期吗？（日期格式统一为yyyy-mm-dd）

import pandas as pd
 
nd = pd.read_csv("Nowcoder.csv", sep=",", dtype=object)
nd["Last_submission_time"] = pd.to_datetime(nd["Last_submission_time"], format="%Y-%m-%d")
 
print(nd[["Nowcoder_ID", "Level", "Last_submission_time"]])

5.现有一个Nowcoder.json文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）：
Nowcoder_ID：用户ID
Level：等级
Achievement_value：成就值
Graduate_year：毕业年份
Language：常用语言
如果你读入了这个json文件，能将其转换为pandas的DataFrame格式吗？

import pandas as pd
import json
 
pd.set_option("display.width", 300)
pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)
with open("Nowcoder.json", "r") as f:
    data = json.loads(f.read())
 
print(pd.DataFrame(data))

6.现有牛客网12月每天练习题目情况的数据集nowcoder.csv。包含如下字段（字段之间用逗号分隔）：
user_id:用户id
question_id：问题编号
result：运行结果
date：练习日期
请你统计2021年12月每天练习题目的数量。

import pandas as pd
 
nowcoder = pd.read_csv("nowcoder.csv", parse_dates=True, index_col="date")
nd_num = nowcoder.groupby("date")["question_id"].count()
 
print(nd_num)

7.现有牛客网12月每天练习题目情况的数据集nowcoder.csv。包含如下字段（字段之间用逗号分隔）：
user_id:用户id
question_id：问题编号
result：运行结果
date：练习日期
现需要查看用户在某天练习后第二天还会再来练习的留存情况，请计算用户练习的平均次日留存率。

import pandas as pd
from datetime import timedelta
 
df = pd.read_csv("nowcoder.csv", sep=",")
 
tit_id = df["user_id"].count()
nd = pd.merge(df, df, on="user_id")
nd["date_x"] = pd.to_datetime(nd.date_x).dt.date
nd["date_y"] = pd.to_datetime(nd.date_y).dt.date
nd["differ"] = nd["date_x"] - nd["date_y"]
sum_id = nd[nd.differ == "1 days"]["differ"].count()
res = round(sum_id / tit_id, 2)
 
print(res)

8.现有牛客网12月每天练习题目的数据集nowcoder.csv。包含如下字段（字段之间用逗号分隔）：
user_id:用户id
question_id：问题编号
result：运行结果
date：练习日期
请你统计2021年12月答题结果正确和错误的前提下每天的答题次数。

import pandas as pd
 
df = pd.read_csv("nowcoder.csv")
df.rename(columns={"date": "year-month-day"}, inplace=True)
nd = df.groupby(["result", "year-month-day"])["question_id"].count()
 
print(nd)

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python篇数据分析习题（四）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python篇数据分析习题（四）

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品