2021年美国大学生数学建模竞赛D题思路分析
下载链接
2021美赛题目下载:链接:https://pan.baidu.com/s/1yFdg3vBMS4MY7CnQ3PMG9Q
提取码:6666
原文翻译
2021年国际商会
问题D:音乐的影响
音乐是人类社会的一部分,是文化遗产的重要组成部分。作为理解音乐在人类集体经验中所扮演角色的努力的一部分,我们被要求开发一种方法来量化音乐进化。当艺术家创作一首新音乐时,有许多因素可以影响他们,包括他们与生俱来的创造力、当前的社会或政治事件、获得新的乐器或工具的机会或其他个人经历。我们的目标是了解和衡量以前制作的音乐对新音乐和音乐艺术家的影响。一些艺术家可以列出十几个或更多的其他艺术家,他们说他们影响了他们自己的音乐作品。还有人建议,影响可以用歌曲特征之间的相似程度来衡量,如结构、节奏或歌词。音乐有时会发生革命性的变化,提供新的声音或节奏,例如当一个新的体裁出现时,或者有一个现有的体裁的重新发明(例如。古典、流行/摇滚、爵士乐等。)。这可能是由于一系列微小的变化,艺术家的合作努力,一系列有影响力的艺术家,或社会内部的转变。许多歌曲有着相似的声音,许多艺术家为音乐流派的重大转变做出了贡献。有时这些变化是由于一个艺术家影响另一个艺术家。有时,它是针对外部事件(如重大世界事件或技术进步)而出现的变化)。通过考虑歌曲网络及其音乐特征,我们可以开始捕捉音乐艺术家对彼此的影响。也许,我们还可以更好地了解音乐是如何随着时间的推移在社会中演变的。您的团队已经被整合集体音乐(ICM)协会确定,以开发一个衡量音乐影响的模型。这个问题要求你研究艺术家和流派的进化和革命趋势。为了做到这一点,ICM给了您的团队几个数据集:
- “influence_data”1 代表音乐影响者和追随者,如艺术家自己报告的,以及行业专家的意见。这些数据包含了过去90年来5,854名艺术家的影响者和追随者。
- “full_music_data”2 提供16个可变的条目,包括音乐特征,如舞蹈性,节奏,响度和键,以及98,340首歌曲的artist_name和artist_id。这些数据用于创建两个汇总数据集,包括:
a. 艺术家“data_by_artist”的平均价值”,
b. 意味着多年的“data_by_year”。
1 这些数据来自All Music.com
2 这些数据是从Spotify的API中获得的
注意:这些文件中提供的数据是较大数据集的子集。这些文件包含了你要为这个问题使用的唯一数据。
为了实施这个具有挑战性的项目,ICM协会要求您的团队通过音乐艺术家随时间的影响来探索音乐的演变,具体做法如下:
-
使用influence_data数据集或其部分创建一个(多个)有向网络的音乐影响,其中影响者连接到追随者。开发在这个网络中捕获“音乐影响”的参数。通过创建你的定向影响者网络的子网来探索音乐影响的子集。描述这个子网。你的“音乐影响”措施在这个子网中揭示了什么?
-
使用full_music_data和/或两个汇总数据集(与艺术家和年份)的音乐特征,以制定音乐相似性的度量。用你的衡量标准,流派中的艺术家是否比流派之间的艺术家更相似?
-
比较体裁之间和体裁内部的相似性和影响。一个体裁的区别是什么,体裁是如何随着时间的推移而变化的? 有些体裁与其他体裁有关吗?
-
指出data_influence数据集中报告的相似性数据是否表明已识别的影响者实际上影响了各自的艺术家。“影响者”真的会影响追随者创造的音乐吗? 有些音乐特征是否比其他音乐更具有“传染性”,或者它们在影响特定艺术家的音乐方面都有类似的作用?
-
从这些数据中确定是否有可能意味着音乐进化的革命(重大飞跃)的特征? 什么艺术家代表革命者(重大变革的影响者)在你的网络?
-
分析音乐演变的影响过程,随着时间的推移,在一个体裁。你的团队能找出揭示动态影响者的指标,并解释流派或艺术家是如何随着时间的推移而变化的吗?
-
你的作品如何在时间或环境中表达关于音乐文化影响的信息? 或者,如何在网络中识别社会、政治或技术变革(如互联网)的影响?
写一份一页的文件给ICM协会,关于使用你的方法来理解音乐通过网络的影响的价值。考虑到这两个问题数据集仅限于某些类型,然后是两个数据集共同的艺术家,您的工作或解决方案将如何随着更多或更丰富的数据而变化? 建议进一步研究音乐及其对文化的影响。来自音乐、历史、社会科学、技术和数学领域的跨学科和多样化的ICM协会期待着您的最后报告。
您的PDF解决方案不超过25页,应包括: -
一页汇总表。
-
目录。
-
你的解决方案。
-
提交ICM协会的一页文件。
-
参考资料清单。
注:2021年新 ICM竞赛现在有25页的限制。您提交的所有方面都按25页的限制计算:摘要表、目录`解决方案主体、图像和表格、一页文档、参考列表和任何附录。
附件
我们为这个问题提供了以下四个数据文件。提供的数据文件包含您应该用于此问题的唯一数据-
influence_data.csv
-
full_music_data.csv
-
data_by_artist.csv
-
data_by_year.c
sv数据描述 -
influence_data.csv
(数据以utf-8编码,以便处理特殊字符):- influencer_id:给被列为影响者的唯一识别号码。(一串数字)
- influencer_name:由追随者或行业专家给出的影响艺术家的名字。(字符串)
- influencer_main_genre:最能描述影响艺术家创作的大部分音乐的体裁。(如果可
用)(字符串) - influencer_active_start:影响艺术家开始音乐生涯的十年。(整数)
- follower_id:给被列为跟随者的艺术家的唯一识别号码。(一串数字)
- follower_name:跟随影响艺术家的艺术家的名字。(字符串)
- follower_main_genre:最能描述以下艺术家创作的大部分音乐的体裁。(如果可
用)(字符串) - follower_active_start:以下艺术家开始音乐生涯的十年。(整数)
-
full_music_data.csv 3. data_by_artist.csv 4. data_by_year.csv
Spotify音频功能来自“full_music_data”、“data_by_artist”、“data_by_year”:- artist_name:表演曲目的艺术家。(数组)
- artist_id:influence_data.csv文件中给出的相同唯一标识号。(一串数字)音乐的特点:
- 舞蹈性:一种基于音乐元素的组合,包括节奏、节奏稳定性、节拍强度和整体规律性,来衡量一个曲目是否适合跳舞。值0.0是最不可跳舞的,1.0是最可跳舞的。(浮动)
- 能量:表示对强度和活动的感知的度量。值0.0是最不强烈/能量的,1.0是最强烈/能量的。通常,充满活力的轨道会感觉快速、响亮和嘈杂。例如,死亡金属有很高的能量,而巴赫的前奏在量表上得分很低。这一属性的感知特征包括动态范围、感知响度、音色、起跳率和一般熵。(浮动)
- 价态:一种描述曲目所传达的音乐积极性的度量。值0.0最负,1.0最正。高价音的轨道更积极(例如。快乐,开朗,兴高采烈),而低价音轨听起来更消极(例如。悲伤,沮丧,愤怒)。(浮动)
- 节奏:以每分钟节拍为单位的轨道的总体估计节奏(BPM)。在音乐术语中,节奏是给定作品的速度或节奏,直接来源于平均节拍持续时间。(浮动)
- 响度:轨道的整体响度,单位为分贝(dB)。值在-60到0db之间的典型范围。响度值在整个轨道上是平均的,对于比较轨道的相对响度是有用的。声音是声音的质量,是身体力量(振幅)的主要心理关联)。(浮动)
- 模式:一种轨迹的情态(主要或次要)的指示,它的旋律内容是从其尺度的类型。主修用1表示,辅修用0表示。
- 关键:估计轨道的总体关键。整数映射到点,使用标准的Pitch类表示法。E.g。0=C,1=C♯/D♭,2=D等等。如果没有检测到键,则键的值为-1。(整数)唱腔类型:
- 声学:衡量轨道是否声学(没有技术增强或电气放大)的置信度)。值1.0表示高度置信,轨道是声学的。(浮动)
- 工具性:预测一个曲目是否包含没有声音。在这种情况下,“呜”和“啊”的声音被视为工具。说唱或口语曲目显然是“声乐”。器乐值越接近1.0,曲目不包含声乐内容的可能性就越大。高于0.5的值意在表示工具轨道,但随着值接近1.0,置信度更高。(浮动)
- 活力:在赛道上检测观众的存在。较高的活性值表示轨道被实时执行的概率增加。高于0.8的值提供了轨道运行的强烈可能性。(浮动)
- 言语:在一个轨道上检测口语的存在。更纯粹的演讲就像录音(例如。脱口秀,有声书,诗歌),属性值越接近1.0。高于0.66的值描述了可能完全由口语构成的音轨。值在0.33到0.66之间,描述可能包含音乐和语音的曲目,无论是在部分还是分层,包括说唱音乐。低于0.33的值最有可能代表音乐和其他非语音类曲目。(浮动)
- 显式:检测曲目中的显式歌词(真(1)=是的;假(0)=不,它没有或未知)。(布尔值)
说明: - duration_ms:轨道的持续时间(毫秒。(整数)
- 流行:赛道的流行。值将在0到100之间,其中100是最受欢迎的。流行度是通过算法来计算的,在很大程度上是基于赛道上的总播放次数和最近的播放次数。一般来说,现在播放频率更高的歌曲将比过去播放频率更高的歌曲更受欢迎。重复轨道(例如。同一曲目来自单一和专辑)是独立的。艺术家和专辑的流行在数学上来源于曲目的流行。(整数)
- 年份:轨道发布的年份。(1921年至2020年为整数)
- release_date:轨道发布的日历日期大多采用yyyy-mm-dd格式,但日期的精度可能会有所不同,有些只是作为yyyy给出的。
- song_title(审查):轨道的名称。运行软件是为了删除歌曲标题中任何潜在的显式单词。
- 计数:特定艺术家的歌曲数量表示在full_music_data.csv文件中。(整数)
-
思路分析
D题理解
问题中心:音乐的影响
题目要求:
(1)根据附件数据influence_data,构建音乐人之间的定向网络模型,或许会根据不同的音乐派别划分成多个子图,进而做出描述性分析与可视化;构建影响力指标表示音乐人的影响程度,可以参考复杂网络、聚类思想中的有向加权度指标。
(2)根据附件数据full_music_data 探讨不同流派音乐内部的相似性,可以参考聚类有效性评价指标DB、DUNN等,关键问题是需要我们构建相似性指标。
(3)分析不同类别音乐人或音乐之间的类内相似性差异,这些差异随时间是如何变化的,不同类别的音乐人或派系之间是否存在交互(文化背景等因素所导致)。
(4)分析不同派系的音乐中,影响者到连接者之间的影响力(Q1指标)是否存在明显差异或共性,如7种音乐特性与5种人声特征之间的规律。
(5)从数据中找出重大变革时间点,确定这些时间点的历史背景,确定主要的特征以更有效地表示这些飞跃,找出相关巨大贡献的艺术家。
(6)分析不同类型音乐随时间变化的影响过程(内部音乐人互相影响、外部不同派系音乐之间的影响)。提出综合指标来表示这种影响随时间的变化模式。
(7)该小问较难,一种可行的建议是从音乐人的作品数据(歌曲名、歌词等)中提取文本信息,获取主题词汇来表示时间、环境特征。
(8)模型推广。进一步研究模型的运行模式,以适用于更丰富的音乐数据集等。
这道题交叉性强,发挥空间大,工作量重,但并不难理解,适合有初步编程基础的同学下手。
详细思路
下面思路出处:DS数模公众号
音乐从一开始就是人类社会的一部分,是文化遗产的重要组成部分。为了理解音乐在人类集
体经验中所扮演的角色,我们被要求开发一种量化音乐进化的方法。当艺术家创作一段新的音乐时,有许多因素会影响他们,包括他们天生的创造力,当前的社会或政治事件,使用新乐器或工具,或其他个人经历。我们的目标是了解和衡量之前制作的音乐对新音乐和音乐艺术家的影响。
==分析==:题目中明确指出需要量化音乐,影响因素给出了天生的创造力,当前的社会或政治事件,使用新乐器或工具,或其他个人经历。在建模时,除给出的因素外,应当考虑其他因素,比如共用几种乐器,音乐人的年龄,音乐人的社会地位和在领域内的地位,艺术家所属领域的热门程度等。
目标是衡量之前制作的音乐对新音乐和音乐艺术家的影响,这里的之前制作的音乐是某艺术家之前制作的还是历史所有的音乐暂未表明,所以可能需要大家选择其中一个角度去建模,注意目标
是量化对新音乐、音乐艺术家(两个目标,两个模型)的影响。
一些艺术家可以列出十几个甚至更多的其他艺术家,他们说他们影响了自己的音乐作品。
也有人认为,影响可以通过歌曲特征(如结构、节奏或歌词)之间的相似程度来衡量。有时音
乐也会发生革命性的转变,提供新的声音或节奏,例如当一种新的流派出现,或现有流派的
重新发明(如古典、流行/摇滚、爵士等)。这可能是由于一系列的小变化,艺术家的合作努力,一系列有影响力的艺术家,或社会内部的转变。
==分析==:这段话的信息量非常大。首先艺术家之间的影响可以用人物关系图或知识图谱(较难)
来分析,其中的相似程度可以利用相关分析,热力图来量化和展示。歌曲特征除了提到的结构、节奏或歌词(在问题分析中会详细说明如何量化),还可以添加一些自己想到的特征。
对于后半段话,题目可能会问革命性转变的出现条件和概率,往往新的流派会较难出现,而重新发明会随着艺术家和相关作品的增加而提高出现概率。
许多歌曲都有相似的声音,许多艺术家为音乐流派的重大转变做出了贡献。有时这些变化
是由于一个艺术家影响另一个艺术家。有时是对外部事件(如世界重大事件或技术进步)的反应而产生的变化。通过考虑歌曲网络及其音乐特征,我们可以开始捕捉音乐艺术家对彼此的影响。也许,我们也可以更好地了解音乐是如何随着社会的变迁而演变的。
==分析==:背景说到音乐流派的重大转变是由于一个艺术家影响另一个艺术家或者外部事件(如世界重大事件或技术进步)的反应而产生的变化,这个是后面的模型建立需要的。后半段表示,题目可能会问到如何通过考虑歌曲网络及其音乐特征去量化音乐艺术家对彼此的影响,音乐是如何随着社会的变迁而演变的。你的团队已经被综合集体音乐(ICM)协会确定为一个衡量音乐影响力的模型。这个问题要求你审视艺术家和流派的进化和革命趋势。为了完成这个具有挑战性的项目,ICM 协会要求您的团队通过以下方式来探索音乐的演变,通过对音乐艺术家的影响来进行研究:
(1)使用 Influence_Data 数据集或其中的一部分创建音乐影响力的(多个)定向网络,其
中影响者连接到追随者。开发参数来捕捉这个网络中的‘music influence’。通过创建定向影
响 者网络的子网络来探索音乐影响力的子集。 描述此子网。 在这个子网络中, 你的‘music
influence’指标揭示了什么?
==分析==:influence 的数据集分析见文末的 附1 数据集分析,这里仅阐述解题思路。(后面的问题类同)
此题仅需要influence 数据集即可,如果有能力可以在这里建立一个知识图谱。实际此题的目
的是为了确定艺术家的音乐影响力,而建立所需要的定向网络就是让influence 中的影响者艺
术家和追随者艺术家之间产生映射联系。
我给出的方法是首先添加数据列音乐领域始祖,也就是对所有数据进行溯源,如果追随者和影响者的领域相同,找出影响者是追随哪个影响者的,这个需要代码实现。添加数据列影响人数,对于某一确定的影响者,找到被此影响者直接或间接影响的人数。做出领域人数表,计算出领域内的艺术家大师共有多少人。在相同领域,可以根据不同年份做可视化(折线图最好),观察并得出不同领域的巅峰年份(新生代人才最多的)。这时,子网络参数就算建立好了。然后建立misic influence 模型,可以建立综合评价模型(有很多,选择其一),这里选用灰色综合评价法,指标为此艺术家的影响人数,所在领域人数,所在领域年份人数,所在领域年份影响力排名(计算方法为:先筛选出艺术家所在领域此年份的所有人,然后根据影响人数进行排名),所在年份竞争力(这一年份的所有领域的艺术家总人数)。(对于模型的求解过程,在论文中以一个领域的一个年份进行展示即可)
(2)使用 FULL_MUSIC_DATA 或音乐特征的两个汇总数据集(具有艺术家和年份)来开发
音乐相似性度量模型。用你的衡量标准,流派内的艺术家比流派间的艺术家更相似吗?
分析:这里选用 FULL_MUSIC_DATA 数据集和第一问用到的数据集进行分析。题目的要求是开发音乐相似性度量模型,并判断是否流派内的艺术家比流派间的艺术家更相似。
由于指标很多,可以利用两种方法进行处理。1 可以利用相关分析探究各指标与受欢迎程度之间的相关关系,将相关性低的几个指标剔除。 2 可以利用主成分分析对数据进行降维
对于音乐相似性度量模型,需要用到FULL_MUSIC_DATA 数据集,关于如何处理数据集在文末附1。音乐相似性主要指的是两个音乐之间的相似程度,再对数据集进行数据清洗之后,可以用代码计算出音乐间的相似程度,常用皮尔逊相关系数和余弦相似度,可以看看下面的博客https://blog.csdn.net/weixin_39050022/article/details/80732249
除此之外,可以对其进行可视化,画出相关关系热力图,可以直观反映音乐间的相似性(挑6-10 个左右的歌曲即可,在论文中进行展示)
针对后一问,根据艺术家所属流派,对于艺术家进行聚类分析(DBSCAN 或者kmeans)查看流派内的艺术家与流派见的艺术家的相关关系,聚类分析展示出的图(不同流派用不同颜色的点)可以直观反映流派间与流派内的关系。
(3)比较流派之间和流派内部的相似之处和影响。流派的区别是什么?流派是如何随着时
间的推移而变化的?有些流派与其他流派有关联吗?
分析:进一步对第二问的结果进行数据挖掘,这一问前半问很简单,除了前一问的结果外,查阅一点文献,加上一些数据分析就可以了。
对于流派是如何随着时 间的推移而变化的,可以针对某一流派进行阐述,第一问介绍了时间推移此领域的新生代人数,除此之外也可以看这一领域此年份的发歌量,可以做折线图来看一个流派的兴衰。然后根据一些重要的时间节点,比如拐点或者增长率很高或很低的节点,查看FULL_MUSIC_DATA 数据集中对应的时间内,此领域或者乐坛发生了什么变化,是否有很著名的歌曲,或者由于别的领域火热,导致此领域人数,歌曲变少了。这里可以自行发挥,语文建模大家都很擅长haha,针对有些流派与其他流派是否有关联,可以看同一艺术家是否在不同流派发表了歌曲,或者不
同艺术家之间的影响关系(Influence_Data 数据集)。
(4)说明 DATA_influence 数据集中报告的相似性数据是否表明识别出的影响者实际上影
响了各自的艺术家。“有影响力的人”真的会影响追随者创作的音乐吗?是某些音乐特征比其
他特征更具“感染力”,还是它们在影响某个特定艺术家的音乐方面都扮演着相似的角色?
分析:对于前半问,“有影响力的人”真的会影响追随者创作的音乐吗?答案是肯定的,因为
后半问在问前半问肯定回答后的结论。
前半问需要大家发动自己的智慧,只要扯上关系证明真的会影响即可。对于后半问,可以针对性地做验证分析。某些音乐特征比其他特征更具“感染力”,可以参考前文说的相关性分析,也就是在FULL_MUSIC_DATA 数据集中利用相关分析探究各指标与受欢迎程度之间的相关关系,相关性更高,表示更有感染力。它们在影响某个特定艺术家的音乐方面都扮演着相似的角色,这个可以对一个有名的艺术家进行探讨,针对不同的指标,查看影响者与被影响者之间指标的相似程度,可以搞一个对比图、南丁格尔玫瑰图或者雷达图(后两个更好一点,在进阶思路中给出画的软件和方法),最后进行数据分析。
(5)从这些数据中找出音乐演进过程中是否有可能革命性(重大飞跃)的特征?在您的网络
中,哪些艺术家代表变革者(重大变革的影响者)?
分析:这个在前面的分析中说到了,就是观察折线图的拐点或者增长率很高或很低的节点,然后针对这一节点,分析为什么会出现这样的情况,将这一时期的艺术家和作品都列出来,查看作品的各个指标有什么比较突出的特点(突出不突出,就和所有作品的平均值做对比,与平均值差距很大则代表很突出),这样的特点就是题目中描述的革命性(重大飞跃)的特征
对于后半问就需要大家根据已有的结论自己寻找了,有了前面的基础(第一问的影响力不要忘了),这个很简单。对于这道题的结果可以以表格的形式呈现,可以看看突出显示表,画出来效果很好看。
(6)分析一种流派中随着时间发生的音乐演变的影响过程。您的团队能否确定能够揭示动
态影响者的指标,并解释流派或艺术家如何随着时间的推移而变化?
分析:这道题需要根据前面自己的结论得出答案,这里提示几点:1 每一个流派都有自己很突出的几个指标,将这几个指标找出来。 2 动态影响者的指标一定是更突出的,可以将欢迎程度作为重要指标。 3 对于单个艺术家,可以看看根据历史推移,做了哪些改变,歌曲的指标发生了什么变化。 4 语文建模题,加油!
(7)你的工作如何表达音乐在时间或环境中对文化的影响?或者,如何在网络中识别社会、政治或技术变化(如互联网)的影响?
分析:此问的目标是,如何在网络中识别音乐对社会、 政治或技术变化(如互联网)的影响。这一问可以参考大量文献和新闻,语文建模题。
这里提供一些我的想法,对于社会和政治而言,在和平稳定的年代与战争年代的歌曲特征是不一样的,冷战、二战、工业革命、互联网的高速发展可能对音乐有很大的影响,同样音乐也对这些历史事件有所影响。互联网的出现影响了音乐播放的形式,特别是现在的电子音乐对于以前的传统媒介,比如唱片机等影响很大,科学技术的发展可能也会导致人们对于音乐领域的爱好有所差异。向ICM 协会写一份一页纸的文件,说明使用你的方法通过网络了解音乐影响的价值。考虑到这两个问题数据集仅局限于某些类型,随后又局限于这两个数据集所共有的艺术家,你的工作或解决方案将如何随着更多或更丰富的数据而改变?建议进一步研究音乐及其对文化的影响。
ICM 协会,一个来自音乐,历史,社会科学,技术和数学领域的跨学科和多样化的团体,
期待你的最终报告。
写信这个是美赛的绝活,大家总结一下论文就好,内容在1-2 页都可以。注意信的格式,
还有就是信可以在目录后写,也可以在附录前写,可以参考以前的o奖论文。
不超过25 页的PDF 解决方案应该包括:•一页摘要表。
•目录。
•您的完整解决方案。
•给ICM 协会的一页文件。
•引用列表。
问题分析的重要修正:在一开始我是从题目开始看,用到什么数据集就去看看数据集,导致两个数据集没有看到。从第三问开始,大家根据那两个数据集可以减少一些我思路的难度,不过大体方向我的思路是没问题的,后几问我写了需要算的东西,其实在那两个数据集里面会有。
附1 附1 数据集分析
数据集来源:
1 代表音乐领域的影响者和追随者,这不仅来自艺人自己的报道,也来自行业专家的观点。
这些数据包含了过去90 年里5854 位艺术家的影响者和追随者。
2“full_music_data”2 为98,340 首歌曲提供16 个变量条目,包括舞蹈性、节奏、响
度和键等音乐功能,以及每种歌曲的artist_name和artist_id。这些数据用于创建两个
汇总数据集,包括:
a.艺术家“data_by_artist”的平均值,
b.表示年份“data_by_year”。
1 这些数据是从AllMusic.com上搜集来的
2 这些数据来自Spotify的API
注意:这些文件中提供的数据是更大数据集的子集。这些文件包含您应该用于解决这个
问题的唯一数据。
==分析==:这段话表明不可以另外找数据,必须得用美赛提供的D题数据,下面对每个
数据集进行分析。
influence_data.csv
数据集的指标分析:
influencer_id:影响者艺术家的标识号。部分可能是字符串数据类型,应全改为整数类型后再对数据集进行
后续处理。
influencer_name:影响者艺术家的姓名。一个id对应一个姓名
influencer_main_genre: 影响者艺术家的音乐流派。
influencer_active_start: 影响者艺术家开始音乐生涯的年份。
follower_id: 追随者艺术家的标识号。部分可能是字符串数据类型,应全改为整数类型后再对数据集进行后续处理。
follower_name:追随者艺术家的名字。
follower_main_genre: 追随者艺术家的音乐流派。
follower_active_start: 追随者艺术家音乐生涯的年份。
数据集的数据预处理:
首先剔除有空值的数据,这些数据是不完整的,不利于数据分析与建模。对于id和姓名
不对应的数据也应剔除,是异常数据。对于影响者开始音乐生涯的年份晚于追随者艺术家
音乐生涯的年份的数据也要剔除,是异常数据。
2. full_music_data.csv
数据集的指标分析:
artist_names:艺术家的姓名
artists_id:艺术家的标识号
danceability:衡量此音乐是否适合跳舞的指标。0 最不适合跳舞,1为最适合跳舞
energy:一种表示对强度和活动性的感知的量度。值为 0.0 表示最不充满活力,值为 1.0 表示最强烈/充满
活力。通常,充满活力的曲目给人的感觉是快速、响亮和嘈杂。例如,死 亡金属的能量很高,而巴赫的前
奏曲在音阶上得分很低。影响这一属性的感知特征包括动态 范围、感知响度、音色、起始率和总熵。
Valence:描述一首曲目所传达的音乐积极程度的一种衡量标准。值 0.0 表示最负,值 1.0 表 示最正。高
价的曲目听起来更积极(如高兴、欢快、欢快),而低价的曲目听起来更消极(如悲 伤、沮丧、愤怒)。
tempo: 曲目的总体估计速度,以每分钟节拍(BPM)为单位。在音乐术语中,节奏是给定乐曲 的速度或节奏,
直接从平均拍子时长得出。
loudness: 音轨的整体响度,以分贝(DB)为单位。值的典型范围在-60 到 0 db 之间。响度值 是整个音轨的
平均值,对于比较音轨的相对响度很有用。响度是声音的性质,它是物理强度 (振幅)的主要关联。
mode: 曲目的模态(大调或小调)、旋律内容来源的音阶类型的指示。主要由 1 表示,次要为 0。 key:估计
的音轨的整体数值。 为使用标准音调等级记法映射到音调的整数。 例如, 0=C, 1=C♯/D♭,2=D,依此
类推。如果未检测到 key 值,则的值设定为-1。
acousticness: 音轨是否是声学的置信度测量(没有技术增强或电子放大)。值 1.0 表示音轨的 可信度很高。
instrumentalness: 预测曲目是否不包含人声。在这种情况下,“噢”和“啊”的声音被视为器乐。 说唱或有声歌曲显然是“有声的”。器乐度值越接近 1.0,曲目中不包含声音内容的可能性就 越大。高于 0.5 的值用于表示乐器音轨,但随着该值接近 1.0,置信度会更高。
liveness: 检测曲目中是否有观众。活跃度值越高,表示实时执行曲目的概率越高。如果值 大于 0.8,则表示音轨处于活动状态的可能性很大。
speechiness:检测音轨中是否存在口语单词。越是专门的演讲——比如录音(例如脱口秀、有 声读物、诗歌),属性值越接近 1.0。大于 0.66 的值描述可能完全由口语单词组成的曲目。 介于 0.33 和 0.66 之间的值描述可能同时包含音乐和语音的曲目(分段或分层),包括说唱音 乐等情况。低于 0.33 的值很可能表示音乐和其他非语音轨道。
explicit:检测曲目中的显式歌词(TRUE(1)=是,是;FALSE(0)=否,不是或未知)。
duration_ms: 音轨的持续时间,以毫秒为单位。
popularity:这条音轨的受欢迎程度。该值将介于 0 和 100 之间,其中 100 是最受欢迎的。 人气是通过算法计算的,并且在很大程度上是基于曲目已经播放的总次数和这些播放的最近 程度。一般来说,现在播放 频率较高的歌曲会比过去播放频率较高的歌曲更受欢迎。 重复的曲目(例如,来自单曲和专辑的相同曲目)是独立评级的。艺术家和专辑的受欢迎程度 是从曲目受欢迎程度定量推导出来的。
year: 发行曲目的年份。(1921 年至 2020 年的整数)
release_date: 发行曲目的日期大多采用 yyyy-mm-dd 的格式,但是日期的精度可能会有所不 同,有些只是以 yyyy 给出。
song_title (censored): 曲目的名称。(字符串) 歌曲标题中任何潜在的明确单词已经被程序删 除。
count:特定艺术家的歌曲数量在 full_music_data.csv 文件中表示。 数据预处理及数据分析
可以看到这个数据集的指标还蛮多的,里面有字符串、整型、布尔型、浮点型等,为了第
二问量化模型,需要对这些数据进行统一处理。
首先,为了统一标准,将整形,布尔型统一变为0 到1 之间的浮点型,其中对于不是0
到1 的数据,需要用到数据的标准化将数据映射到0-1 之间,标准化不仅可以有利于模
型的建立,而且可以消除量纲对数据的影响。
对于发行日期,由于release_date列有的是年份,有的是年月日,所以在数据分析时将
此列剔除,保留year 列。
对于song title,可以添加歌名单词数这列,将其作为影响指标之一。
- 点赞
- 收藏
- 关注作者
评论(0)