建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块

花花

发帖: 53粉丝: 21

级别 : 版主

Rank: 7Rank: 7Rank: 7

发消息 + 关注

发表于2018-12-5 15:31:17 6912 10 楼主 显示全部楼层
[活动/宣传] 【有奖征集】#好故事#说一说你与运维的那些事儿,惊喜大奖超出你想象!

20181205-151518(eSpace).png


这些年

你一定听到很多运维段子,也背过很多锅

无数次想说走就走

奈何放不下这一份炽热

你与运维

一定有过许多

解不开说不尽的爱与恨

你也一定沉淀了许多江湖不传之绝世武功秘籍


终于,你也练就了火眼金睛

任何BUG都无法从你眼皮底下溜过


终于,你从青铜,成为了王者

如此大咖怎能被埋没!


今天,请用300+字

说出你的故事

分(吐)享(槽)使用华为AOM的心得

即可参与投票,票数最高建议,就可以获得意外大奖哦~


活动时间:2018年12月7日-10日

参与方式:本贴留言回复+产品使用心得、意见和建议

要求:真情实感,建设性内容,字数300+

投票时间:2018年12月10日

投票方式:在《7天运维实战营学习》群内发起评选投票

奖品:投票top3的内容提供用户将同时获得《智能运维:从0搭建大规模分布式AIOps系统》一本+华为小天鹅无线蓝牙音箱1个+华为云服务500元代金券;




 示例 

作者:Xiaojias


华为7天运维实战营体验


   我很高兴参与了华为7天运维实战营的活动,其中的理论加实践的结合让我对华为的相关产品有了更全面的认知。虽然我在运维监控方面有多年的经验,但是其中有些理论与实现方式还是全面更新了我的观点,也是真的可以解决传统监控方案中的一些痛点,值得推荐。

 

主机监控

相比与传统的监控告警解决方案,这里有几个亮点非常值得推荐:

  • Agent的轻量化

Agent安装包小,安装简单。另外采集器配置中有些功能值得推荐和拓展,如内存检测机制(当内存使用量达到一定阀值是停止检测)这种Agent自管理行为。

  • 阀值规则定义简单化

阀值规则和告警规则的定义界面简介明了,直接交给用户,简化了实现客户需求的复杂流程。

  • 应用服务监控的多角度视图

应用监控中从拓扑到服务,主机直到事务的列表,为定制监控提供了详细的数据源。

 

AOM提供了详尽的可定义单元和参考数据源,但是:

  • 感觉对于大规模部署,还是缺少一些现成的解决方案。例如,当vmal应用被自动发现之后,是否有一些现成的阀值规则直接应用上去。例如:当某个应用被发现之后,能不能立即应用一些缺省的阀值及告警规则到所有事务,主机,服务及一切相关的组件上去。

  • 其次,对于Agent批量部署与规则定制好像还要完善。例如:阀值规则能不能AND / OR 及其他复杂条件;

  • 当然,对于一些基本的告警规则的定义,或许已经在后台运行,或者还有待开放。例如:      告警的去冗余,聚合      以及调用相关动作;

 

日志

本方案包含了日志服务的相关内容:收集,存储,查询,分析及报表。也是简单明了,操作方便。但是我没有看到日志的监控,不知道是不是我没有找到地方或者暂时还没有这个功能。

 

APM

APM用户界面简洁,全面, 从链路拓扑细致到事务跟踪分析, 给客户提供了不同的视角需求。针对demo案例的所展现出来的界面非常友好。

 

但是如果APM用于大量应用,展现出来的界面不知道会不会兼顾简洁与全面, 我想这也是用户关心的。

 

APM 探针部署(java应用探针)方面:本方案给出的是直接修改java启动参数,个人感觉还是有点简单粗暴

在有些监控中,每个类型的APM探针是属于单独的Agent Agent先去自动发现启动的服务,然后修改截获的服务生成单独的事务日志及配置文件。这样的好处是:

1)     基于事务的日志单独列出来了,便于后续的分析,处理及监控告警;

2)     Agent探针独立于应用,有单独的配置与日志,运维简单;

3)     这个类似与sidecar,用户体验或许不一样。                                            




举报
分享

分享文章到朋友圈

分享文章到微博

servus

发帖: 2粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-12-5 16:05:11 沙发 显示全部楼层

不错

点赞 回复 举报

aprioy

发帖: 188粉丝: 31

级别 : 版主

Rank: 7Rank: 7Rank: 7

发消息 + 关注

发表于2018-12-5 19:54:00 板凳 显示全部楼层

挺好。

点赞 回复 举报

xiaojias

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-12-7 11:18:32 地板 显示全部楼层
谢谢,没想到就把我推上来了
点赞 回复 举报

linuxwu

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-12-7 21:27:26 5# 显示全部楼层

华为7天运维实战营体验

 

 很高兴参与了华为7天运维实战营的活动,让我深入学习到华为AOM运维管理模块的功能。感谢这些天帮助我的@华为应用云小助手 和群里热心的学友。下面分享一下我个人的心得体会。

 

ECS主机创建

    界面友好,创建简单,描述也清晰。



主机监控

        客户端部分

·         IC-Agent 监控客户端

    客户端安装简单,无需像zabbix和nrpe等监控客户端配置复杂,只需要根据华为云的AK和SK生成自己的客户端,一条命令就搞定了所有的事情。批量部署也是十分容易的时候,无需安装太多依赖关系包。

3.jpg


告警中心

         告警列表

     优点:告警列表清晰,拥有告警过滤功能。

     期望:期望可以自行定义级别故障名称和数量

     通知规则:

    优点:支持邮件和短信,但是都有数量限制

    期望:期望增加微信接口,可以增加多条件判断通知。比如触发器规则等。

    阀值规则:

    优点:阀值定义清晰,操作简单快捷。

    期望:如果支持动态批量增加就好了。

    

4.jpg

   

日志管理

         日志管理功能全面,定义日志文件位置,日记定时收集和存储支持多重定义等。但是最希望华为云能做到日志数据智能分析功能,

Mobile

         这个版本确实还是存在BUG,我自定义后的APP名称,当我刷新或者多次切换列表的时候。这里面就会什么都不显示,找不到我定义的APP。希望能够尽快修复.

2018-12-07_221018.jpg

智能分析

         具备根据历史趋势提供相应的职能分析。里面只能定义一项功能,如果支持OR或者AND等多条件并列查询就更好了(也是有是我没发现)

4.jpg


点赞1 回复 举报

linuxwu

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-12-7 21:27:50 6# 显示全部楼层
发重复了
点赞 回复 举报

张金玉

发帖: 1粉丝: 2

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-12-10 22:39:08 7# 显示全部楼层

虽然我做不知道研发还是运维,还是什么

但是我喜欢运维,在我的印象中运维是一件很牛逼的事情,是一件很神圣的事情,是一件很光荣的事情,是一件高大上中的高大上的事情。

运维在我理解为研发+运维。梦想着一个人管理者几万台物理机(虚拟机)容器。就像诸葛亮一样,运筹帷幄之中决胜千里之外。

坐在家里电脑前,连接上VPN,登上公司机房机器,千里不留痕,自有解决之道。最不想的事情就是夜晚休息的时候被手机惊醒。


https://blog.csdn.net/xsjzdrxsjzdr/article/category/8467621

在7天的时间里,总结了华为的运维之道(虽然还少两篇)算是给华为做个小广告,贡献一下我的个人力量吧。 

在2019年的时间里,致力于AIOPS智能运维。智能运维更是神圣中的神圣,把人有限的精力释放出来做更有意义的事情。

AIOPS,除了会所有的监控,还要懂得,容器,云计算openstack, 大数据离线数据分析,在线数据分析,数据实时流,ELK ,AI,应用软件, go, java ,Linux内核等很多很多知识。


在7天时间里经历了华为应用性能管理APM和应用运维管理AOM,被华为的设计思路和设计思想惊讶了。 无法用语言来形容华为产品的美好和心情的美妙。包含了虚拟机,物理机,容器,应用API等很多内容的监控,是一项很大的工程。 

但是华为产品中一直有个我希望和得到想要的内容。 目前AI很火很多,GPU芯片,不知道为什么在华为产品中一直没有体现出来。 

不管在容器还是虚拟机中,得到的结果,只有两个字 (下架)很伤心,很伤心。 


期望着和建议:华为能够在产品中加入GPU(虚拟机centos,linux操作系统的开源镜像)和GPU(容器镜像) 

点赞1 回复 举报

孤独的背影

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-12-10 23:15:53 8# 显示全部楼层

第一次接触华为云,也是第一次了解运维


在接触这次实战运维之前觉得运维很简单,实际上是没有那么简单的,运维中涉及到很多方面的知识与技术,这让我感到自己的短板,只有不断的学习,不断的扩宽自己的眼界,才能运维的道路走到更远


这次的运维实战中了解到了运维,之前一直以为运维就是维修以及组建网络,在这次的实战中体验了一次运维的魅力,简单的操作就可以清晰的展示服务的运行,AOM运维管理模块、智能化的运维方式,APM性能管理、日志的管理分析,这些的学习深化了我的运维路程,美中不足的是这次实战的理论当面不是很理解,还有就是这次运维实战的环境只支持JAVA环境,一些功能有待开发,希望华为能将这套运维管理体系做的更加完善、功能更加智能化


点赞 回复 举报

小冲

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-12-10 23:29:12 9# 显示全部楼层

华为云7天运维实战营总结

      很高兴也很激动能够有这样幸运的机会来参与华为为期7天运维实战营的活动,我从中学习到了十分智能的AOM运维管理模块的功能。之前也有用过阿里云、腾讯云的类似的功能,还是感觉华为云的处理更好一些。

      AOM包括四大类数据,分别是指标(Metrics),日志(Logs),调用链(Traces)和各种事件告警(Events)。

      指标数据(metrics):既有IaaS层资源指标,也有PaaS层应用资源指标,客户所用云服务业务指标、客户业务自定义指标(由客户根据自身需求主动上报)。

      日志数据(logs):客户指定的业务和各种中间件的运行日志。

      调用链数据(traces):客户通过非侵入式方法获得的调用链数据,典型的场景就是用户应用是采用Java开发的。如果业务应用是其他开发语言开发的,那么只需要在代码中引入SDK或者直接按照标准格式上报调用链数据即可接入平台。

      事件及告警(events&alerts):客户应用主动上报的各种事件和直接告警信息,还有根据预定义规则产生的事件和告警。

      我知道,运维是一个伟大的职业,运维人员的要求特别严苛,因为运维人员针对不同的问题,需要不断的补充扩大自己的知识和研究范畴。这几年逐渐出来的容器、智能运维、智能监控,都是一些新的东西,都需要我们去掌握。2019年,我们继续努力去学习掌握更多有用的知识,使得自己学的更多。

      最后,再次感谢@华为应用云小助手和其他帮助过我的热心朋友们,衷心谢谢你们,同时希望华为云可以越做越好,越做越强,越做越智能。

点赞1 回复 举报

张金玉

发帖: 1粉丝: 2

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2018-12-10 23:33:31 10# 显示全部楼层
小冲 发表于 2018-12-10 23:29 华为云7天运维实战营总结      很高兴也很激动能够有这样幸运的机会来参与华为为期7天运维 ...

好厉害

点赞 回复 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册