Tags:
,
view all tags
---+ Plantões Computacionais %Completo_3_% %BR% #TheMotivation ---++ Descrição Manter os procedimentos para monitoração da farm em uma checklist para sistematizar e agilizar esse procedimento <TABLE width="85%" cellpadding="2%" cellspacing="1%"> <TR> <TD valign="top"> #LatestNews ---++ Últimas notícias * *[24 Outubro 2008]* Jobrobot não está rodando nas farms. Problema conhecido. ---++ Table of contents %TOC{title="Nessa Twiki você encontrará:"}% </TD> <TD valign="top"> ---++Links importantes * [[http://www.example.com][link nao existe]] </TD> </TR> </TABLE> #ShiftTasks ---++ Tarefas para o pessoal em plantão O plantonista deve 1. *Monitorar e reportar os problemas*:O plantonista deve repassar a lista rapidamente (*somente os itens com a barra verde*) e, em caso de problemas, reportar ao resto do pessoal, repassando *totalmente* esta checklist a cada 2 horas. Assim os outros membros podem ter uma resposta mais rápida sobre os problemas da farm. Quando você for fazer o report, o faça pelo e-mail sprace_ops@googlegroups.com, com o link e o maior número de informações possível. <HR> ---+++ Antes de começar * Verificar o *Estado Geral do Cluster* --- %Completo_5_% * Faça o *Monitoramento pelo Ganglia* %Completo_5_% %TWISTY{id="FARMGANGLIA" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Reporte a quantidade de nós "down" que você vê em [[http://osg-ce.sprace.org.br/ganglia/][URL-1]]. Verifique se algum node possui load> número de cores +1, para dar alguma folga de processamento. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 nós x 100 Mbytes/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.%ENDTWISTY% * Verifique os *Emails do Logwatch* %Completo_5_% %TWISTY{id="FARMEMAIL" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Verifique em um terminal da osg-ce os e-mails enviados pelo logwatch dos nodes <pre> su - pine </pre> Verifique principalmente o espaço em disco dos servidores principais e tentativas de acesso às máquinas.%RED% Somente necessário no início do seu plantão.%ENDCOLOR% %ENDTWISTY% * Verificar o *Estado Geral do Computer Element* %Completo_5_% * Verifique o *Load dos Servidores* %Completo_5_%%TWISTY{id="LOADCE" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Use [[http://osg-ce.sprace.org.br/ganglia/][URL-1]] para verificar um load maior do que 15, para osgce, osgse, storage01 e storage02. Caso positivo reporte. %ENDTWISTY% * Verifique o *Status do OSG* %Completo_5_% %TWISTY{id="OSGdaCE" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Observe a sequência de comandos abaixo e tente reproduzi-la:<pre>. /OSG/setup.sh /OSG/verify/site_verify.pl </pre>Qualquer erro neste script reporte a lista.%ENDTWISTY% * Verifique o *Status do Condor* %Completo_5_% %TWISTY{id="CONDORdaCE" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Você deverá verificar três coisas: a primeira é se algum node não está com o condor funcionando:<pre> condor_status</pre> Verifique se todos estão listados e confira o estado ("busy" ou "idle"). A segunda é verificar se a farm não está saturada<pre> condor_q </pre> preste atenção a última linha deste comando. Se houver algum job em estado "held" reporte a lista. Se a quantidade de jobs "idle" form maior do que 700, também reporte. O terceiro check é feito com <pre>condor_q -run|grep 2+ </pre>, verificando os jobs que estão rodando com mais de dois dias na farm. Coloque o output no seu e-mail %ENDTWISTY% * Verificar o *Estado Geral do Storage Element* %Completo_5_% %TWISTY{id="STATUSSE" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Verifique na [[http://osg-se.sprace.org.br:2288/cellInfo][URL1]] se existe algum serviço não disponível. Na [[http://osg-se.sprace.org.br:2288/usageInfo][URL2]] verifique a quantidade de espaço disponível. Alerte caso o espaço disponível seja inferior à 10 GB%ENDTWISTY% * Verifique as *Transferências srm* %Completo_5_% %TWISTY{id="SRMSE" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Teste uma transferência usando o protocolo srm, da osg-ce <pre> . /OSG/setup.sh grid-proxy-init srmcp -2 --debug=true file:////tmp/teste.sh srm://osg-se.sprace.org.br:8443/pnfs/sprace.org.br/data/mdias/teste srmrm srm://osg-se.sprace.org.br:8443/pnfs/sprace.org.br/data/mdias/teste </pre>. Qualquer erro relate%ENDTWISTY% ---+++ OSG-RSV * Verifique o *Estado do Condor-cron* %Completo_5_% %TWISTY{id="CONDORCRON" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Em um terminal verifique o status dos jobs <pre> condor_cron_q</pre>Verifique se algum job está "held" , ou se pelo menos três estão em estado "R"%ENDTWISTY% * Verifique o *Estado do OSG-RSV* %Completo_5_% %TWISTY{id="OSG-RSV" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Observe nossa própria monitoração [[https://osg-ce.sprace.org.br:8443/rsv/][URL-1]] (valores em amarelo para cacert-crl-expiry são ok). Verifique se as datas de alguns probes estão conferindo com o que você vê em [[https://lcg-sam.cern.ch:8443/sam/sam.py?sensors=OSGCE®ions=OpenScienceGrid&vo=ops&order=SiteName&funct=ShowSensorTests][URL-2]]. Qualquer probe em vermelho, ou as datas entre os sites não correspondem reporte para a lista. %ENDTWISTY% ---+++ SAM * Verifique o *Estado dos testes do SAM* %Completo_5_% %TWISTY{id="SAM" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Acompanhe o estado dos probes utilizados pelo CMS SAM utilizando esse link [[http://lxarda13.cern.ch/dashboard/request.py/latestresultssmry?siteSelect3=T2T1T0&serviceTypeSelect3=vo&sites=T2_BR_SPRACE&services=CE&services=SRMv2&tests=1301&tests=133&tests=111&tests=6&tests=1261&tests=76&tests=64&tests=20&tests=281&tests=882&exitStatus=all][URL1]]. Qualquer cor diferente do verde por mais de 2 horas deve ser reportada. Verifique o tempo do último teste (pela cor, quanto mais claro, mais velho e passando o mouse por ele). Se for maior que 12 horas, reporte. A situação geral do site, monitorada pelo CMS center é mostrada aqui [[http://lxarda16.cern.ch/dashboard/request.py/siteviewhome][URL2]]%ENDTWISTY% ---+++ !JobRobot * Verifique os *Estado do !JobRobot* %Completo_5_% %TWISTY{id="JOBROBOT" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Verifique a página do !JobRobot [[http://belforte.home.cern.ch/belforte/JobRobot/][URL1]]. Verifique a porcentagem "EFFICIENCY" estiver abaixo de 60 % reporte%ENDTWISTY% * Verifique o *Status do CEMon* %Completo_5_% %TWISTY{id="CEMON" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Em *um node* tente reproduzir os comandos abaixo <pre>. /OSG/setup.sh ldapsearch -x -LLL -p 2170 -h is.grid.iu.edu -b mds-vo-name=SPRACE,mds-vo-name=local,o=grid condor_status -pool osg-ress-1.fnal.gov -l -constraint "GlueCEInfoHostName == \"osg-ce.sprace.org.br\"" </pre> (prepare-se para um output gigante!)%ENDTWISTY% ---+++ !PhEDEx * Verifique os *Agentes do !PhEDEx* %Completo_5_% %TWISTY{id="PhEDExAgent" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Esses agentes devem ficar verdes (tolerância de 30 min, pois eles podem estar "busy" com alguma transferência). Check [[http://cmsweb.cern.ch/phedex/prod/Components::Status][URL1]] e [[http://cmsweb.cern.ch/phedex/debug/Components::Status][URL2]] %ENDTWISTY% * Verifique a *Qualidade de transferências no !PhEDEx* %Completo_5_%%TWISTY{id="PhEDExTransfer" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Verifique a qualidade das transferências na instância Debug [[http://cmsweb.cern.ch/phedex/debug/Activity::QualityPlots?graph=quality_all&entity=link&src_filter=.*&dest_filter=T2_BR_SPRACE&no_mss=true&period=l96h&upto=][URL-1]] e na instância Production [[http://cmsweb.cern.ch/phedex/prod/Activity::QualityPlots?src_filter=.*;period=l96h;no_mss=true;dest_filter=T2_BR_SPRACE;upto=;entity=link;graph=quality_all][URL-2]]. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.%ENDTWISTY% ---++ Comentários sobre a checklist %TWISTY{mode="div" showlink="feedback do Marco" hidelink="Hide Feedback do Marco" remember="off" firststart="hide" showimgleft="%ICONURLPATH{toggleopen-small}%"hideimgleft="%ICONURLPATH{toggleclose-small}%"}% * Comparar a atividade %ENDTWISTY% %TWISTY{mode="div" showlink="Other comments" hidelink="Hide other comments" remember="off" firststart="hide" showimgleft="%ICONURLPATH{toggleopen-small}%"hideimgleft="%ICONURLPATH{toggleclose-small}%"}% * %ENDTWISTY% ---++ Registro dos Plantões Efetuados %TWISTY{mode="div" showlink="Registro dos Plantões" hidelink="Esconder lista" remember="on" firststart="hide" showimgleft="%ICONURLPATH{toggleopen-small}%"hideimgleft="%ICONURLPATH{toggleclose-small}%"}% %EDITTABLE{format="|date, 10, %SERVERTIME{"$day/$month/$year"}%, %d/%b/%Y |text,20|"}% | *Data* | *Nome* | | 19/Oct/2008 | Marco Dias | | 22/Oct/2008 | Allan Szu | %ENDTWISTY% #AvailableShifters ---++ Lista de plantonistas disponíveis Abaixo a lista de pessoas disponíveis e quantidade de plantões até agora | *Nome* |*Quantidade*| | Marco Dias| 1 dia| | Allan Szu| 1 dia| #ImportantContacts ---++ Contatos * Qualquer problema entre em contato com <a href="mailto:mafd@cern.ch">mafd [at] cern.ch</a> <BR> #ReviewStatus ---++ Revisões %TWISTY{mode="div" showlink="Show reviews" hidelink="Hide reviews" remember="off" firststart="hide" showimgleft="%ICONURLPATH{toggleopen-small}%" hideimgleft="%ICONURLPATH{toggleclose-small}%"}% | *Data* | *Autor* | *Página Modificada?* | *Comentários*| | 19 Outubro 2008 | Marco Dias | sim | Criação da página | %ENDTWISTY% <!-- * Set Completo_0_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete0.png" alt="COMPLETE0" title="COMPLETE0" /> * Set Completo_1_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete1.png" alt="COMPLETE1" title="COMPLETE1" /> * Set Completo_2_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete2.png" alt="COMPLETE2" title="COMPLETE2" /> * Set Completo_3_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete3.png" alt="COMPLETE3" title="COMPLETE3" /> * Set Completo_4_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete4.png" alt="COMPLETE4" title="COMPLETE4" /> * Set Completo_5_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete5.png" alt="COMPLETE5" title="COMPLETE5" /> --> -- Main.MarcoAndreFerreiraDias - 19 Oct 2008
Edit
|
Attach
|
P
rint version
|
H
istory
:
r11
<
r10
<
r9
<
r8
<
r7
|
B
acklinks
|
V
iew topic
|
Raw edit
|
More topic actions...
Topic revision: r8 - 2008-10-24
-
MarcoAndreFerreiraDias
Home
Site map
Main web
Sandbox web
TWiki web
Main Web
Users
Groups
Index
Search
Changes
Notifications
RSS Feed
Statistics
Preferences
P
View
Raw View
Print version
Find backlinks
History
More topic actions
Edit
Raw edit
Attach file or image
Edit topic preference settings
Set new parent
More topic actions
Account
Log In
Copyright © 2008-2025 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki?
Send feedback