un blog de Radu Dumitru

►► canalele mele de YouTube: youtube.com/RaduDumitru (personal) și youtube.com/NwraduBlog (tech) ◄◄

Cauza problemelor ING: un test al sistemului de stingere cu Inergen a afectat întreg data center-ul

11 Sep 2016  ·

TEHNOLOGIE  ·

106 comentarii

A apărut explicația oficială privind problema ING-ului de sâmbătă:

Ieri, in timpul unui test planificat al sistemului de stingere a incendiilor din centrul nostru de date, eliberarea gazului Inergen a afectat in mod grav si neasteptat mai multe servere si sistemul de stocare a datelor.

In consecinta, au fost afectate toate serviciile conectate: tranzactiile cu cardul, operatiunile la bancomat, serviciul de internet banking, sistemele de comunicare si website-ul www.ing.ro. Ca urmare, o mare parte din tranzactii nu au mai putut fi procesate. De asemenea, si comunicarea cu clientii a fost mult intarziata, tot din cauza imposibilitatii de a accesa baza noastra de date.

Am activat de urgenta procedurile si planurile de recuperare prevazute pentru astfel de situatii. Insa din cauza magnitudinii si complexitatii defectiunilor, din pacate timpul necesar pentru restaurarea activitatii prin sistemul de back-up a fost mai lung decat in cadrul testelor pe care le efectuam regulat. (scrisoarea lor oficială, trimisă și ca email clienților)

Varianta de pe Digi24 adaugă și “Mai mult decât atât, pentru a asigura deplină integritate a datelor, am efectuat o copie adiţională a bazei de date înainte de a începe restaurarea sistemului, ceea ce a prelungit perioada de indisponibilitate a serviciilor.”

Nu înțeleg de ce au planificat un astfel de test și nici măcar de ce l-au făcut. La începutul ilustrei mele cariere am fost product manager pe detecție de incendiu și știu câteva lucruri despre sistemele de stingere cu inergen. Oxigenul este un gaz care întreține arderea, dar există gaze care nu fac asta, iar principiul de stingere se bazează pe pomparea de astfel de gaz inert în încăperea respectivă.

Inergen-ul, în particular, este numele unui amestec de 52% azot cu 40% argon și cu 8% dioxid de carbon. Eliberarea lui se face cu presiune foarte mare, pentru a umple rapid camera cu astfel de gaz, iar în cazul ING se pare că supra-presiunea a afectat hard-disk-urile din servere.

Un astfel de sistem de stingere este mai scump și se montează acolo unde stingerea cu stropitoare de apă nu ar fi posibilă, de exemplu în centre de date sau alte zone unde NU vrei să dai cu apă.

schema_inergen

(schiță via tehnisting.ro. Vedeți acolo detectoarele de fum de pe tavan (2) conectate la o centrală de detecție și alarmare (8) care comandă eliberarea gazului din butelii (7) prin sistemul de distribuție (5 și 11))

electronic_arts_romania_07

(în această fotografie, făcută în alt datacenter din România, puteți vedea buteliile cu gaz inert. Numărul de butelii este dictat de dimensiunile camerei.)

Testele, însă, nu se fac niciodată prin activarea reală a buteliilor, nu când ai deja echipamente funcționale în respectiva incintă. Buteliile de inergen sunt presurizate la 200 de bari, iar descărcarea lor poate avea efecte secundare precum distrugerea tavanului fals, iar camera arată ca după o tornadă. În plus, distrugi sistemul de deversare și trebuie înlocuite foarte multe componente ale acestuia. În cazul unui incendiu real toate acestea nu sunt o problemă, e ca și cum te-ai plânge că trebuie înlocuit airbag-ul la o mașină după ce ți-a salvat viața într-un accident real. Dacă ai declanșa însă airbag-ul la fiecare inspecție ITP, n-ai mai fi fericit.

Pentru testare se folosesc mai multe proceduri. Majoritatea testelor se desfășoară la instalarea sistemului, înainte de PIF, când se testează prin diverse metode anumite puncte critice ale acestuia. Este camera suficient de bine izolată pentru a ține gazul inert în ea? Funcționează detecția de incendiu? Se declanșează buteliile? Țevile care dispersează gazul în toată camera sunt curate și bine conectate? Valvele rezistă la 200 de bari + încă 50% încărcare?

Odată finalizată procedura de testare și punere în funcțiune, sistemul este armat și nu mai umbli la el. Pe termen lung, ai încredere că buteliile sunt bine fabricate și nu se strică, iar la expirarea perioadei lor de valabilitate se înlocuiesc cu unele noi.

Ce-a testat ING-ul? Nu știu. Poate că au vrut să facă un test cu o butelie specială pentru testare, de capacitate mică și la 10% sau 20% din presiunea normală de lucru, pentru a se asigura că totul funcționează, iar ceva n-a mers bine. S-a declanșat sistemul la o altă presiune, s-a declanșat o butelie normală, n-au calculat bine, a apărut o defecțiune în valve, a “pocnit” ceva. Poate că testul a mers ca la carte, dar hard-diskurile respective au picat chiar și așa.

Update: din ce-au declarat reprezentanții ING pentru Andrada, deversarea gazului inert s-a făcut la o presiune mult mai mare decât se așteaptau, ceea ce a produs un sunet foarte puternic la trecerea prin sistemul de distribuție (probabil un șuierat ca la un claxon cu aer comprimat) și acel sunet a produs o vibrație în hard-disk-uri. HDD-urile nu sunt foarte rezistente la șocuri și vibrații, capetele de citire și platanele sunt elemente fine și care se pot defecta.

Totuși, să faci astfel de teste și apoi, când ceva nu merge bine, să dureze 8 ore până se repară totul pare o greșeală de planificare a testului. Așa arată combinația problemă majoră + weekend + perioadă de concedii pentru personal cheie + lipsa unor proceduri clare de gestionat o criză extinsă.

În caz că vă întrebați de ce n-au avut backup, au avut. Doar că problema a afectat întreg data center-ul, pe când backup-ul este gândit de obicei ca serverul 1 din data center să aibă o copie de siguranță pe serverul 2 din același data center. Situația de acum a afectat toate sistemele, motiv pentru care întâi au făcut încă o copie adițională a sistemului și apoi au trecut la repornirea lui. Au și backup-uri externe, off-site cum se spune, tocmai pentru astfel de situații, doar că punerea lor în funcțiune nu este o chestie de secunde, ci de ore.

Emailul de la ING spune și următoarele:

Ne pare rau ca v-am dezamagit pentru ca nu am comunicat in primele ore dupa incident. Insa defectiunea ne-a afectat si sistemele de comunicare (website, sms, mail-uri) – acesta a fost motivul pentru care nu v-am putut trimite mesaje lamuritoare.

Chiar si asa, pentru a raspunde solicitarilor clientilor echipa noastra de Suport Clienti a fost suplimentata in regim de urgenta cu inca 70 de colegi.

Regretam nespus acest incident si neplacerile pe care vi le-a pricinuit, pentru care ne asumam intreaga responabilitate. Astfel, pentru retragerile de numerar de la bancomatele altor banci efectuate ieri va vom returna comisioanele aferente acestor retrageri. Daca indisponibilitatea platilor cu cardul v-a generat cheltuieli suplimentare, va rugam sa ne contactati la numarul *2ING ( 031 406 2ING) sau contact@ing.ro pentru a discuta solutionarea problemei.

 

Acum, ce să zic… măcar problema nu a produs pagube reale, ci doar mulți nervi. De exemplu e plin pe net și la știri despre situația de la ING, în timp ce situația unor casiere de la o altă bancă, ce au furat aproape 3 milioane de lei din conturile clienților băncii, abia dacă a fost precizată zilele trecute. Consider acel incident unul mult mai grav, mai ales că nu-i primul în România.

ING a aflat acum pe propria piele că pot fi și dezavantaje atunci când clienții tăi sunt în marea lor majoritate tineri și știu să folosească social media. Singura consolare este că, oricât de mult te-ai pregăti pentru neprevăzut, neprevăzutul te poate surprinde, că de asta poartă acest nume. Poate mai țineți minte situațiile când a picat sistemul de ticketing pe la câte o mare companie aeriană și mii de zboruri au fost anulate zile întregi.

Eu sunt client ING din 2009 cu conturi personale și business. Povestea asta nu mă va face să renunț la ele. Am conturi la alte două bănci și, comparându-le, pot să vă spun că Homebank este mult în fața altor sisteme de Internet banking de la concurență. Am mai remarcat anul acesta vreo două mici căderi de Homebank, dar nimic care să mă înstrăineze de ei.

Am, însă, carduri la alte două bănci, după cum vă spuneam. Un backup nu strică niciodată și soluția asta chiar m-a salvat de câteva ori în străinătate, unde uneori anumite carduri nu merg și basta. Vă sfătuiesc pe toți să aveți o astfel de soluție de backup. Puteți găsi aproape oricând o bancă ce oferă, măcar promoțional dacă nu permanent, costuri zero în primul an sau doi pentru un cont curent și un card de debit. Puneți niște bani și în acel cont, ca backup, și asta e.

Chiar și așa, nu-mi place nici cum gestionează ING situația post-criză. Vor rambursa cheltuielile suplimentare cauzate de indisponibilitatea plăților cu cardul? Care ar putea fi acestea, câțiva lei plătiți pentru a scoate bani de la altă bancă? Cheltuielile suplimentare au fost minime sau zero. Serviciul a fost picat timp de 11 ore din cele 8760 ale unui an, nici așa nu poți calcula vreo despăgubire.

Nervii și rușinea de a ajunge la casă în hipermarket și să nu-ți meargă cardul sau de a spune în restaurant “băi, a fost bună masa, dar nu am cum să vă plătesc” sau de a pierde ore întregi la recepția unui hotel deoarece nu poți plăti camera nu sunt așa ușor de transpus în bani. Cum ar fi să ai coșul plin de mobilă la casă la IKEA, după ce le-ai luat pe toate cele necesare de pe rafturi, și să nu poți plăti timp de 11 ore?

În locul ING, eu anunțam că toți clienții afectați nu vor plăti taxa de administrare card, Homebank și SMS timp de un an. Încă sper că asta vor face luni, după ce țin vreo mare ședință. Ar fi singurul lucru care ar face clienții să spună “băi, jos pălăria, au greșit, dar au oferit o compensație pe măsură!”. Mingea e în terenul vostru, ING!

    106 comentarii

  1. Sa spui ca nu au fost pagube reale, ci doar multi nervi mi se pare un pic ciudat. Unii retailer au POS-uri de la ING. Pentru ei, a insemnat o scadere in vanzari. Altii, nu au POS de la ING, dar au clienti care au card de la ING. Care nu au putut sa le plateasca.

    Gandeste-te ca retailerul respectiv investeste in logistica, marketing, salarii, facility management si cand sa i se intoarca banii… nu se poate. Daca nici astea nu sunt pagube reale…

      (Citează)

    • Crezi ca in contractele dintre lanturile de magazine si ING… nu scrie nimic de uptime-ul serviciilor? :) Sincer, ma indoiesc ca cei de la ING nu vor plati cu varf si indesat ceea ce a fost ieri.
      Dar na, din afara totul pare ca scapa doar cu niste scuze.

        (Citează)

    • Mă refeream pentru clienți acum, că magazine n-am văzut să se plângă pe net. Nu cred că au scăzut așa mult încasările, nu sunt mulți cu POS-uri ING și nici mulți clienți care să nu aibă și ceva bani cash la ei.

      Să vezi distracție în hipermarket când pică întreg sistemul de carduri. Am pățit în ianuarie, era haos. Se mai întâmplă.

        (Citează)

  2. Nu faci simulare cu munitie de razboi niciodata. Asa ca ori au avut un incendiu pe bune in DC, asemeni celor de la Delta Airlines, ori vreun “inginer” a lucrat pe modelul celor de la Cernobil pentru ca pana la urma ce dracu’ s-ar putea intampla rau?

      (Citează)

    • Poate fi orice. Poate a intrat unul cu țigara aprinsă la servere și chiar a declanșat pe bune stingerea. Nu vom afla prea curând.

      Totuși, dacă ar fi ceva complet diferit până la urmă s-ar afla și cei de la ING s-ar face și mai de râs pentru că au mințit. Nu cred că riscă asta.

        (Citează)

    • Evident ca este o scuza mai mult decat puerila….din cate stiu eu (si expertii care mai intra pe aici poate sa confirme), o butelie cu gaz inert nu are un cost de neglijat, respectiv costa in jur la 5.000 euro, fara TVA….daca sunt mai multe butelii costurile cresc proportional, si nu cred ca ei si-au propus sa sparga cateva mii de euro, doar asa ca sa vada daca sunt functionale….

        (Citează)

    • Costul buteliei nu contează față de costul de a avea o defecțiune în sistem (adică mai bine îl testezi contra-cost decât să riști să nu fie funcțional), dar cred că se folosesc butelii speciale de test sau nici măcar nu se testează acestea.

        (Citează)

  3. Tu presupui ca s-a inamplat fix cum au zis ei ?. Eu nu cred…
    Au gasit o scuza pentru ca probabil cauza reala o fi prea stupida, sau greu de admis ( hackereala!?)…
    Sigur -doar parerea mea…
    Acum 2 saptamani – n-a mers sistemul cateva ore. Saptamana trecuta la fel … Sigur – nu asa de grav si nu in weekend… Tot testarea sistemului antiincendiu? ?

      (Citează)

    • Dacă a fost complet altceva, se va afla și ING se va face de râs că au mințit. Prin urmare, nu am mari motive să cred că nu s-a întâmplat ce-au zis ei.

        (Citează)

    • Radu, serios? Se va afla si se vor face de ras? Nici macar vrajeli de adormit copiii nu le pot spune la vorbele tale. Regula nr 1 de PR e sa nu spui ca ai fost hackuit si sa nu recunosti vreodata ca ti-a fost copiata toata baza de date – tre sa ascunzi totul sub pres in cazuri din astea, altfel e de rau. Tu nu vezi ce s-a intamplat cu site-urile mari, ca abia acum in 2016 s-a aflat ca le-au fost copiate bazele de date cu totul (vezi dump-urile de zeci de milioane de account data de la linkedin, dropbox etc), in timp ce aia au negat ca ar fi fost ceva. Si nu li s-a intamplat nimic, nu s-au facut de ras etc, sunt bine-mersi. Dropbox a resetat parolele abia in 2016… desi stiau din 2012 ca toate conturile le-au fost compromise, intrucat intreaga baza de date cu parole le-a fost copiata.

      Doar gandeste-te o secunda ce ar insemna pentru o banca sa spuna: oameni buni, ni s-a copiat toata baza de date cu toate informatiile personale – pai in urmatoarele 24 de ore se face o isterie nationala, toata lumea face coada sa isi retraga banii, probabil banca respectiva ar intra in faliment si intregul sistem bancar s-ar zgaltai din radacini – nu o sa vezi asa ceva vreodata, ca o banca anunta ca i-a fost copiata baza de date, nici macar BNR nu ar lasa asa ceva sa fie transmis catre public.
      PS: intreaga lor explicatie e un mare bullshit, explicatii complet puerile si mincinoase – au backup redundant in minim 2 locatii din orase diferite, cu comutare real-time in caz de dezastru (BNR face anual teste la fiecare banca pe chestia asta).

        (Citează)

  4. Cum stiu cati clienți au fost afectați?

      (Citează)

    • Raspunsul e simplu: toti.

        (Citează)

    • Imposibil de calculat, iar să anunțe ei cifra n-ar fi în avantajul lor.

        (Citează)

    • Este simplu….prezinti chitanta emisa de POS sau bancomat prin care tranzactia nu a putut fi procesata….acesti clienti ar trebui clar compensati….mai greu cu cei care au dorit sa foloseasca homebank-ul, pentru ca primesc doar un mesaj temporar pe telefon…bine si in acest caz, poti face poza cu alt telefon (apropos, mobilebanking-ul nu functiona nici azi – 12.09.2016, ora 09:30).

      Oricum, si eu am aceeasi parere cu autorul…sunt mult peste concurenta….insa aceasta vine tare din urma si sufla in ceafa, asa ca depinde mult de modul in care ING alege sa isi fidelizeze clientii afectati.

        (Citează)

  5. A venit un dorel sa vada cum merge. A zis sa-i faca un test si buteliile alea sunt domino doar una e cea care declanseaza. Nu este primul caz in lume… Au murit si oameni cand tot la teste au declansat sistemul cu oamenii in incapere.

      (Citează)

  6. Mie chestia asta mi-a deschis a doua oară ochii. Pentru mine a fost al doilea strike de la ING. De regulă, la 3 strike-uri rup relațiile cu orice și oricine, acum sincer mă gândesc să pun punct aici pentru că eu consider că au greșit grav. Iar când e vorba de banii mei, mie îmi place să risc doar pe mâna mea, nu pe a altora.

    Eu am fost și cu coșul plin de chestii într-un magazin de bricolaj, ceva gen 3500 lei. Mi-am cerut scuze și am plecat cu coada între picioare. Cardul 2, de la banca 2 care o folosesc drept backup era acasă. De acum o să-l port cu mine.

    Astfel:
    – de ce nu s-a activat un alt server redundant, evident din altă locație? Probabil pentru că n-au. Vor să țină costurile jos. Economiile mele se justifică să le țin la o bancă unde ăia se zgârcesc ?
    – testele le-au făcut că erau planificate, sau din greșeală ? Din experiență știu că teste în datacentere se fac, dar profesioniștii le fac în weekend și noaptea (gen orele 2-4 dimineața). Ori e amatorism ori e o eroare a sistemului de protecție. În cel de-al doilea caz, e clar că soluția evidentă e un failover server într-o altă locație, dar dacă oamenii nu-l au ?!
    – cum declară chiar ei, să mai faci un backup atunci când arde, înseamnă că fie au intrat la intervenție niște puști amatori, fie cine a coordonat intervenția era complet nepregătit fie erau (toți) nesiguri pe ce back-up-uri au. Îmi doresc să lucrez cu niște oameni care se poartă așa ?
    – cică n-au putut trimite comunicări că a picat și serverul ală, din același datacenter. ==> amatorism și zgârcenie. Oare așa au organizată informația/serverele și în Olanda ?
    – Din cele de mai sus tind să cred că nu au datacenter dedicat doar lor. Voi ați mai auzit să aibe și alte site-uri mari probleme ? Sau doar serverele lor au avut probleme ?

    Si pentru închidere: dacă eu am de rambursat bani către ei și îi anunț la final de zi că am avut o problemă cu laptopul care a fost mâncat de pisică oare m-ar fi păsuit sau începeau direct cu recuperatori ?

    Eu le-am dat și mail cu câteva întrebări pertinente, ca și mai sus. În funcție de răspunsul lor voi decide dacă renunț la ei sa nu. Evident, răspunsuri punctuale nu au dat, doar un copy paste la comunicatul de presă și scuze. De fapt nu au vrut să răspundă că garantează un uptime al sistemului de 99,999%. Concluziile le trageți singuri.

    Mi-aș fi dorit ca un organism gen BNR să-i călărească și să obține date concrete. Că așa pe cuvântul lor nu prea merge.

      (Citează)

    • Nu stiu cum este la alte banci dar din experienta mea cu ING nu se intampla nimic daca nu poti rambursa niste bani in momentul in care este programat. Pur si simplu sistemul va reincerca sa faca rambursarea ulterioara, chiar si a doua zi. Am patit o data lucrul asta si mi-am dat seama doar ziua urmatoare.

      Legat de uptime, nici Google nu are 99.999. Gmail si Google Apps au avut 99.984 in 2010, iar clientilor business le garanteaza un uptime intre 99.0 si 99.9.

        (Citează)

    • @Ariel: greu de răspuns la ce întrebi tu.

      Poate că s-a activat vreun alt server redundant, dar nu cred că această operațiune este instantanee. Ideea la backup-ul offsite este să-l ai ca să ai din ce pune la loc datele, dar nu musai să pornească instantaneu.

      Cât despre ora testelor, dacă e cum zic ei, testau sistemul de stingere a incendiilor, nu software-ul bancar ca să facă asta la 3 noaptea. Nu se așteaptau ca una să ducă la alta.

      Nu știu dacă datacenterul e în clădirea lor sau la un furnizor de asemenea servicii, dar mai mult ca sigur că este într-o încăpere separată pentru a controla bine accesul acolo. Prin urmare, serverele altor companii nu aveau de ce să fie afectate de sistemul din acea cameră.

      Cât despre comunicate… cine știe, poate că datele de contact ale clienților erau pe serverul picat și n-au avut cui trimite notificări.

      În mod normal ANPC sau BNR ar putea trece pe acolo pentru a vedea ce și cum. Există diverse reguli pentru sistemele IT bancare, dar o “anchetă” din asta va dura suficient de mult încât să uităm cu totul de problemă. Acum e doar așa, un weekend fără alte știri.

        (Citează)

    • Radu, nu e doar backup, e un sistem de servere *redundant* – adica totul merge de 2 ori, in locatii geografice diferite. De-asta se si cheama asa, disaster recovery, pentru ca in caz de dezastru (de ex: cutremur, explozie etc) sa se comute instantaneu pe al 2-lea server, sa nu fie niciun downtime. BNR anual face teste, asigurandu-se ca e functional sistemul, e exclus sa nu le fi fost functional tocmai acum. BNR tace malc in toata povestea asta, evident, doar nu or sa iasa ei sa spuna ca serverele unei banci de la noi au fost compromise si ca datele urmeaza sa se publice pe dark web, nu?

        (Citează)

  7. A intrat la servere cineva cu un note 7.

      (Citează)

  8. Nu, backup-ul nu se face deloc asa. Nu se face back-up la un server pe alt server in acelasi datacenter. Ala nu il considera nimeni backup. Defapt, sistemele de HA si DR sunt obligatorii prin norme BNR, si presupun exact backup pe alta masina in alt site care este site de Disaster Recovery in alt datacenter. Obligatoriu. De la BNR. La fel, trebuie sa aiba redundanta pentru liniile de date, energie electrica. Cand asa ceva se intampla, daca nu ai HA, HA care nu iti intrerupe nicio secunda sistemele intr-o situatie ca aia de ieri, macar poti ridica masinile in DR in timp rezonabil. Nu in 10 ore. Si nu mai ai de ce sa te apuci sa faci backup! Pai daca ei chiar s-au apucat de backup ieri, numai la ING sa n-ai bani. Asa cum au curs lucrurile ieri,ei n-au HA, iar procedura de Disaster Recovery e absolut nefunctionala.

    Procedurile de backup si restore sunt muuult mai complexe decat un backup la o masina in acelasi datacenter, si sunt si obligatorii prin norme BNR. Ei bine, ei chiar n-au un DR functional.

      (Citează)

    • “de la bnr”, “norme bnr”, “bnr cere”… da, corect, si toate bancile romanesti se supun, dar srl-urile din olanda nu.

      Are ING atata control pe bloaggeri si pe mass-media ca 90% din clienti habar nu au ca ei nici macar nu sunt inregistrati ca banca in Ro si nici sumele nu sunt garantate de statul roman (ci de cel olandez, paradis fiscal, care in caz de ceva, cu siguranta o sa se gandeasca fix la scla…. cetatenii romani).

      Popam ca prostii banii in fundul uneia dintre cele mai jegoase natii din europa (drogalai si fatalai), care in afara de invartit bani si un port nu produce nimic.

        (Citează)

    • Eu nu știu ce backup-uri are ING, dar mai mult ca sigur au datele replicate și în interiorul aceluiași datacenter, că așa începi și apoi te extinzi off-site.

      Mă îndoiesc că e vreo companie care nu face backup și în interiorul aceluiași datacenter, iar eu la asta mă refeream când am zis că au fost toate afectate. Backup-ul offsite o fi mai greu de accesat, nu știu.

        (Citează)

    • Boris: 90% din clienti habar nu au ca ei nici macar nu sunt inregistrati ca banca in Ro si nici sumele nu sunt garantate de statul roman (ci de cel olandez, paradis fiscal, care in caz de ceva, cu siguranta o sa se gandeasca fix la scla…. cetatenii romani).

      Sumele garantate de Olanda sunt aceleași ca cele garantate de România, adică 100.000 de euro/client. Olanda este țară membră UE, ca și România, și are deci de respectat aceleași legi bancare.

      E scris totul în contractul pe care-l semnezi și în regulile de autorizare pe care le impune BNR.

      Dacă dă faliment banca, eu mai degrabă am încredere că Banca Centrală a Olandei îmi va da banii înapoi, în timp ce BNR-ul probabil va spune “stai așa, că tocmai am luat niște limuzine… nu avem acum”.

      De asemenea, tot pentru că suntem în UE nu prea mai are importanță în ce țară este banca la care-ți ții bani.

        (Citează)

  9. Ah, acum am vazut comentariul lui Ariel. Are perfecta dreptate.

      (Citează)

  10. Hai, toata lumea conturi la BRD.

      (Citează)

    • HAHA ce gluma buna.
      Tocmai la BRD mi-am luat-o si eu prin 2008. Era ziua nuntii. Noroc ca aveam si banii offline acasa. Pe atunci probabil nu se facea atata tamtam pentru ca nu se statea pe bancomate si internet banking ca acum.

        (Citează)

    • eu eram ironic, dar plm. Se fapt ma voiam sa zic BCR =))

        (Citează)

  11. Cum sa PLANIFICI un test in plina zi si fara sa IL ANUNTI in prealabil?

    Logica imi spune ca unde vorbim de sisteme critice in cazul unor teste sau revizii sau orice situatie de gneul asta se planifica cu mult timp si multa atentie si se asigura BACKUP chiar si in regim de avarie.

    Tot logica imi spune ca iti anunti clienti inainte “bah vedeti ca maine noapte intre orele 3-5 oprim sistemul pentru revizie”.

    Acum nici o luna Banca Transilvania a avut un incidident similar, cine urmeaza?

    Tind sa cred ca problema a fost mai grava decat ni se prezinta.

      (Citează)

    • Sâmbăta este o zi lejeră pentru mediul bancar, că nu lucrează așa mulți clienți business. De asemenea, ei n-au oprit sistemul IT, ci au testat o butelie de gaz. Nu se așteptau să apară probleme la IT.

        (Citează)

  12. Deversarea substanței de stingere în incinta respectiva nu are legătură cu testarea sistemului. Sistemul se testează pe partea de detecție, si nu pe partea de stingere, cu robineți buteliilor în poziție închisă, existând chiar un sistem de întârziere a deversarii, în cazul unei erori. Exista cel puțin doua filtre care preîntâmpina declanșarea nedorita a sistemului. Poate fi vorba despre un lanț de erori umane. N vreau sa fiu în pielea firmei care asigura mentenanta sistemului.

      (Citează)

    • Ceea ce spui tu este 100% corect, insa mie mi se pare ciudat gazul folosit, pare sa fie o zgarcenie mare la mijloc. La munca in datacenter avem un gaz care nu produce axfisierea persoanelor prinse inauntru, acesta actioneaza fix in zona incendiului pe baza caldurii degajata de foc si nu are nici un fel de impact asupra HDD-urilor.

        (Citează)

    • Sebastian: Sistemul se testează pe partea de detecție, si nu pe partea de stingere, cu robineți buteliilor în poziție închisă, existând chiar un sistem de întârziere a deversarii, în cazul unei erori.

      La asta mă gândeam și eu, că nu se dă drumul la gaz la primul semn de fum, ci întâi se dă o alarmă, ca să confirme cineva fumul ăla.

      Din ce înțeleg, zgomotul produs de eliberarea rapidă a gazului a distrus hard disk-uri, deci probabil că n-au controlat bine presiunea. Sunt detalii fine pe care le vom afla foarte greu sau niciodată.

        (Citează)

  13. Eu lucrez ca developer la o banca (in afara Romaniei) si pentru orice sistem avem unul identic de DR (disaster recovery) situat in alt datacenter dintr-o alta locatie (distanta > 500 km intre ele). Cum sa faci sistemul de back-up in aceeasi cladire cu cel de productie? N-am mai auzit asa ceva.

      (Citează)

  14. Toti astia ce lucreaza la alte banci si se lauda cu HA-uri sunt probabil ca si cei de la ING ce se laudau si ei cu HA inainte de evenimentul de ieri. Pana nu te loveste o situatie de dezastru cu adevarat ai HA doar pe hartie si n-ai idee daca si functioneaza sau nu.

    Asa ca mai incet.

    Da, lucrez si eu cu clustere enterprise la operatori de telefonie mobila si pana una alta singurul scop al HA-ului a fost sa nu fie outage in cadrul operatiunilor de mentenanta planificata. Daca apare una neplanificata sunt tare curios daca merge totul la fel de uns.

    Asta cu HA e ca si planurile de pandemie. Dau bine pe hartie dar fereasca sfantul sa te loveasca. Intra si factorul uman ce greseste, stres, alte chestii.

    Iar despre cei ce vor sa li se garanteze un SLA de 99,9999% pe an… nu pot sa spun decat: hahahaha. Cam restul de 0,0001% inteleg ei din viata.

      (Citează)

    • Iar cand te loveste si HA-ul chiar functioneaza, iar clientii nu stiu absolut nimic ca tu ai avut probleme, ai idee ca chiar ti-ai facut treaba bine.

      Asa ca mai incet.

      Daca voi folositi HA doar ca sa nu fie outage in cadrul operatiunilor de mentenanta planificata, nu inseamna ca altii fac la fel. Chiar daca HA-ul nu merge ca uns, tot nu dureaza 10 ore sa ridici masinile in DR. Ca sa ai HA, trebuie sa ai cluster cu noduri activ-activ, din care minim un nod in site DR, astfel ca nu ai intrerupere. N-a fost cazul lor, ei n-au HA deloc. Dar macar DR functional. Macar clustere activ-pasiv, cu noduri pasive in DR si backup in DR. N-au avut nici asa. Ei nu au o solutie functionala de Disaster Recovery, asta e problema. Poti sa imi spui tu mie, cand tu ai masinile down si pretentia ca esti o banca care e obligata sa aiba DR functional de catre BNR, care e scopul pentru care tu te apuci sa faci backup inainte de orice? Iti pot spune eu. Pentru ca nu au solutie de failover functionala, indiferent ca e activa, pasiva etc. Iar asta e o mare problema.

        (Citează)

    • Pare genul de situație ca-n accidentele aviatice: înveți din greșeli, post-factum. Înainte de ele te poți pregăti cât de bine poți, dar se pot întâmpla atât de multe încât la un moment dat tot faci o bubă mare.

        (Citează)

  15. Eu cred ca un programator a dat-o-n bara

      (Citează)

  16. Este cam ciudat sa le pice sistemul de la un test al sistemului de stingere a incendiilor, dar nu imposibil. Gazul folosit este inert, nu conduce curentul electric, dar este foarte rece. Frigul rezultat poate sa fi dus la niste contractii ale metalului din diferitele echipamente folosite, mai ales daca stocarea datelor era pe hard disk-uri cu platane.

    Daca foloseau SSD-uri de data center, cum ar fi si normal de altfel pentru ca 1s intarziere poate insemna miliarde pierdute, stocarea nu ar fi patit mai nimic cred. SSD-urile nu au parti in miscare, nu au prea mult metal in ele si nu stocheaza informatia magnetic.

    Sa rulezi un astfel de test sambata dimineata, cand toata Romania este la cumparaturile saptamanale este dovada de prostie si indolenta de nivel olimpic.

    Sa nu intri imediat pe fb sa anunti problema si sa astepti 6 ore ca sa zici ceva, la fel, de nivel olimpic. Exista totusi telefoane si laptopuri de firma pentru cei din departamentul de marketing si comunicare al ING. Situatia le-a scapat in mod clar de sub control si i-a luat valul in loc sa explice imediat ce problema au, ce se face si cat dureaza pana la remediere.

      (Citează)

    • Nu cred că se justifică SSD-urile în data centere uzuale, ci doar în câteva aplicații foarte speciale. Acolo unde sunt mie personal mi se pare că sunt folosite doar ca să ia ochii clienților.

      Bankingul, cu toate aplicațiile sale, este un sistem foarte lent. Un HDD e mai mult decât suficient.

      Sâmbătă e mai bine decât în timpul săptămânii, când se plimbă bani mulți între conturi și se fac plăti, încasări, se dau salarii șamd. În weekend banca practic stă degeaba, oricâți oameni ar fi la cumpărături.

        (Citează)

    • Gaelex: Gazul folosit este inert, nu conduce curentul electric, dar este foarte rece. Frigul rezultat poate sa fi dus la niste contractii ale metalului din diferitele echipamente folosite, mai ales daca stocarea datelor era pe hard disk-uri cu platane.

      Nu sunt sigur de asta. Buteliile stau acolo în cameră, sunt la aceeași temperatură cu mediul înconjurător, adică vreo 14 grade sau cât e într-un datacenter aerisit.

      Din câte țin minte din termodinamică, p/T este constant, deci dacă crește presiunea în cameră, crește și temperatura. Frigul de care vorbești este de obicei observat pe butelii pentru că în interiorul lor scade presiunea și asta duce la o răcire tot în interior și apoi a pereților.

        (Citează)

    • Nu ai vazut sambata cum sunt cozile de la toate casele din toate retailurile? Se aduna ceva tranzactii de procesat, din toata tara.

      Gazul din acele butelii este lichid si deci foarte foarte rece, chiar daca ii maresti volumul tot ramane foarte rece, pentru ca sunt multe grade sub zero.

        (Citează)

    • Se alege weekendurile pentru testare tocmai pentru ca sunt mai putine tranzactii in aceasta perioada si ai cat de cat timp sa iti repui infrastructura in functiune….daca era zi bancara, cu siguranta era si mai grav, fiindca bancile sunt conectate la mai multe infrastructuri terte de compensare-decontare (ex. Transfond, SWIFT)….si pot aparea diverse situatii neplacute (ex. ne-executarea ordinelor de plata, dublarea de plati daca activezi patforma de back-up si intre timp porneste si aia din site-ul principal, fara sa anulezi mesajele de plata din coada de asteptare, sau nu rutezi corespunzator platforma (ex. principal sau DR) prin care sunt directionate mesajele de plata venite de pe diversele canale de plata – internet banking, mobile banking, etc.)….ma rog, diverse situatii care ar trebui descrise si documentate in procedurile ref. continuitatea operationala.

        (Citează)

  17. Dacă sistemul era făcut de Dumnezeu, aveam pretenția să fie perfect. Cum e făcut de oameni, mă aștept să mai dea greș, chiar dacă ce să vezi ? costă bani !
    Ia, terminați-vă cu critica ! Vreți 100% disponibilitate ? Țeapă, pe planeta asta nu se poate ! Poate în Rai, dacă aveți noroc să ajungeți acolo la Sfîrșit, dar îmi spune pipota că nu există așa o bazaconie.
    Deci, reiterez: terminați-vă cu critica !

      (Citează)

  18. Ciprian:
    Iar cand te loveste si HA-ul chiar functioneaza, iar clientii nu stiu absolut nimic ca tu ai avut probleme, ai idee ca chiar ti-ai facut treaba bine.

    Asa ca mai incet.

    Daca voi folositi HA doar ca sa nu fie outage in cadrul operatiunilor de mentenanta planificata, nu inseamna ca altii fac la fel. Chiar daca HA-ul nu merge ca uns, tot nu dureaza 10 ore sa ridici masinile in DR. Ca sa ai HA, trebuie sa ai cluster cu noduriactiv-activ, din care minim un nod in site DR, astfel ca nu ai intrerupere. N-a fost cazul lor, ei n-au HA deloc. Dar macar DR functional. Macar clustere activ-pasiv, cu noduri pasive in DR si backup in DR. N-au avut nici asa. Ei nu au o solutie functionala de Disaster Recovery, asta e problema. Poti sa imi spui tu mie, cand tu ai masinile down si pretentia ca esti o banca care e obligata sa aiba DR functional de catre BNR, care e scopul pentru care tu te apuci sa faci backup inainte de orice? Iti pot spune eu. Pentru ca nu au solutie de failover functionala, indiferent ca e activa, pasiva etc. Iar asta e o mare problema.

    Ti-am inteles punctul de vedere. Voiam sa spun ca ce HA au unii pe hartie nu corespunde cu ce se intampla in realitate. Si chiar daca ai proceduri, stresul de moment il face pe cel ce aplica procedurile sa greseasca.

    Nu cunosc situatia de la ING, din ceea ce spui tu reiese ce nu respectau o gramada de norme. Fiind la curent cu alte norme de securitate pot spune ca un audit de genul asta se ocupa si de cine are acces in garajul cladirii de birouri si cum se obtine el. Sunt mai mult decat foarte sceptic ca in Romania certificarile astea se obtin pe bune.

    Revenind la ideea de dinainte, sunt foarte multi curajosi ce tin teorii despre cum e cu HA si DR-ul dar n-au trecut niciodata printr-o situatie de genul asta ca sa vada cu adevarat cu ce se mananca treaba.

    In cazul de fata n-am inteles de ce-au dat drumul la gaz intr-o zi de sambata cand on-call de obicei nu e cel mai bun om din firma si aia care stiu cum merg lucrurile probabil sunt beti/mahmuri pe undeva prin Vama Veche.

    Probabil cand au facut estimarea de riscuri au fost foarte siguri pe ei ca-i ca si cum ar trage unul un fel de besina ce stinge focul ce n-are impact asupra serverelor. Dar iata :)

      (Citează)

    • Sincer, eu nu cred chestia asta, ca faceau ei teste. Eu nu cred ca au dat ei drumul la gaz. Chiar citeam o explicatie ca testele nu se fac oricum cu eliberare de gaz, ci fara. Cum e si normal. Un lucru e cert, ei n-au avut nicio solutie de failover. Ceea ce e absolut aberant. E absolut aberat sa te apuci, cu masinile down, cu toate sistemele crapate, sa faci backup. Daca se apuca sa faca backup in situatia asta, in loc sa se apuce sa ridice masinile, inseamna ca n-aveau solutie de failover.

        (Citează)

  19. este ora 18.30 si homebank-ul nu merge, acum la 18 ore de la asa zisa remediere….
    si BRD a avut acum o luna, intr-o zi de luni, o cadere totala de 3 ore…si nu si-au cerut scuze…
    deci…sa incercam alte banci, cu oualele noastre…:-)

      (Citează)

  20. expert in aparatura radar, metalurgie, incendii. oare ce o urma ? :v

      (Citează)

    • Deaia e informatie pe internet, sa te documentezi daca te intereseaza.

      Daca tu nu vrei sau nu esti capabil nu te baga, lasa pe altii.

      Vezi-ti de culesul porumbilor si stransul prunelor ca tot e sezonul.

        (Citează)

    • Si la masini, sofat, wait, si tu, Iudă?!

        (Citează)

  21. iuie mng

      (Citează)

  22. In unele articole care nu sunt de pe la noi s-ar zice ca nu de la presiune ci de la undele de sunet din timpul declansarii sistemului s-ar produce pagubele pe hard disk-uri. Informatia integrala aici: http://www.datacenterjournal.com/inert-gas-data-center-fire-protection-and-hard-disk-drive-damage/

      (Citează)

    • Damage is not due to a chemical reaction—the gases used are inert and naturally occurring in our atmosphere and pose no danger to HDDs.
      Damage is not due to air pressure in the data center. IGFSS systems do release a large volume of gas, but as previously mentioned, the data center is designed with a vent system that limits pressure buildup to less than one PSI. The drives have a “breather hole” that allows equalizes the inside of the HDD with the higher pressure outside, but the air first passes through a multistage filter in the HDD, which prevents contamination. Work done by Siemens4 and failure analysis by HDD suppliers on failed drives shows that the air pressure is not the issue.
      Damage is not due to temperature change. IGFSSs release about one-third of the data center’s volume in gas when deployed. The gas is stored at high pressure, so when it is released and falls to normal atmospheric pressure, the temperature does drop some. If you enter the data center after the release, you will notice it is slightly cooler than it was previously, but this is not a problematic change for the HDDs.
      What is the real problem? Acoustic noise. When the gas is released from the pressurized cylinders it moves through the pipes at very high velocity. On exit through multiple nozzles in the data center, it generates high-level acoustic noise. The noise reaches the HDDs where it causes vibration, which in turn causes the read/write element to go off the data track. Current-generation HDDs have up to about 250,000 data tracks per inch on their disks. To read and write, the element must be within ±15% of the data track spacing. This means the HDD can tolerate less than 1/1,000,000 of an inch offset from the center of the data track—any more than that will halt reads and writes.

        (Citează)

    • Da, până la urmă acel sunet tot un efect al suprapresiunii este, dar măcar au explicat mai bine ce s-a întâmplat.

        (Citează)

    • In acest video se poate observa cat de sensibile sunt hdd-urile la zgomote:

      https://www.youtube.com/watch?v=tDacjrSCeq4

        (Citează)

  23. HA HA HA HA HA, ING-ul avea backup-ul in acelasi Data-Center

      (Citează)

  24. backup pe server in aceeasi locatie? oare si conexiunile de backup de net sunt de la acelasi provider?

      (Citează)

  25. Eu ma bucur ca a fost incidentul asta la ING, cu ocazia asta am putut face un recensamant al specialistilor in banking, situatii de criza, incendii etc de pe internet.

    Rezultatul e bun si confirma asteptarile: cam toata lumea se pricepe si la astea :)

      (Citează)

  26. Ce nu înțeleg:
    Cum adică rambursează comisioanele plătite scoțând bani de la alte bănci?
    Sistemele băncilor sunt interconectate, dacă eu vreau sa scot 1000 de lei de la alt POS , banca face un request înainte sa vadă dacă in contul meu chiar exista banii respectivi.
    Ma lămurește cineva? Dacă le-au fost indisponibile toate serviciile cum s-a întâmplat asta?

      (Citează)

    • Habar n-am, e mister mare legat de acel paragraf. Poate că sistemele care interogau solvabilitatea ta erau funcționale. Nu mergeau altele legate de homebank, rețeaua proprie de bancomate, conexiuni cu POS-uri șamd. Cine știe ce baze de date există, cât de mari sunt și cum sunt interogate?

      Oricum, ce să-ți dea înapoi, 3 lei? Pierzi mai mult timp cerându-i. De asta zic că despăgubirea ar trebui să fie alta.

        (Citează)

    • Nu mergea sa scoti nici de la alte bancomate, testat la 4 banci.

        (Citează)

    • Sistemul poate functiona si off-line….decontarea intre banci se face prin mastercard sau visa (in cazul cardurilor), sau infrastructurile terte de compensare-decontare (ex. SWIFT, Transfond), iar atunci cand nu poate accesa o banca, tranzactiile sunt trimise intr-o coada de asteptare pana cand poate fi receptionate de banca care a intampinat probleme.

        (Citează)

    • Inclusiv la carduri de debit?

        (Citează)

  27. @NWRadu & ceilalți: ce înseamnă acronimul HA?

      (Citează)

  28. D4n:
    High Availability

    Thanks!

      (Citează)

  29. brain wash muh ?

      (Citează)

  30. De ce nu au facut testul Duminica la ora 01 sau 02 AM cand majoritatea sunt acasa si dorm?

      (Citează)

    • Pentru ca n-a fost un test, a fost o problema majora care nu pot sa o faca publica. La fel s-a intamplat si acum 2 saptamani, doar ca a durat putin. Nimeni nu face teste ziua in wd, fara sa anunte si inaintea unor sarbatori/evenimente(inceputul anului scolar).Asa ca au aruncat momeala cu gazul.

        (Citează)

    • Ai dreptate cumva – testele de gen se fac vineri noaptea ( 3-5 dimineata ) astfel incat daca apar probleme sa le poti repara peste weekend. Nu e o idee buna sa faci mentenante duminica.

      Buba cea mare este planul de Disaster Recovery si sistemele de High Availability – chestii care nu au functionat asa cum trebuie.

        (Citează)

  31. E ok sa aiba backup in aceeasi locatie, nu mai vorbiti prostii. Ala e backup in caz ca pica 1-2 harddiskuri si pt asta nu e nevoie sa faci backup la 500 km.

    Ce nu e ok e sa ai backup doar in aceeasi locatie, adica trebuie sa ai prin lege si Disaster recovery.

    Sunt convins ca ING au si DR, ca nu se joaca.

    Totusi e clar ca lucrurile au mers ca dracu, de la testarea asta complet aiuristica cu eliberarea gazuluu pana la backup.

    Apropo, cum au facut backup daca datele la care au facut backup erau pe hardurile care au crapat? Poate au facut backup la backupul existent, pentru ca in caz ca nu faceau functionau fara backup.

    Cine stie ce-a fost, dar pare intr-adevar un major failure in termen de strategie de Disaster Recovery.
    Nu e ok ca banca sa stai atatea ore fara serviciu daca nu a fost cutremur devastator sau bomba. Serios, un incendiu e cel mai banal eveniment, e primul pe care il acoperi, deci este inacceptabil.

      (Citează)

  32. Doar atat: Mr. Robot was there :)))

      (Citează)

  33. nwradu:
    @Ariel: greu de răspuns la ce întrebi tu.

    Poate că s-a activat vreun alt server redundant, dar nu cred că această operațiune este instantanee. Ideea la backup-ul offsite este să-l ai ca să ai din ce pune la loc datele, dar nu musai să pornească instantaneu.

    Cât despre ora testelor, dacă e cum zic ei, testau sistemul de stingere a incendiilor, nu software-ul bancar ca să facă asta la 3 noaptea. Nu se așteaptau ca una să ducă la alta.

    Nu știu dacă datacenterul e în clădirea lor sau la un furnizor de asemenea servicii, dar mai mult ca sigur că este într-o încăpere separată pentru a controla bine accesul acolo. Prin urmare, serverele altor companii nu aveau de ce să fie afectate de sistemul din acea cameră.

    Cât despre comunicate… cine știe, poate că datele de contact ale clienților erau pe serverul picat și n-au avut cui trimite notificări.

    În mod normal ANPC sau BNR ar putea trece pe acolo pentru a vedea ce și cum. Există diverse reguli pentru sistemele IT bancare, dar o “anchetă” din asta va dura suficient de mult încât să uităm cu totul de problemă. Acum e doar așa, un weekend fără alte știri.

    Ceva pute rau de tot aici dar e posibil sa aflam in timp. Daca datacenterul este certificat ISO 27001 sunt obligati sa aiba un alt DC la minim 160Km care se pune in functiune si preia din sarcini cand pica cel principal. Failoverul se intampla instant si transparent pentru clienti, iar la locatia de backup nu trebuie sa ai cine stie ce echipamente, doar cat sa sustina pe perioada de avarie un mimim de clienti.

    Si pe mine m-a afectat evenimentul, tocmai ce facusem plinul si nu aveam cu ce sa-l platesc. Nu m-a deranjat treaba asta foarte tare cat m-a deranjat comunicarea pe subiect.

      (Citează)

  34. ING e un exemplu foarte misto de “profesionalism”:

    “ING Bank’s main data center in Bucharest, Romania, was severely damaged over the weekend during a fire extinguishing test. In what is a very rare but known phenomenon, it was the loud sound of inert gas being released that destroyed dozens of hard drives. The site is currently offline and the bank relies solely on its backup data center, located within a couple of miles’ proximity.”

    Citat de pe http://motherboard.vice.com/read/a-loud-sound-just-shut-down-a-banks-data-center-for-10-hours

    Cum sa ai datacenterul de DR in acelasi oras??? Cum sa nu iti testezi periodic sistemul de DR???

      (Citează)

  35. nwradu:
    Poate fi orice. Poate a intrat unul cu țigara aprinsă la servere și chiar a declanșat pe bune stingerea. Nu vom afla prea curând.

    Totuși, dacă ar fi ceva complet diferit până la urmă s-ar afla și cei de la ING s-ar face și mai de râs pentru că au mințit. Nu cred că riscă asta.

    eu am gasit asta la CISCO:
    http://www.cisco.com/c/dam/en/us/solutions/collateral/data-center-virtualization/ING_Romania_case_study.pdf

    zice asa:
    ING Romania has two data centers, linked by optical fiber, located some 10 kilometers apart in the Romanian capital, Bucharest. The bank installed a pair of Cisco ACE 4710 devices in its main data center, with load- balancing and failover, situated in a “demilitarized zone” between the Internet and the bank’s servers.
    “ Thanks to the Cisco ACE solution we no longer have to arrange maintenance
    windows, since one machine can take over immediately while the other is
    being worked on. The result is better continuity of customer service.”
    – Dan Cocosila, ACE project team leader, ING Romania

    eu zic sa il intrebe Radu pe acest domn Dan Cocosila care e adevarul?

    chiar este de la zgomotul gazului explicat aici acum 4ani?
    http://www.datacenterjournal.com/inert-gas-data-center-fire-protection-and-hard-disk-drive-damage/

    am inteles ca din 2012 de cand a fost scris articolul au evoluat lucrurile si hard discurile noi speciale pentru arhivarea de tip storage/nas/datacenter sunt relativ imune la zgomot fiind protejate de o incapsulare cu heliu tocmai pentru a se elimina propagarea undelor sonore in interiorul lor preintampinand crearea de microvibratii intre capetele de citire si platane.
    Mai multe detalii pe google.

    nu am inteles totusi cum de faceau back-up daca serverele erau afectate in acelasi datacenter? nu merge serverul dar faci back-up? la mine da cu virgula logica din explicatia lor.

    ce s-a intamplat cu cel de-al doilea datacenter? au facut simulare de incendiu si acolo nu?

    cea mai buna minciuna e adevarul, oare de ce am impresia ca e si altceva la mijloc?

      (Citează)

  36. Asteptam cu interes reactia BNR…
    Ei au astfel de atributii si responsabilitati prin legea lor de functionare, mai cu seama au fost niste probleme din care reiese incalcarea unor norme si cerinte emise…de BNR.
    Concluziile rezultate in urma investigatiilor, inclusiv recomandarile auditorilor ar trebui folosite ca exemplu/bune practici, iar recomandarile ar trebui sa devina obligatorii si pentru celelalte banci, pentru a evita situati similare in viitor…cum se practica in industria aeronautica.

      (Citează)

  37. nwradu:
    Mă refeream pentru clienți acum, că magazine n-am văzut să se plângă pe net. Nu cred că au scăzut așa mult încasările, nu sunt mulți cu POS-uri ING și nici mulți clienți care să nu aibă și ceva bani cash la ei.

    Să vezi distracție în hipermarket când pică întreg sistemul de carduri. Am pățit în ianuarie, era haos. Se mai întâmplă.

    Mega Image are Ing majoritatea POS urilor.Si nu, nu au toți cash la ei ca nu cumpără de 10 lei.Chiar faceati(bloggerii în general) o promovare a cardurilor ca unic mijloc de plată.Si spuneati ce bine este.Acum să înțeleg că aveți și cash la voi si era doar un experiment?

      (Citează)

    • Eu am plătit sâmbătă cu cardul, că n-am numai la ING. Fac în jur de două plăti cash pe săptămână, când sunt forțat. Mai nou am preferat să plătesc prin transfer bancar o comandă online (nu aveau plata cu cardul pe site) doar ca să nu aștept curierul cu cash, deși asta a adăugat o zi livrării.

      E mai simplu și mai rapid.

      Și metroul mai are probleme din când în când, asta nu înseamnă că-l voi ocoli zilnic.

        (Citează)

  38. nwradu: Nu sunt sigur de asta. Buteliile stau acolo în cameră, sunt la aceeași temperatură cu mediul înconjurător, adică vreo 14 grade sau cât e într-un datacenter aerisit.

    Din câte țin minte din termodinamică, p/T este constant, deci dacă crește presiunea în cameră, crește și temperatura. Frigul de care vorbești este de obicei observat pe butelii pentru că în interiorul lor scade presiunea și asta duce la o răcire tot în interior și apoi a pereților.

    Gresesti. Buteliile sunt presurizate la 200 bar, parca asa spuneai. Cand sunt descarcate, presiunea scade de la 200 bar la 1 bar, iar temperatura sa scade in consecinta ;)

      (Citează)

  39. Boris:
    “de la bnr”, “norme bnr”, “bnr cere”… da, corect, si toate bancile romanesti se supun, dar srl-urile din olanda nu.

    Are ING atata control pe bloaggeri si pe mass-media ca 90% din clienti habar nu au ca ei nici macar nu sunt inregistrati ca banca in Ro si nici sumele nu sunt garantate de statul roman (ci de cel olandez, paradis fiscal, care in caz de ceva, cu siguranta o sa se gandeasca fix la scla…. cetatenii romani).

    Popam ca prostii banii in fundul uneia dintre cele mai jegoase natii din europa (drogalai si fatalai), care in afara de invartit bani si un port nu produce nimic.

    Cand folosesc sisteme de compensare-decontare din Romania, au obligatia de a respecta normele si procedurile aplicabile in tara noastra….pana la urma nu deconteaza lei prin infrastructura interbancara din Olanda, ci prin cea din Romania.

      (Citează)

  40. Theodore Bogdan

    12/09/2016 la 12:41 PM

    Eu nu pot pricepe cum comercianții, mai ales cei mari și cu mărfuri/servicii ce nu se mai pot restitui (restaurante, benzinarii) , accepta să integreze sisteme de plată cu cu cardul ce nu pot funcționa și offline.
    Ce fac eu patron de restaurant dacă a mâncat clientul și apoi în baza anunțului cu acceptarea de card vrea să plătească pe bază de card? Ce fac eu benzinar daca stiu de problemă, intreb toți clienții înainte de a alimenta dacă au card la ING?
    Noi, consumatorii, ar trebui să cerem Asociaţiei procesatorilor de carduri sa asigure cumva procesare offline, de vreme ce vreo 60 de ani asta a fost regula. Cine suportă riscul de neplatii e altceva

      (Citează)

    • Te înțelegi cu clientul, îi ceri să-și lase ceasul, chemi poliția, îl lași să plece șamd. Ce faci dacă un ospătar scapă farfurie cu mâncare pe jos? O dai ca pierdere și gata.

      Pierderile în orice business sunt mult mai mari din diverse alte cauze (furt, pierderi tehnologice, greșeli ale angajaților) decât cele cauzate de faptul că, o dată pe an, nu funcționează POS-ul și nu poți încasa de la acei clienți care au doar card, nu și cash la ei.

      Altfel spus, îți doresc să ai genul acela de retaurant sau de afacere atât de plină de clienți încât în acele situații rare precum cea de mai sus să fie oameni de la care n-ai ce încasa.

      Procesarea offline e nesigură. Sistemul acela de la americani, prin care făceau o copie a cifrelor embosate de pe card, ar duce acum la fraude masive. Pe vremea când nu existau plăți online o fi fost bun, acum n-aș accepta altceva decât decontare online pe loc.

        (Citează)

  41. Gica fara Frica

    12/09/2016 la 1:04 PM

    interesante discutiile de aici despre ING FAIL si un posibil cover-up in media prin cenzuri pe Facebook ING Caffe , pe Softpedia unde se sterg comentarii si topicul este deja locked si in special putine mentiuni in media.

    http://forum.softpedia.com/topic/1067771-sistemul-ing-a-picat-total-10-septembrie-2016

    cum zicea cineva sunt cam putine mentionari in TV pe semne ca bugetele de publicitate sunt realocate acolo unde trebuie de catre Zenith Media Romania https://www.facebook.com/ZenithRomania chiar si pagina agentiei lor de media e putin ascunsa la search daca nu ai FB.

    anyway pot sa omita cat vor stirea despre ING de la tv, oricum se uita doar acel public care crede ca gazul a fost de vina.
    Tot onlineul e baza, sper sa nu fie cenzurata ori stersa aceasta stire de pe blogul tau, pe la unii bloggeri au cam ajuns si se observa din felul in care scriu ca in manualul de PR.

    respect

      (Citează)

  42. my2c: ce balmajeste ING-ul acum e doar “PR damage control”. vineri pe la 11 (~24h inainte) – loginul de homebank era crapat. i-a luat 3-4 minute sa faca un hash pe parola si sa-l compare cu hash-ul stocat. m-a aruncat afara din browser cu un pkmslogout?lang=ro&reason=error

      (Citează)

    • Homebank crapă o dată pe lună, nu-i ceva nou asta. Ultima oară am pățit-o în ultima zi când puteam plăti taxele către stat, not fun. Noroc că statul te iartă câteva zile.

        (Citează)

  43. Cine stie unde are data center-ul ING? Stiu ca la Petrom City au ceva servere dar nu e corebankingul acolo.

      (Citează)

  44. nwradu:
    Inclusiv la carduri de debit?

    Inclusiv…..pe principiul tranzactiilor facute in afara tarii (ex. daca faci o tranzactie in USA cu un card emis din Romania, nu se face acces online direct in Romania), tranzactiile sunt trimise la plata si dupa 2-3 zile….practic, in astfel de situatii, cardul de debit se transforma intr-unul de credit…

      (Citează)

  45. Cristian: cel mai probabil in propriul subsol, admin fiind doamna de la curatenie si mentenanta :)

    cel mai probabil in propriul subsol, adminul fiind doamna de la curatenie si mentenanta :) din greseala a maturat pe langa hidranti si a facut bum-poc-crash 404

      (Citează)

  46. Salut,

    Am citit articolul, interesant si documentat, bravo.

    Din pacate sunt destul de multi care isi dau cu parerea despre cum functioneaza un sistem bancar, dar care nu inteleg cat de complex si interconectat acesta poate fi. Sincer ma indoiesc ca INGul duce lipsa de proceduri, specialisti, resurse, backups sau centre de recuperare … pur si simplu a fost un incident major care a necesitat un downtime mai mare. Una e sa recuperezi un serviciu, alta e sa recuperezi zeci de servicii care au fost afectate de un incident. E normal ca timpul de restore sa creasca.
    Sunt client al mai multor banci (inclusiv ING) si cred sincer ca serviciile lor online sunt de departe cele mai bune, parerea mea. Nu am urmarit cum au gestionat incidentul de la inceput (nu eram online) dar pentru faptul ca au facut restore doar in 10 ore merita felicitati. Incidente de genul asta s-au intamplat si se vor mai intampla probabil, cel mai important e sa revii operational, 10 ore RTO la un incident major (cum banuiesc ca a fost) e acceptabil din punctul meu de vedere.
    E de asemenea normal ca atunci cand mergi la cumparaturi sa te gandesti si tu la un backup, fie cash, fie alt card, fie plateste altcineva … pana la urma eu personal nu cunosc nici un sistem cu 100% SLA.
    My 2c.

      (Citează)

  47. Sebastian:
    Deversarea substanței de stingere în incinta respectiva nu are legătură cu testarea sistemului. Sistemul se testează pe partea de detecție, si nu pe partea de stingere, cu robineți buteliilor în poziție închisă, existând chiar un sistem de întârziere a deversarii, în cazul unei erori. Exista cel puțin doua filtre care preîntâmpina declanșarea nedorita a sistemului. Poate fi vorba despre un lanț de erori umane. N vreau sa fiu în pielea firmei care asigura mentenanta sistemului.

    Im cadrul operatiunilor de mentenanta se testeaza echipamentele ca si sistem, respectiv subsistemele de detectie si alarmare la incendiu SI cel de stingere. Aceste teste se fac insa “la rece” cu deconectarea fizica si logica a declansatoarelor si a bobinelor electromagnetice/capse piroelectrice, etc. Sunt sigur ca e vorba de o eroare umana a celor care au executat revizia sistemelor. Exista cateva puncte “de siguranta” inainte de declansarea efectiva a buteliilor. De exemplu daca usile de acces sunt deschise, sistemul nu actioneaza. Exista butoane de intarziere a declansarii, care permit personalului sa paraseasca zona sau sa opreasca in timp util procedura de declansare..sunt sirene si panouri de avertizare care se declaseaza inainte de deversarea propriu zisa.. De asemenea, pt a activa deversarea trebuie sa exista alarma de incendiu pe cel putin 2 zone distincte din acel spatiu, sau chiar a 2 sisteme diferite de detectie (detectori standard de fun/temperatura) SI sisteme analizoare de aer (centrale de aspiratie)
    Eu cred ca este vina exclusiva a celor care au efectuat revizia atunci.
    De asemenea, este posibil (dar putin probabil) ca centrala de stingere sa se fi defectat si sa fi actionat singura.
    Probabil ca izometria pt acel sistem de stingere a fost corecta..la vremea ei..insa abia de curand s-a descoperit ca zgomotul produs de eliberarea a 200 bari de inergen duce la blocarea si distrugerea partiala a HDD-urilor, fapt care ar fi trebuit sa fie mentionat de firma care se ocupa de mentenanta catre ING si sa li se faca propuneri de upgrade.
    O alta problema a fost proiectarea gresita a trapelor de presurizare. Daca zgomotul nu “omora” hardurile, presiunea sigur o facea..
    Rezumat: culpa comuna, pt bani putini au contractat o firma fara pers. calificat pt aceste sisteme, ING nu a stiut/vrut sa plateasca inlocuirea duzelor clasice cu duze sillent, nu au avut un back-up online macar pt sistemele importante (nu pt web banking sau site sau atm-uri) dar macar pt operatiunile POS cu redundanta 100% (vezi server-e in sistem Marathon)

      (Citează)

    • Bun comentariu, probabil că ai dreptate în tot ce-ai zis, inclusiv faptul că problema cu sunetul nu era bine studiată la vremea instalării (plus că alte alternative de stingere oricum nu sunt).

        (Citează)

    • Întreb, că nu știu… În cazul ssd-urilor sint aceleași probleme la sunet sau la schimbarea presiunii? Că am bănuiala că nu… Plus, nu sunt o soluție mai sigură decât clasicele hdd-uri? Singura problema mă gindesc ar fi de costuri, dar… pentru o bancă nu ar trebui să conteze, cp vorbim de credibilitate, imagine, lucruri importante pentru o bancă, nu diferența de cost dintre un ssd si un hdd.

        (Citează)

    • Mircea – SSD-urile sunt ‘aproape’ indestructibile, no moving parts, in principiu cam poti sa arunci cu ele de pereti ca nu prea are ce sa li se intample la socuri asa mici (pana nu se rup in 2 fizic).
      Lucrurile nu functioneaza cum iti imaginezi tu intr-o banca – chiar daca e o banca din cele de top 3 (ING e pe locul 7) si are profit mult, e aproape imposibil de obtinut acordul management-ului pentru investitii “pentru ca e misto” sau “modern”, de regula trebuie fie sa se intample vreun incident, fie sa descopere vreun departament de control ca e o problema/risc major pentru a se lua in calcul o cheltuiala majora. Nu iti imagina ca schimbi un SSD ca la tine la pc, dai 100 EUR si gata. In primul rand vorbim de SSD-uri de server, cu preturi uriase, in al doilea rand nu vorbim de un singur server. Din simplul fapt ca *inca* folosesc hard disk-uri la server si deja avem o imagine reala despre starea investitiilor. Plus, sa nu uitam ca majoritatea covarsitoare a companiilor mari, inclusiv bancile de top, inca folosesc pc-uri cu monitoare de 19inch, cele patrate (format 4:3), rezolutie 1280×1024 – pentru ca asta e nivelul, din pacate, nu aproba nimeni o cheltuiala atata timp cat ceva ‘inca functioneaza’.
      Ca sa iti dau un exemplu, intr-una din bancile de top 10 in care am lucrat, a trebuit sa asteptam aproape 2 ani pana s-a aprobat cheltuiala pentru extinderea spatiului de stocare intern comun inter-departamental – la cei 10 TB deja existenti au mai adaugat inca un HDD de 2 TB, that’s all.

        (Citează)

  48. Azi era coada la bancomat …
    Văd ca au micșorat suma maxima de retragere la 2000 lei

      (Citează)

  49. Fyi Serverele sunt :
    – main IBM(externalizat) app 20 rackuri
    +1 locatie langa muncii (intern)
    + la eroilor in sediul nn asigurari ( ramas fara curent 3 zile acum cativa ani)

    nwradu:
    @Ariel: greu de răspuns la ce întrebi tu.

    Poate că s-a activat vreun alt server redundant, dar nu cred că această operațiune este instantanee. Ideea la backup-ul offsite este să-l ai ca să ai din ce pune la loc datele, dar nu musai să pornească instantaneu.

    Cât despre ora testelor, dacă e cum zic ei, testau sistemul de stingere a incendiilor, nu software-ul bancar ca să facă asta la 3 noaptea. Nu se așteaptau ca una să ducă la alta.

    Nu știu dacă datacenterul e în clădirea lor sau la un furnizor de asemenea servicii, dar mai mult ca sigur că este într-o încăpere separată pentru a controla bine accesul acolo. Prin urmare, serverele altor companii nu aveau de ce să fie afectate de sistemul din acea cameră.

    Cât despre comunicate… cine știe, poate că datele de contact ale clienților erau pe serverul picat și n-au avut cui trimite notificări.

    În mod normal ANPC sau BNR ar putea trece pe acolo pentru a vedea ce și cum. Există diverse reguli pentru sistemele IT bancare, dar o “anchetă” din asta va dura suficient de mult încât să uităm cu totul de problemă. Acum e doar așa, un weekend fără alte știri.

      (Citează)

  50. sa facem rezumatul.
    expert in termodinamica

      (Citează)

  51. Iuda:
    sa facem rezumatul.
    expert in termodinamica

    metalurgie, retele, fashion, gastro, zugrav, aparatura radar, incendii, sculer-matriter, zugrav, gsm, IT, politica, bancher, infrastuctura banci, saorme…samd.

    te-as lua de nevasta…

      (Citează)

  52. Poate asa tantile de la ghișeu din branch nu or sa mai fie asa arogante. Iar eu o sa mut marea majoritate de la ING la alta banca. Pentru ca nu e prima oara și pentru ca da, aroganta fetei de la ghișeu m-a deranjat și pentru ca un back up nu strica.

      (Citează)

  53. IohaNess: du, nu e doar backup, e un sistem de servere *redund

    Sistemul de back-ul in ansamblul sau nu este chiar real time, chiar daca informatia (baza de date) este copiata si este identica in doua centre diferite …
    Ideea este ca sistemele de plati sunt altceva decat niste simple baze de date…tranzactiile sunt in afara acestor baze de date, informatia este temporala, organizata in cozi de asteptare, in functie de canalul pe care vine (mobil, homebanking, sistemul bancii, etc.), iar aceste informatii sunt rutate doar pe o singura platforma, altfel platile s-ar dubla (daca s-ar face in mod identic pe ambele platfome – principala si DR), si absolut nimeni nu isi doreste lucrul asta.
    In caz de dezastru, trebuie verificate toate cozile astea de asteptare, ce tranzactii s-au efectuat si sunt confirmate, ca sa poti sa le trimiti in sistemul central, iar ce nu s-a efectuat trebuiesc re-rutate catre platforma secundara pentru a fi decontate.
    Aceste operatiuni consuma ceva timp, in functie de ce resurse sunt disponibile, cat de familiarizat este personalul cu astfel de proceduri de DR, insa ca medie, in cca. 2-3 ore ar cam tb sa fie functional site-ul secundar 100%….acesti timpi de repunere in functiune pot creste daca se constata ca sursa problemelor necesita investigatii mai amanuntite.
    Nu zic ca nu este rau sa fim un pic critici, insa apreciez ca nu este cazul sa demolam o banca pentru un astfel de incident nefericit…trebuie sa admitem ca nu exista perfectiune pe planeta asta.
    In plus, ganditi-va ca in viitor platile vor fi de tip instant, disponibile aproape 24/7/365….dependenta de tehnologie va creste in astfel de situatii, iar incidentele vor fi cu siguranta mai dese…..

      (Citează)

    Alătură-te discuției, lasă un mesaj

    E-mail-ul nu va fi publicat. Fără înjurături și cuvinte grele, că vorbim prietenește aici. Gândiți-vă de două ori înainte de a publica. Nu o luați pe arătură doar pentru că aveți un monitor în față și nu o persoană reală.

    Apăsați pe Citează pentru a cita întreg comentariul cuiva sau selectați întâi anumite cuvinte și apăsați apoi pe Citează pentru a le prelua doar pe acelea. Link-urile către alte site-uri, dar care au legătură cu subiectul discuției, sunt ok.


    Prin trimiterea comentariului acceptați politica de confidențialitate a site-ului.



    Vreți un avatar în comentarii? Mergeți pe gravatar.com (un serviciu Wordpress) și asociați o imagine cu adresa de email cu care comentați.

    Dacă ați bifat să fiți anunțați prin email de noi comentarii sau posturi, veți primi inițial un email de confirmare. Dacă nu validați acolo alegerea, nu se va activa sistemul și după un timp nu veți mai primi nici alte emailuri

    Comentariile nu se pot edita ulterior, așa că verificați ce ați scris. Dacă vreți să mai adăugați ceva, lăsați un nou comentariu.

sus