Các hệ thống rắc rối thất bại như thế nào?

Reading Time: 15 minutes
Có ba chủ đề chính cho cách thức làm việc và quản lý linh hoạt:
  • Con người
  • Hệ thống
  • Sự linh hoạt
Bài viết này liên quan đến hệ thống. Đây là một chuyên luận ngắn về bản chất của thất bại; Đánh giá thất bại như thế nào; Thất bại được đổ cho nguyên nhân gần nhất như thế nào; và sự hiểu biết mới về an toàn của bệnh nhân do bác sỹ Richard I. Cook, thuộc Phòng thí nghiệm Công nghệ Nhận thức – Đại học Chicago viết. 
Teal Unicorn đã được sự cho phép của tác giả dịch sang tiếng Việt, người thực hiện Dr Cherry Vũ.

1.Các hệ thống rắc rối là các hệ thống nguy hiểm nội tại.

Tất cả các hệ thống thú vị (ví dụ: giao thông, chăm sóc sức khỏe, sản xuất điện) vốn đã nguy hiểm và không thể tránh khỏi nguy hiểm bởi bản chất của chính nó. Tần suất nguy hiểm bộc lộ đôi khi có thể thay đổi nhưng các quá trình liên quan đến hệ thống tự chúng bản chất là nguy hiểm và không thể chữa được. Chính sự hiện diện của những mối nguy hiểm này thúc đẩy việc tạo ra sự chống lại nguy hiểm đặc trưng cho các hệ thống.

2. Các hệ thống rắc rối được bảo vệ nghiêm ngặt và chống lại thất bại thành công.

Hậu quả cao của sự thất bại dẫn đến việc xây dựng nhiều lớp phòng chống thất bại. Các biện pháp phòng vệ này bao gồm các yếu tố kỹ thuật rõ ràng (ví dụ: hệ thống dự phòng, tính năng ‘an toàn’ của thiết bị) và các yếu tố con người (ví dụ: đào tạo, kiến ​​thức), nhưng cũng có nhiều biện pháp phòng vệ tổ chức, thể chế và quy định (ví dụ: chính sách và thủ tục, chứng nhận, quy tắc làm việc, đào tạo đội ngũ). Hiệu quả của những biện pháp này là đưa ra một loạt lá chắn theo cách chuyển hướng hoạt động thoát khỏi tai nạn.
3) Thảm họa đòi hỏi nhiều thất bại – một điểm thất bại không đủ.
Các bộ phận phòng thủ hoạt động. Hệ thống hoạt động nói chung thành công. Thất bại thảm khốc xảy ra khi những thất bại nhỏ, rõ ràng vô hại hợp lại để tạo cơ hội cho một tai nạn hệ thống. Mỗi thất bại nhỏ này cần thiết để gây ra thảm họa nhưng chỉ có sự kết hợp giữa chúng lại với nhau mới đủ để cho phép thất bại. Nói cách khác, có nhiều cơ hội thất bại hơn là tai nạn hệ thống. Hầu hết những hư hỏng ban đầu bị những yếu tố an toàn được thiết kế trong hệ thống ngăn chặn. Những thất bại ở cấp độ vận hành hầu hết bị chặn, thường là bởi những người làm.
4) Các hệ thống rắc rối chứa nhiều thất bại thay đổi thường xuyên tiềm ẩn bên trong chúng.
Sự rắc rối của các hệ thống này khiến chúng không thể vận hành mà không có nhiều lỗi. Bởi những điều này không đủ để gây ra thất bại, chúng được coi là yếu tố nhỏ trong quá trình hoạt động. Việc loại bỏ tất cả những hư hỏng tiềm ẩn bị hạn chế chủ yếu bởi chi phí tốn kém, nhưng cũng do thật khó để thấy được những hỏng hóc đó có thể góp phần gây ra tai nạn như thế nào. Những hư hỏng thay đổi liên tục vì thay đổi công nghệ, tổ chức công việc và nỗ lực xóa bỏ những thất bại.
5) Các hệ thống rắc rối vận hành trong tình trạng xuống cấp.
Một hệ quả của những vấn đề đã đề cập ở trên là các hệ thống rắc rối vận hành như những hệ thống bị hư hỏng. Hệ thống vẫn tiếp tục hoạt động vì nó chứa quá nhiều phần có chức năng giống nhau và vì mọi người có thể làm cho nó hoạt động, mặc dù có nhiều chỗ hỏng. Những đánh giá sau tai nạn gần như luôn lưu ý rằng hệ thống này có lịch sử “trước tai nạn” gần như đã tạo ra thảm họa. Những lập luận cho rằng những điều kiện xuống cấp này đã được nhận ra trước khi xảy ra tai nạn thường được đưa ra dựa trên các khái niệm ngây thơ về hiệu suất hệ thống. Hoạt động của hệ thống rất năng động với các thành phần (tổ chức, con người, kỹ thuật) bị lỗi và được thay thế liên tục.
6) Thảm họa luôn quanh quẩn đâu đó
Các hệ thống phức tạp sở hữu tiềm năng để thất bại thảm khốc. Những người vận hành gần như luôn luôn ở gần về mặt vật lý và thời gian đối với những thất bại tiềm tàng này – thảm họa có thể xảy ra bất cứ lúc nào và gần như ở mọi nơi. Tiềm năng cho kết cục thảm khốc là một dấu hiệu của các hệ thống rắc rối. Không thể loại bỏ khả năng thất bại thảm hại như vậy; tiềm năng cho sự thất bại đó luôn luôn xuất hiện bởi bản chất của hệ thống.
7) Đánh giá sau tai nạn cho rằng tai nạn là do một “nguyên nhân gốc rễ” là sai về cơ bản.
Do những thất bại hiển nhiên đòi hỏi nhiều lỗi, không có một nguyên nhân riêng lẻ nào “gây ra” tai nạn. Có nhiều yếu tố góp phần tạo ra tai nạn. Từng yếu tố trong số đó không đủ điều kiện cần để tạo ra một tai nạn. Chỉ khi những nguyên nhân này kết hợp với nhau mới đủ để tạo ra một tai nạn. Thật vậy, chính sự liên kết của những nguyên nhân này tạo ra các tình huống cần thiết cho vụ tai nạn. Do đó, không có một nguyên nhân gốc riêng lẻ nào khiến tai nạn có thể xảy ra. Các đánh giá dựa trên lý do như nguyên nhân gốc không phản ánh sự hiểu biết kỹ thuật về bản chất của sự thất bại mà là nhu cầu xã hội, văn hóa để đổ lỗi cho các lực lượng tại hiện trường hoặc sự kiện gây ra kết quả.
8) Nhận thức sai lệch đánh giá sau tai nạn về sự thực hiện của con người.
Sự hiểu biết về kết quả làm cho có vẻ như các sự kiện dẫn đến kết quả xuất hiện nổi bật hơn đối với những người tham gia đánh giá tại thời điểm đó hơn là thực tế. Điều này có nghĩa là phân tích sau tai nạn thực tế về sự thực hiện của con người là không chính xác. Kiến thức về kết quả đầu độc khả năng của các nhà quan sát sau tai nạn để tái tạo lại quan điểm của những người đánh giá trước tai nạn với các yếu tố tương tự. Có vẻ như những người làm “đã nên biết rằng” các yếu tố gây ra tai nạn sẽ không tránh khỏi. Dự đoán sau khi sự việc đã xảy ra vẫn là trở ngại chính cho việc điều tra tai nạn, đặc biệt là khi có sự tham gia của con người.
9) Người vận hành có vai trò kép: là nhà sản xuất & là người bảo vệ chống lại thất bại.
Những người vận hành hệ thống để tạo ra sản phẩm mong muốn đồng thời có thể làm những việc ngăn chặn trước tai nạn. Tính năng năng động này của hệ thống hoạt động, việc cân bằng các yêu cầu để sản xuất với khả năng phát sinh thất bại là không thể tránh khỏi. Người ngoài cuộc hiếm khi thừa nhận tính hai mặt của vai trò này. Trong thời gian không có tai nạn, vai trò sản xuất được nhấn mạnh. Sau tai nạn, vai trò phòng thủ chống thất bại được nhấn mạnh. Tại bất kỳ thời điểm nào, góc nhìn của người ngoài cuộc đều sai về vai trò ổn định của người vận hành, họ đồng thời có hai vai trò này.
10) Tất cả các hành động của người thực thi là may rủi (đánh bạc).
Sau tai nạn, sự thất bại hiển nhiên thường có vẻ như là không thể tránh khỏi và hành động của những người thực thi là những sai lầm ngớ ngẩn hoặc cố tình coi thường thất bại sắp xảy ra. Nhưng tất cả các hành động của họ thực sự là những canh bạc, nghĩa là những hành động được thực hiện khi đối mặt với kết quả không chắc chắn. Mức độ không chắc chắn có thể thay đổi theo từng thời điểm. Hành động của họ sau tai nạn rõ ràng là sự may rủi; nói chung, phân tích hậu định coi những canh bạc này là những việc tệ. Nhưng ngược lại: kết quả thành công đó cũng là kết quả của các trò may rủi; không được đánh giá cao.
11) Những hành động ở điểm nóng giải quyết tất cả sự mơ hồ.
Các tổ chức mơ hồ, thường có chủ ý, về mối quan hệ giữa các mục tiêu sản xuất, sử dụng hiệu quả các nguồn lực, kinh tế và chi phí hoạt động, và rủi ro chấp nhận được của các tai nạn hậu quả thấp và cao. Tất cả sự mơ hồ được giải quyết bằng hành động của những người thực hiện ở điểm nóng của hệ thống. Sau một tai nạn, các hành động của mọi người có thể bị coi là ‘lỗi”, hoặc vi phạm, nhưng những đánh giá này bị thiên lệch nặng nề do nhận thức sau tai nạn và bỏ qua những yếu tố dẫn đến khác, đặc biệt là áp lực sản xuất.
12) Những người thực thi là những yếu tố thích nghi của các hệ thống phức tạp.
Những người làm việc và quản lý trực tiếp tích cực điều chỉnh hệ thống để tối đa hóa sản xuất và giảm thiểu tai nạn. Những sự thích ứng này thường xảy ra trên cơ sở từng thời điểm. Một số điều chỉnh này bao gồm: (1) Tái cấu trúc hệ thống nhằm giảm sự tiếp xúc với các bộ phận dễ bị tấn công dẫn tới hỏng hóc (2) Tập trung các nguồn lực quan trọng trong các lĩnh vực dự kiến có nhu cầu cao. (3) Tạo những đường dẫn để rút lui hoặc phục hồi từ các lỗi đã dự kiến ​​và không dự kiến. (4) Thiết lập các phương tiện để phát hiện sớm hiệu năng của hệ thống đã thay đổi để cho phép cắt giảm uyển chuyển trong sản xuất hoặc các phương tiện khác để tăng khả năng phục hồi.
13) Chuyên môn của con người trong các hệ thống phức tạp luôn thay đổi
Các hệ thống phức tạp đòi hỏi đầy đủ chuyên môn của con người trong hoạt động và quản lý. Chuyên môn này thay đổi khi công nghệ thay đổi, nó cũng thay đổi do cần phải thay thế các chuyên gia đã rời đi. Trong mọi trường hợp, đào tạo và hoàn thiện kỹ năng và chuyên môn là một phần chức năng của chính hệ thống. Do đó, tại bất kỳ thời điểm nào, một hệ thống rắc rối nhất định sẽ bao gồm những người thạo việc và những người học việc với các mức độ chuyên môn khác nhau. Những vấn đề quan trọng liên quan đến chuyên môn phát sinh từ (1) nhu cầu sử dụng chuyên môn khan hiếm như nguồn lực cho các nhu cầu sản xuất khó hoặc yêu cầukhắt khe nhất và (2) nhu cầu phát triển chuyên môn để sử dụng trong tương lai.
14) Sự thay đổi dẫn đến các hình thức thất bại mới.
Tỷ lệ tai nạn quá thấp trong các hệ thống đáng tin cậy có thể khuyến khích sự thay đổi, đặc biệt là việc sử dụng công nghệ mới, để giảm số lượng gây hậu quả thấp nhưng thất bại tần số cao. Những thay đổi này thực sự có thể tạo ra cơ hội cho những thất bại mới, tần suất thấp nhưng hậu quả cao. Khi những công nghệ mới được sử dụng để loại bỏ những lỗi hệ thống được biết rõ hoặc để đạt được hiệu suất chính xác cao, chúng thường tạo ra các đường dẫn mới cho các thất bại thảm khốc, quy mô lớn. Không có gì lạ, những thảm họa mới hiếm gặp này thậm chí còn có tác động lớn hơn những thảm họa được loại bỏ bởi công nghệ mới.
Những hình thức thất bại mới này rất khó nhìn thấy trước; sự chú ý chủ yếu là vào các đặc điểm có lợi giả định của những thay đổi. Do những tai nạn mới có hậu quả cao này xảy ra với tỉ lệ thấp, nhiều thay đổi hệ thống có thể xảy ra trước khi xảy ra tai nạn khiến chúng ta khó thấy được sự ảnh hưởng của công nghệ vào sự thất bại.
15) Quan điểm do “nguyên nhân” giới hạn hiệu quả của việc phòng bị trước các sự kiện trong tương lai.
Các biện pháp khắc phục hậu quả cho “lỗi của con người” thường được nhận định dựa trên các hoạt động phá rốicó thể gây ra tai nạn. Các biện pháp đánh giá sau cùng này rất ít có tác dụng để giảm khả năng xảy ra tai nạn thêm nữa. Trong thực tế, khả năng xảy ra tai nạn giống hệt nhau là cực kỳ thấp vì mô hình của những thất bại tiềm ẩn thay đổi liên tục. Thay vì tăng độ an toàn, các biện pháp khắc phục hậu tai nạn thường làm tăng sự liên kết và độ phức tạp của hệ thống. Điều này làm tăng số lượng tiềm năng của các sự cố ngầm và cũng làm cho việc phát hiện và ngăn chặn hành trình của tai nạn trở nên khó khăn hơn.
16) An toàn là một đặc tính của hệ thống chứ không phải của các thành phần của chúng
An toàn là một yếu tố mới nổi của các hệ thống; nó không nằm cố định trong một người, thiết bị, một phòng ban của một tổ chức hoặc hệ thống. An toàn không thể được mua hoặc sản xuất được; nó không phải là một tính năng tách biệt với các thành phần khác của hệ thống. Điều này có nghĩa là an toàn không thể bị thao túng như nguyên liệu hoặc nguyên liệu thô. Trạng thái an toàn trong bất kỳ hệ thống nào luôn năng động; thay đổi hệ thống liên tục đảm bảo rằng nguy cơ và quản lý của nó liên tục thay đổi.
17) Mọi người liên tục tạo ra sự an toàn.
Không có thất bại trong khi vận hành là kết quả hoạt động của những người thực thiđể giữ cho hệ thống nằm trong ranh giới thực hiện có thể chấp nhận được. Các hoạt động này, phần lớn, là một phần của những vận hành bình thường và mang tính bề mặt đơn giản. Nhưng do các hoạt động của hệ thống không bao giờ không có vấn đềnên sự thích nghi của người làm việcvới các điều kiện thay đổi thực sự tạo ra sự an toàn tại các thời điểm. Những điều chỉnh này thường giống với việc lựa chọn một thói quen được luyện tập tốt từ một tập hợp những phản hồi có sẵn; tuy nhiên, đôi khi, sự thích ứng là sự kết hợp mới lạ hoặc sáng tạo của các phương pháp tiếp cận mới.
18) Không có thất bại khi hoạt động đòi hỏi kinh nghiệm với thất bại.
Nhận biết nguy cơ và khống chế thành công các hoạt động của hệ thống để duy trì bên trong các ranh giới hiệu năng có thể chấp nhận được đòi hỏi phải tiếp xúc mật thiết với thất bại. Hệ thống hiệu năng mạnh mẽ hơn có khả năng xuất hiện trong các hệ thống mà những người vận hành có thể nhận ra điểm giới hạn. Đây là nơi hiệu năng hệ thống bắt đầu xấu đi, trở nên khó dự đoán hoặc không thể phục hồi dễ dàng. Trong các hệ thống nguy hiểm nội tại, các những người vận hànhđược kỳ vọng ​​sẽ gặp phải và hiểu rõcác mối nguy hiểm theo cách dẫn đến hiệu năng tổng thể như mong muốn. Việc tăng độ an toàn phụ thuộc vào việc cung cấp cho người vận hành các quan điểm hiệu chỉnh về các mối nguy hiểm. Nó cũng phụ thuộc vào việc cung cấp sự hiệu chỉnh về cách những hoạt động của họ di chuyển hệ hoạt động của hệ thống về phía hoặc ra xa điểm giới hạn.