ADC 디바이스 레벨에서 시스템 신뢰도 기능의 통합 진단 적용

2015-12-08
김언한 기자, unhankim@elec4.co.kr

글｜브라이언 리존(Bryan Lizon), 제품 마케팅 엔지니어, 정밀 델타시그마 ADC 텍사스 인스트루먼트

시스템 복잡도가 증가함에 따라 ADC IC 설계자들은 디바이스 레벨의 신뢰도 기능을 통합한 시스템 레벨 생산성 및 의존도를 제공하고 있다.

위험과 불확실성을 완화하는 것은 모든 엔지니어들에게 무엇보다 중요한 목표다. 따라서 신뢰도는 모든 엔지니어링 분야가 기초하고 있는 기본 원칙 중 하나로써, 21세기 이후로 이 개념은 훨씬 더 중대해질 것으로 보인다. 우리 삶과 세상을 나아지게 할 기술에 대한 의존도가 더욱 커지고 있기 때문이다. 자율주행차부터 스마트 에너지 전송, 공장자동화까지 전자 시스템에서 통합 신뢰도 기능의 필요성은 앞으로 계속 증대될 것이다.

이 요건에 부응하기 위해 아날로그 집적회로(IC) 설계는 시스템 레벨의 신뢰도 기능을 가져와 디바이스 레벨에 적용시키는 경향이 커지고 있다. 이런 방식으로 엔지니어들은 제대로 사용할 경우 디바이스 고장률을 낮추고 전체 시스템 신뢰도를 키울 수 있는 새로운 차원의 정보를 제공하고 있다.

신뢰도를 향한 열의

차세대 시스템의 복잡도가 늘어나고 보다 널리 사용됨에 따라(예컨대, 전 도시의 수도·전기·가스, 통신, 교통이 효율 관리됨), 시스템 부품들에 오류가 발생할 확률 역시 커질 것이다. 복잡한 시스템 엔지니어링의 경우, 어느 정도의 오류는 불가피하게 예상된다는 점을 감안했을 때, 신뢰도가 우선 시 되는 설계 관심사가 필요하다. 안타깝게도 엔지니어링과 신뢰도 논의에서 대부분의 대화 흐름은 특정 이벤트에서 무엇이 잘못되었는지에 대한 “교훈 학습적” 분석으로 흐르는 경우가 많다.

84(7).jpg

이에 대한 교과서적 사례가 챌린저 왕복우주선 폭발이다(1986)(그림 1). 평소와 달리 낮은 발사 준비 온도가 고체 로켓 부스터 조인트의 오링(O-ring)을 제대로 자리잡지 못하게 만들었고, 이것이 가압 연소 가스를 방출시켜 결국 왕복우주선과 7명의 우주비행사 전원 사망으로 이어졌다. 이와 같은 재난은 신뢰할 수 없는 시스템이 야기시킨 결과의 전형적 예로써, 신뢰할 수 있는 시스템이라면 절대로 해서는 안 되는 것이 무엇인지를 규정하는 데 도움을 준다.

다행히도 대부분의 복잡한 시스템은 엔지니어들의 꼼꼼하고 세심한 계획 덕분에 효율적으로 개발되어 오류 대비 안전장치와 함께 원래 의도했던 설계대로 작동하게 된다. 사실 미네소타(Minnesota) 미시시피 강(Mississippi River) 다리 붕괴(2007)와 딥워터 호라이즌(Deepwater Horizon) 석유굴착장치 폭발(2010) 사건에 대한 대대적인 보도가 있었지만, 미국에는 600,000개 이상의 다리와 3,500개의 석유굴착장치가 있고, 이들 모두 올바르게 유지관리되어 안전하고 확실히 운영되고 있다.

따라서 신뢰도에 관한 논의는 재난방지에 관한 것 보다 권장 운영 조건을 감안해 예상 가능한 기능을 제공하며 꼼꼼하게 설계된 고품질 제품을 제공하도록 더 많이 집중시켜야 한다. 하지만 앞으로의 미래가 이전엔 보지 못했던 수준까지의 기술 통합을 가져오고 시스템 복잡도가 도시 규모나 심지어 그 이상의 지역 규모로까지 증가한다면, 정적 디바이스의 한계로서 신뢰도를 규정하던 기존의 방식으로는 충분하지 않을 수 있다. 엔지니어들은 자신들의 설계 접근 방식을 재평가해야 할 것이다.

최소한의 신뢰도를 가진 부품 때문에 완제품의 신뢰도가 제한된다는 점을 알고 있는 IC 설계자들은 여러 기능의 전반적 건전성과 상태에 대해 피드백을 제공하는 새로운 지능형 디바이스들을 개발하고 있다.

또한 이들은 데이터 오류를 탐지하고 이를 교정할 수 있는 보다 적극적인 솔루션들을 구현하고 있다. 더 혹독하고 까다로운 산업 환경에서의 동작을 보장하기 위하여 모니터링 기능을 내장하여 샘플링 된 신호부터 외부 연결하여 전체 온도까지 시스템 입력 정보가 예상 허용 범위 내에 들었는지, 올바른 작동 순서인지 새로운 방식으로 확인하고 있다. 이는 디바이스의 신뢰도를 강화하고 주관 시스템에 귀중한 정보를 제공한다.

시스템의 신뢰도 강화

신뢰도에 몰두하는 설계자들은 디바이스의 고장률을 모델링하고 테스트하여 신뢰할 수 없는 동작 야기를 예상하거나 추정되는 조건들을 판단한다. 또한 이들은 이 상태에 도달하는데 시간이 얼마나 걸리는지도 파악한다. 그러기 위해서는 IC에 대한 무수히 많은 품질 테스트와 신뢰도 테스트가 필요하다.

예컨대 전기적 특성에 대해 최솟값과 최댓값을 알아낼 때, 사양에 따라 여러 가지 방식을 사용할 수 있다. 오프셋과 게인 오류, 공통 모드 신호 제거, 전원공급장치 잡음 제거와 같은 여러 파라미터들은 양산 과정에서 테스트된다. 이때 각 디바이스의 사양이 측정된다. 결정된 요건/조건을 충족하지 못하는 것들은 불합격 처리된다.

그밖의 디바이스 사양은 대개 30개 이상의 무작위 샘플링 된 디바이스의 특성화를 통해 결정된다. 이 데이터가 수집 및 분석되고 나면, 사용자가 예상할 수 있는 톨러런스(또는 마진)를 규정하는데, 그 표준편차(또는 멀티 표준편차)가 사용된다.

85(8).jpg

그림 2는 이렇게 특성화된 파라미터들 일부를 보여주고 있다(그러나 이것이 항상 통하는 것은 아니다).

다시 말해, 품질과 신뢰도가 단순히 각 전기 특성의 최솟값과 최댓값만 규정하는 것은 아니다. 품질과 신뢰도는 디바이스 신뢰도가 고온, ESD(Electrostatic Discharge), 습기 민감도, 열 임피던스와 같은 특정 환경 요인과 스트레스 요인의 범위에 어떤 영향을 받는지도 시험한다.

또한 특성화와 품질 데이터는 ELFR(Early Life Failure Rate)와 MTBF(Mean Time Between Failure)와 같은 유용한 정보를 제공하며, 디바이스가 신뢰할 수 있는 동작을 할 것이라 예상되는 제품 수명을 통계적으로 파악하여 사용자에게 제공한다.

86(6).jpg

반도체 산업에서 신뢰할 수 있는 작동과 신뢰할 수 없는 작동의 차이는 데이터시트의 권장 작동 조건 구간을 이용하면 쉽게 입증된다(그림 3). 이 경우 오류에 대한 일정 톨러런스를 감안해 각 파라미터에 대한 범위가 결정된다. 아날로그-디지털 컨버터(ADC) 입력이 이 범위 내에서 유지되면, 사용자는 제품의 수명기간 동안 예측 가능한 작동을 기대할 수 있다.

이것은 디바이스를 손상시키지 않을 사양 범위를 결정하는 절대적 최대 정격 값(Absolute Maximum Ratings)과는 다르다. 이러한 최대 정격 값이 권장 작동 조건보다 장기간이기는 하지만, 신뢰할 수 있는 ADC 성능에 대해 아무런 실제적 기대 값도 주지 못하며, 장기간 사용했을 때 돌이킬 수 없는 손상을 줄 수 있다.

그러나 권장 작동 조건 내에서의 작동이란 것은 그저 신뢰도를 유지하는 것일 뿐, 개선할 방식을 꼭 규정해주는 것은 아니다.

신뢰도를 높이는 한 가지 방법은 이중화(Redundancy)를 통하는 것이다. 이것은 규정된 고장이 일어나도 프로세스가 계속 동작하도록 하는 백업 시스템을 넣는 것이다. 대다수가 실생활에서 떠올릴 수 있는 이중화의 예가 바로 집 열쇠를 찾지 못할 때, 스페어 열쇠(Spare key)를 사용하는 경우이다. 생각 자체는 단순하지만, 이것이 극도로 복잡한 시스템에까지 확대되는 경우가 많다.

86-1(2).jpg

이론적으로 이중화를 모델링 하면 그림 4와 같다. 이 경우, n은 시스템의 중복 노드 숫자이다(n = 0이란 것은 중복성이 없다는 것이다). 이 그림은 보통 “Cold standby redundancy”을 묘사하고 있다. 이 경우, 한 시스템이 on 상태를 유지할 때 그 중복 시스템은 off 상태이다. 이 방식은 구동하되 사용하지 않는 백업 시스템에 대해 불필요한 스트레스를 줄여줄 수 있고, 사용하지 않는 시스템을 구동하는 에너지 비용을 절감할 수 있다. 그 외 이중화 방식으로는 “Hot standby” 또는 “Modular redundancy”가 있다. 이 방식은 모든 노드를 구동하면서 전환 속도나 최적 출력에 대한 에너지 예산을 희생시킨다.

이중화의 가장 큰 이점은 각 부품의 신뢰도를 넘어 시스템의 전체 신뢰도까지 증대시킬 수 있다는 것이다. 각 부품의 신뢰도가 독립적이라 가정할 경우, 보통 수준의 이중화라도 긍정적인 영향을 미칠 수 있다.

87(8).jpg

안타깝게도 진정한 독립성은 이루기 어려울 수 있다. 꼼꼼하게 계획하고 설계했더라도 예상치 못한 시스템 관계가 일견 독립적으로 보이는 중복 시스템에도 동시에 오류를 일으킬 수 있다. 이러한 현상을 “공유 사고(Common-mode failure)”라 한다. 챌린저 재난에서도 로켓 부스터 조인트에 2개의 오링이 있었고(그림 5), 두 번째는 첫 번째가 고장 났을 때를 대비해 넣은 것이었다. 비극적이게도, 차가운 온도가 양쪽 오링에 동일한 영향을 주었고 둘 다 동시에 고장 나게 됐다.

이중화를 시스템에 반영하면 신뢰도가 커지지만, 그 신뢰도를 개선할 수 있는 다른 방식들로 이를 보완할 수 있다. 그 예로 방사선 경화, 절연 장벽 높이기, PSR(Power Supply Rejection) 개선이 있다. 그러나 이러한 전술들이 고정적일 필요는 없으며, 시스템 레벨에서만 이를 활용할 필요도 없다. 사실, 한층 폭넓고 복잡한 시스템에 대한 필요성이 계속 증가함에 따라, 더욱 지능적인 부품, 그 부품이 속한 시스템 건전성에 적극적으로 기여하는 지능적 부품에 대한 필요성도 함께 커질 것이다.

미세 레벨(granular level)에서 동적 신뢰도 기능을 도입하면 복잡한 시스템 각각의 부분이 전체 수명 기간 동안 예상한 대로의 성능을 발휘할 수 있게 된다. 이점을 염두에 두고 IC 설계자들은 이러한 요건에 부응할 수 있는 ADC를 설계했다. 그것이 바로 32bit ADS1262 및 ADS1263이다. 이 디바이스들은 여러 모니터링 보호 기능을 담고 있는 업계 최초의 ADC에 속한다.

통합 진단

ADS1262/3(그림 6)에는 아날로그 모니터링 방식과 디지털 모니터링 방식이 둘 다 포함돼 있어 여분의 진단 능력을 발휘할 수 있다. 아날로그 도메인에서 집적 프로그래머블 이득 증폭기(PGA)에는 거리 밖 탐지와 레일 탐지가 둘 다 포함돼 있다. 전자는 차동 출력 전압이 풀 스케일 전압(VREF)의 ±105%를 초과하는지 여부를 탐지한다면, 후자는 PGA 출력 전압이 공급장치(AVDD 또는 AVSS)의 100 mV 내에 드는 경우 플래그를 설정한다. 또한 두 ADC 모두 레퍼런스 오류 탐지를 구현하고 있다. 이 경우, 차동 레퍼런스 전압(VREFP-VREFN)이 지속적으로 0.4 V와 비교된다. 이 ADC들은 각 전환 사이클마다 전환 상태 바이트를 업데이트하며, 이 값 아래로 떨어졌는지를 표시한다.

산업 환경에서 강력한 무선 주파수(RF) 신호를 통하거나 모터 또는 스위치기어에서 비롯된 과도현상, 심지어 부서진 기계를 용접하는 것과 같이 잡음을 발생시키는 유지관리 작업을 통해서도 잡음이 들어오는 경우가 많다. 이러한 잡음이 민감한 디지털 회로에 미치는 영향을 최소화하기 위해 ADS1262/3은 CRC(Cyclic Redundancy Checksum)와 단순 체크섬을 가지고 있는데, 이 둘 다 싱글비트 오류와 멀티비트 오류를 탐지한다.

이러한 탐지 방식 각각은 전환 결과로 알게 된 값을 계산하는 방식으로 이루어지며, 그런 다음 호스트 컨트롤러에서 비슷하게 계산된 값들과 비교가 이루어진다. CRC는 CRC-8-ATM 다항식(x8 + x2 + x + 1)으로 각 데이터 바이트를 나누는 반면, 단순 체크섬은 상수(0×9Bh)와 함께 네 개 데이터 바이트 모두를 합한다. ADC와 호스트의 결과가 다를 경우에 오류가 발생했다. 이런 경우, 데이터를 같은 사이클로 다시 읽어 들여 실제 샘플링 된 값을 복구할 수 있다.

88-1(3).jpg

때로는 출력 데이터가 계속 타당치 않게 보일 수 있는데, 이것은 잡음 환경보다 더 심각한 문제가 있음을 의미할 수 있다. ADC의 건전성에 의문이 갈 경우, ADS1262/3에 통합된 가장 유용한 기능 중 하나가 테스트 디지털-아날로그 컨버터(DAC)이다(그림 7).

ADC의 상태를 평가하기 위해 DAC는 알려진 싱글엔디드, 차동 전압 또는 공유 전압을 발생시킨다. 이것은 집적된 PGA의 모든 설정과 호환 가능하다. 이 알려진 입력 정보를 감안하여 ADC는 예상된 출력을 발생시켜야 한다. 그렇지 않을 경우, ADC 부품 중 하나가 제대로 작동하지 않을 수 있고, 그러면 추가 진단이 필요하게 된다.

더 나아가 테스트 DAC 신호를 외부로 돌려 의심되는 문제를 신호 조절 회로로 분석할 수 있다. 이 강력한 진단 도구를 그때마다 모니터링 할 수도 있고, 더 중요한 애플리케이션에서는 각각의 ADC 샘플 전환 후 고장 난 ADC로 인한 오류 데이터를 체크하는 데 이를 사용할 수도 있다.

메인 ADC의 건전성을 테스트하는 또 다른 방법은 ADS1263의 보조 24bit ADC로 중복 측정하여 이들이 일치하는지 보는 것이다. 일치하지 않는다면, 제어 시스템이 그 전환 상태 바이트를 체크해 모니터링 플래그 중에 설정된 것이 있는지 알아본다. 그게 아니라면, 테스트 DAC를 한쪽 ADC에 적용할 수 있기 때문에 알려진 똑같은 신호를 둘 다를 통해 전송하여 그들이 같은 값을 출력하는지 확인하는 것이다. 같은 값을 출력하지 않는다면 하나에 결함이 있는 것일 수 있다.

이러한 모니터링 기능은 여러 방식으로 ADC의 전반적 건전성과 개별 부품의 동작을 확인하며, 이상 동작을 탐지하면 이를 제어 시스템에 경고할 수 있다. 이를 통해 호스트는 보다 빠르고 보다 나은 인식 상태에서 결정을 내릴 수 있다. 여기서 결정이란 오작동 프로세스를 원하는 안전한 상태로 강제로 밀어 넣는다거나 전체 플랜트 폐쇄를 요구하는 것 등을 말한다. 결과적으로 이는 보다 안전한 작동 환경을 가능하게 한다.

모니터링 시스템 입력

상기의 기능들은 ADC 개별 부품 몇몇의 작동 상태를 파악하고 전체 건전성을 테스트하는 데 주로 사용된다. 폐쇄 시스템에서는 이것으로 충분할지 모른다. 그러나 ADC는 진공 상태에서 동작하지 않기 때문에 시스템에서 ADC로의 입력 정보를 모니터링 할 수 있는 추가 요소들이 필요하다.

예를 들어, ADS1262/3은 다이의 온도 감시에 사용할 수 있는 온도 센서를 구현하고 있다. 이 센서가 온도 상승을 보고하면, 외부 냉각 팬의 속도를 자동 조절할 수 있다. 이러한 기능이 전체 시스템에 존재하지 않는다면, 전체 시스템을 정지시켜 디바이스에 영구적 손상이 가는 것을 막고 문제해결에 필요한 시간을 벌 수 있다.

89(5).jpg

앞서 논의했듯이, ADS1263은 보조 24bit ADC를 구현하고 있고, 여기에는 자체 입력 멀티플렉서(MUX)와 PGA, 레퍼런스 입력이 포함돼 있다(그림 8). 이것은 열전대 애플리케이션의 CJC(Cold Junction Compensation)와 메인 ADC의 출력을 확인하는 등 여러 가지 쓰임새가 있지만, 이 보조 ADC를 여러 가지 다른 방식으로 사용해 시스템의 입력 정보를 모니터링 할 수도 있다.

앞서 설명한 중복 측정 방식을 확장시켜 메인 ADC의 중복 측정을 하는데 보조 ADC도 사용될 수 있지만 PGA 이득은 서로 다르다. 이러한 구성은 사용자가 브리지 측정 같이 작은 신호를 보다 넓은 관점에서 볼 수 있게 해준다. 또한 클리핑 또는 과도현상과 같이 눈치 채지 못하고 유효 데이터로 통과될 수 있는 변칙 이벤트 탐지를 가능하게 해준다. 이를 위해 사용자는 메인 ADC를 32 같은 큰 이득으로 구성하고, 보조 ADC는 1 이득으로 하게 된다(그림 9).

90(2).jpg

이러한 환경에서 호스트 컨트롤러는 문제 발생 시 빠르고 효과적인 결정을 내릴 만반의 준비를 갖추게 된다. 과도현상이 탐지되면, ADC는 테스트 DAC와 PGA/레퍼런스 모니터를 구동하여 어느 쪽 시그널 체인이 손상되었는지 판단할 수 있다. 아니면 그 신호가 클리핑일 경우, 이득을 다시 실시간 프로그래밍 하여 지속적으로 데이터를 정확히 캡처할 수도 있다.

보조 ADC의 또 다른 중요 기능은 메인 ADC를 중단하지 않고도 센서 바이어스 블록을 사용할 수 있다는 것이다. 센서 바이어스 기능은 구성 가능한 레지스터나 전류 소스들로 구성되며, 이것은 센서가 연결 해제될 경우 양이나 음의 풀 스케일 리딩을 제한한다. 열전대와 RTD 같은 멀티 센서를 사용할 경우, 메인 ADC는 첫 번째 센서의 출력을 샘플링 할 수 있고, 보조 ADC는 그 입력 위치에서 두 번째 센서의 센서 바이어스 리딩을 모니터링 한다. 이것은 메인 ADC가 두 번째 센서의 출력을 샘플링 할 준비를 할 때 그것이 여전히 연결되도록 해준다. 이 아이디어는 다시 세 번째, 네 번째, 다섯 번째 센서로 옮겨질 수 있다.

마지막 2가지 요점

첫째, 이러한 기능들이 내부 신뢰도 정보나 외부 신뢰도 정보를 제공하긴 하지만 어느 하나에만 국한되는 것은 아니다. 예를 들어, 차동 레퍼런스 전압이 시스템에 의해(내부적이지 않게) 제공될 수 있다. 그 결과 REF 모니터링 능력은 통합 기능과 비교해 시스템 입력에 대한 정보를 제공하게 된다. 또한 어떤 기능들은 디바이스의 신뢰도 향상에 사용할 필요가 없다. 그 예가 바로 CJC를 실행하는 ADC1263의 보조 ADC이다.

둘째, 벼락같은 특정 상황이 이러한 모니터링 능력을 손상시킬 수 있다. 따라서 이러한 능력은 항상 시스템 신뢰도 기능과 동시에 작동해야 하며, 절대로 정기 유지관리를 대신하거나 주관 시스템의 외부 테스팅을 대신해서는 안 된다.

미래 요구사항의 충족

기술이 미래 요구사항에 부응할 만큼 발전하게 되면, 지금도 복잡한 시스템을 하나의 일관된 독립체로 통합시켜야 할 필요성도 커지게 된다. 이러한 문제가 모든 분야의 엔지니어들에게 자신들이 만든 제품을 자신들이 지원하는 시스템의 신뢰 동작에 어떻게 수동적, 능동적으로 기여하게 할 것인지 고민하게 만들 것이다. 미래의 요구를 충족하기 위해 텍사스 인스트루먼트(TI)의 IC 설계자들은 신뢰도 기능들을 ADC에 구현하여, 이 디바이스들이 시스템의 전체 건전성과 종속성에서 능동적 역할을 할 수 있도록 지원하고 있다.

ADS1262/3의 경우에 이러한 기능을 통해 보다 신뢰할 수 있는 데이터를 확보할 수 있고, 목표하는 진단 정보를 다양하게 얻을 수 있다. 기능과 진단 모두, 제조업체의 최종 애플리케이션에서 제대로 사용할 경우엔 시스템의 신뢰도에 기여할 수 있다.

결과적으로 신뢰도 기능을 디바이스 레벨에서 구현한다면 제조업체들은 자신들이 개발한 복잡한 시스템의 고장률을 줄일 수 있으며, 놀라운 미래 비전을 현실로 더 가까이 가져올 수 있다.

90-1(1).jpg